Sommersemester 2012

Teamprojekt Parsing

Laura Kallmeyer, Wolfgang Maier

Mittwoch 12.30-14.00. Raum 23.21.U1.83. Beginn 04.04.2012.

Beschreibung:

Dieses Projekt soll in Zusammenarbeit mit dem DFG-Projekt Grammar Formalisms beyond Context-Free Grammars and their use for Machine Learning Tasks durchgeführt werden. Es soll um datengetriebenes Parsing gehen, das heisst, aus einer vorhandenen Baumbank soll eine probabilistische Grammatik gelernt werden, die dann zum probabilistischen Parsing verwendet werden kann. Je nachdem, was die Teilnehmer an Interessen mitbringen, kann man sich verschiedene Themen für das Teamprojekt vorstellen, z.B. a) Verwendung eines vorhandenen PCFG-Parsers zum Parsen mit einer Baumbank, bei der für das Training mit verschiedenen Annotationsvarianten experimentiert wird oder b) Transformation eines Konstituentenparsbaums in eine Dependenzstruktur, um einen Vergleich von Konstituentenparsern und Dependenzparsern zu ermöglichen. Die Wahl der jeweiligen Sprache hängt von den Sprachkenntnissen der Teamprojektteilnehmer und natrürlich der Verfügbarkeit von Ressourcen ab. Ein Parsing des Deutschen unter Verwendung von NeGra, Tiger und TüBa-DZ ist eine Möglichkeit.

Literatur

Michael Collins. Head-Driven Statistical Models for Natural Language Parsing. Computational Linguistics 29, 4, 2003. Pages 589-637.
Daniel Jurafsky and James H. Martin, Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Pearson Education International, Prentice Hall Series in Articial Intelligence, 2009. Second Edition. Chapter 14.
Slav Petrov, Leon Barrett, Romain Thibaux and Dan Klein. Learning Accurate, Compact, and Interpretable Tree Annotation. Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 433-440, 2006, Sydney.
Dan Klein and Christopher D. Manning. Accurate Unlexicalized Parsing. Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, 2003. Pages 423-430.
/