Computational Lexical Semantics

Dozierende:  Dr. Younes Samih and Dr. Timm Lichte
Raum: 24.53.01.81
Termin: Donnerstags, 08:30–10:00

Kursbeschreibung

Die lexikalische Semantik beschäftigt sich klassischerweise mit der Bedeutung von Wortformen und den zugrundeliegenden Lexemen, aus der sich dann die Bedeutung eines Satzes qua Komposition ergibt. Verallgemeinernd könnte man mit Pustejovsky (2016) sagen, dass das Lexikon die semantischen Informationen enthält, die für die Bedeutungskomposition notwendig sind („the information required for composition“). Diese sinnvoll klingende Eingrenzung wirft aber grundsätzliche Fragen auf, die schwer abschließend zu beantworten sind: (i) Was ist „die Bedeutung“, insbesondere wenn Wortformen mehr als eine mögliche Bedeutung haben, z.B. die Unterlagen oder abschlägt? (ii) Was enthält das Lexikon? Wortformen können selber dekomponierbar sein, z.B. Bundestagsmandat oder belächelst, größere phraseologische Einheiten dagegen nur schwer, z.B. ins Gras beißen. Schließlich: (iii) Wie repräsentieren wir lexikalische Bedeutung so, dass wir damit etwas anfangen können, also zum Beispiel die Satzbedeutung aus der Wortbedeutung exakt berechnen können?

In diesem Seminar werden die computerlinguistischen „Antworten“ auf diese Fragen im Mittelpunkt stehen. Das heißt, wir werden uns entsprechende lexikalische Ressourcen (WordNet, FrameNet, VerbNet) und annotierte Korpora (SemCor, PropBank, OntoNotes) ansehen. Wir werden uns dann mit computerlinguistischen Anwendungen beschäftigen, insbesondere Word Sense Disambiguation (WSD) und Semantic Role Labeling (SRL), die letztlich darum kreisen, lexikalische Mehrdeutigkeit automatisch aufzulösen.

Das Seminar ist als Lektüreseminar angelegt und soll von Referaten begleitet werden. Es richtet sich an fortgeschrittene Bachelorstudenten, die bereits die Einführung in die Semantik gehört haben.

Vorgaben für Referate

  • Das Referat wird von maximal 2 Studierenden gehalten.
  • Für die Folien muss eine der folgenden Vorlagen verwendet werden: PowerPoint (HHU-Intranet), LaTeX (Overleaf)
  • Die Folien werden in der Sprache des behandelten Textes geschrieben.

Literaturangaben

Grundbegriffe: Lexikon und Lexikalische Semantik

Cruse, D. Alan. 2001. The Lexicon. In Mark Aronoff & Janie Ress-Miller (eds.), The Handbook of Linguistics, 238–264. Oxford, UK: Blackwell Publishers. doi:10.1002/9780470756409.ch10.

Jurafsky, Daniel & James H. Martin. 2009. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, §19–20. 2. edn. Upper Saddle River, NJ: Prentice Hall.

Pustejovsky, James. 2016. Lexical Semantics. In Maria Aloni & Paul Dekker (eds.), The Cambridge Handbook of Formal Semantics (Cambridge Handbooks in Language and Linguistics), 33–64. Cambridge, UK: Cambridge University Press.

Verbklassifizierung

Dowty, David. 1991. Thematic Proto-Roles and Argument Selection. Language 67(3). 547–619.

Levin, Beth. 1993. English Verb Classes and Alternations: A Preliminary Investigation. Chicago, IL: University of Chicago Press.

Generative Lexicon

Pustejovsky, James. 1991. The Generative Lexicon. Computational linguistics 17(4). 409–441.

Pustejovsky, James. 1995. The Generative Lexicon. Cambridge, MA: MIT Press.

WordNet & SemCor

Fellbaum, Christiane (ed.). 1998. WordNet: An Electronic Lexical Database (Language, Speech, and Communication). Cambridge, MA: MIT Press.

Miller, George A., Martin Chodorow, Shari Landes, Claudia Leacock & Robert G. Thomas. 1994. Using a semantic concordance for sense identification. In Proceedings of the workshop on Human Language Technology (HLT ’94), 240–243. Stroudsburg, PA: Association for Computational Linguistics. doi:10.3115/1075812.1075866.

Miller, George A., Claudia Leacock, Randee Tengi & Ross T. Bunker. 1993. A semantic concordance. In Proceedings of the workshop on Human Language Technology (HLT ’93), 303–308. Stroudsburg, PA: Association for Computational Linguistics. doi:10.3115/1075671.1075742.

Miller, George A. 1995. WordNet: A lexical database for English. Communications of the ACM 38(11). 39–41.

FrameNet

Fillmore, Charles J., Christopher R. Johnson & Miriam R. L. Petruck. 2003. Background to Framenet. International Journal of Lexicography 16(3). 235-250. doi:10.1093/ijl/16.3.235.

Fillmore, Charles J., Charles Wooters & Collin F. Baker. 2001. Building a Large Lexical Databank Which Provides Deep Semantics. In Proceedings of the 15th Pacific Asia Conference on Language, Information and Computation (PACLIC), 3–26. Hong Kong, China: City University of Hong Kong. http://www.aclweb.org/anthology/Y01-1001.

VerbNet & PropBank & OntoNotes

Kipper, Karin, Anna Korhonen, Neville Ryant & Martha Palmer. 2008. A large-scale classification of English verbs. Language Resources and Evaluation 42(1). 21–40. doi:10.1007/s10579-007-9048-2.

Palmer, Martha, Daniel Gildea & Paul Kingsbury. 2005. The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics 31(1). 71–106. doi:10.1162/0891201053630264.

Word Sense Disambiguation (WSD)

Banerjee, Satanjeev & Ted Pedersen. 2002. An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet. In Alexander Gelbkuh (ed.), Computational Linguistics and Intelligent Text Processing (CICLing 2002) (Lecture Notes in Computer Science 2276), 136–145. Berlin: Springer. doi:10.1007/3-540-45715-1_11.

Edmonds, Philip & Graeme Hirst. 2002. Near-Synonymy and Lexical Choice. Computational Linguistics 28(2). 105–144. doi:10.1162/089120102760173625.

Lesk, Michael. 1986. Automatic sense disambiguation using machine readable dictionaries. In Proceedings of the 5th annual international conference on Systems documentation (SIGDOC ’86), 24–26. New York: ACM Press. doi:10.1145/318723.318728.

McCarthy, Diana. 2009. Word Sense Disambiguation: An Overview. Language and Linguistics Compass 3(2). 537–558.

Popov, Alexander. 2018. Neural Network Models for Word Sense Disambiguation: An Overview. Cybernetics and Information Technologies 18(1). doi:10.2478/cait-2018-0012.

Raganato, Alessandro, Jose Camacho-Collados & Roberto Navigli. 2017. Word sense disambiguation: A unified evaluation framework and empirical comparison. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, 99–110.

Tripodi, Rocco & Marcello Pelillo. 2017. A Game-Theoretic Approach to Word Sense Disambiguation. Computational Linguistics 42(1). doi:10.1162/COLI_a_00274.

Semantic Role Labeling (SRL)

Jurafsky, Daniel & James H. Martin. 2017. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, §22. Third edition draft of August 28, 2017. https://web.stanford.edu/ jurafsky/slp3/22.pdf.

Palmer, Martha, Daniel Gildea & Nianwen Xue. 2010. Semantic Role Labeling (Synthesis Lectures on Human Language Technologies 1), vol. 3. Morgan & Claypool Publishers. doi:10.2200/s00239ed1v01y200912hlt006.

Pradhan, Sameer S., Wayne Ward & James H. Martin. 2008. Towards Robust Semantic Role Labeling. Computational Linguistics 34(2). 289–310. doi:10.1162/coli.2008.34.2.289.

Zhou, Jie & Wei Xu. 2015. End-to-end learning of semantic role labeling using recurrent neural networks. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 1127–1137. Beijing, China: Association for Computational Linguistics. http://www.aclweb.org/anthology/P15-1109.

Kombination mit Distributional Semantics (DS)

Faruqui, Manaal, Jesse Dodge, Sujay Kumar Jauhar, Chris Dyer, Eduard Hovy & Noah A. Smith. 2015. Retrofitting Word Vectors to Semantic Lexicons. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 1606–1615. doi:10.3115/v1/n15-1184.

Rothe, Sascha & Hinrich Schütze. 2017. AutoExtend: Combining Word Embeddings with Semantic Resources. Computational Linguistics 43(3). 593–617. doi:10.1162/coli_a_00294.