Wintersemester 2014/15
Dienstag, 10:30 - 12:00
Raum 23.02.U1.22
Miriam Kaeshammer, Sprechstunde nach Vereinbarung
Maschinelle Übersetzung beschäftigt sich mich der automatischen Übersetzung von Texten durch eine Übersetzungssoftware, z.B. Google Translate. Anstatt die Regeln und Modelle hierfür von Hand zu schreiben, werden seit einigen Jahren statistische Verfahren eingesetzt. Hierbei werden die Übersetzungsmodelle mit Hilfe von maschinellem Lernen aus großen Mengen von bereits übersetzten Texten gelernt.
Dieser Kurs richtet sich an Studierende, die ihre Grundkenntnisse zum Thema statistische maschinelle Übersetzung erweitern wollen. Voraussetzung für die Teilnahme an dem Kurs ist ein abgeschlossener Kurs "Statistische maschinelle Übersetzung", wie er regelmäßig im Sommersemester angeboten wird (SS 2014 von Herrn Rumpf, SS 2013 von Käshammer/Wurm), oder gleichwertiges Vorwissen. Bitte im Zweifelsfall zur Klärung Kontakt mit mir aufnehmen.
Wir werden in diesem Kurs zunächst das vorherrschende Paradigma in der statistischen maschinellen Übersetzung, die phrasenbasierte Übersetzung, besprechen/einführen/wiederholen: das phrasenbasierte Übersetzungsmodell und das Lernen solcher Modelle anhand von großen parallelen Korpora sowie die Dekodierung (=das eigentliche Übersetzung) mit einem solchen Modell. Wir werden uns auch mit direkten Erweiterungen dieses Modells beschäftigen. Weiterer Inhalt könnten dann sogenannte baumbasierte/syntaxbasierte Übersetzungsverfahren sein, die sich in Form der Grammatik und Dekodierungsalgorithmus an monolingualem Parsing orientieren.
[Themenliste für die Vorträge] - Bitte bis zum 22.10.2014 eintragen.
Kapitel 7 im SMT-Buch
[Folien] von Philipp Koehn, bis Folie 11. Achtung: einige Ungenauigkeiten und auch Fehler. Diese wurden in der Sitzung an der Tafel berichtigt und sie sind auch in den neueren Ausgaben des SMT-Buches korrigiert.
[Übung 1] [Beispiellösung für Übung 1, Aufgabe 2]
Kapitel 4 im SMT-Buch
[Folien] von Philipp Koehn. Höhere IBM-Modelle wurden nicht behandelt. Achtung: einige Ungenauigkeiten und auch Fehler. Diese wurden in der Sitzung an der Tafel berichtigt und sie sind auch in den neueren Ausgaben des SMT-Buches korrigiert.
[Übung 2] [Zu Übung 2, Aufgabe 1: lexikalische Übersetzungswahrscheinlichkeiten nach drei Iterationen EM]
Kapitel 5 im SMT-Buch
[Folien] zu phrasenbasierten Übersetzungsmodellen von Philipp Koehn. Achtung: einige Ungenauigkeiten und auch Fehler. Diese wurden in der Sitzung an der Tafel berichtigt und sie sind auch in den neueren Ausgaben des SMT-Buches korrigiert.
[Folien] zur Dekodierung mit phrasenbasierten Modellen von Philipp Koehn.
[Übung 3] [Beispiellösung für Übung 3, Aufgabe 2]
[Übung 4.1][Beispiellösung Graph]
Kapitel 8 im SMT-Buch
Source reordering as preprocessing: Clause Restructuring for Statistical Machine Translation, M. Collins et al., ACL 2005 [Folien]
Automatic learning of source reordering rules: Automatically Learning Source-side Reordering Rules for Large Scale Machine Translation, D. Genzel, Coling 2010 [Folien]
Using morphology on the source side: Improving Statistical MT through Morphological Analysis, S. Goldwater & D. McClosky, EMNLP 2005 [Folien]
German compound splitting for MT: How to Avoid Burning Ducks: Combining Linguistic Analysis and Corpus Statistics for German Compound Processing, F. Fritzinger & A. Fraser, WMT 2010 [Folien]
Reranking with syntactic features (Knowledge of machine learning (perceptron) will help!): Discriminative Syntactic Reranking for Statistical Machine Translation, S. Carter & C. Monz, AMTA 2010 [Folien]
SMT-Buch: Philipp Koehn, Statistical Machine Translation, Cambridge University Press, reprint. with corr., 2011 (einige Exemplare und als elektronische Ressource in der ULB, Zugang nur aus dem Uninetz), Errata
C. Manning and H. Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999 (in ULB vorhanden)
D. Jurafsky and J. H. Martin, Speech and Language Processing, Pearson Prentice Hall, 2nd edition, 2009, Kapitel zu Machine Translation (in ULB vorhanden)
Online-Tutorials, z.B. von Kevin Knight oder Michael Collins