Context-aware neural machine translation

Herold, Christian; van Genabith, Josef; Ney, Hermann

doi:43373

Context-aware neural machine translation

Herold, Christian^RWTH*

2024

Verantwortlichkeitsangabevorgelegt von M.Sc. Physik Christian Herold

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; van Genabith, Josef (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2024-06-12

Online
DOI: 10.18154/RWTH-2024-06059
URL: https://publications.rwth-aachen.de/record/988184/files/988184.pdf

Einrichtungen

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Arbeit konzentrieren wir uns auf die Aufgabenstellung der maschinellen Übersetzung, d. h. die automatische Übersetzung von Texten aus einer Sprache in eine andere ohne menschliches Zutun. Obwohl in diesem Bereich in den letzten Jahren große Fortschritte erzielt wurden, besteht eine offensichtliche Einschränkung in der Tatsache, dass die meisten Systeme immer noch ausschließlich auf Satzebene arbeiten und den Kontext auf Dokumentebene ignorieren. In dieser Arbeit trennen wir uns von diesem Paradigma und entwickeln stattdessen Methoden zur Berücksichtigung von Kontextinformationen auf Dokumentenebene. Zunächst untersuchen wir Ansätze zur maschinellen Übersetzung auf Dokumentebene unter der Annahme, dass wir über ausreichende Mengen an parallelen Trainingsdaten auf Dokumentebene verfügen. Wir zeigen, dass der Kontext auf der Seite der Zielsprache sehr wichtig ist, damit das System die Kontextinformationen korrekt einbeziehen kann. Wir beschreiben und vergleichen verschiedene Ansätze zur Dekodierung mit einem neuronalen maschinellen Übersetzungssystem auf Dokumentenebene. Wir schlagen neue Ansätze für die maschinelle Übersetzung auf Dokumentenebene vor, mit dem Ziel, die Größe des Kontext noch weiter zu erhöhen. Unsere Experimente zeigen, dass unsere Ansätze konkurrierende Methoden für große Kontextgrößen in Szenarien mit wenigen verfügbaren Trainingsdaten übertreffen. Als Nächstes gehen wir zu realistischeren Datenbedingungen über, bei denen wir nur sehr wenige parallele Daten auf Dokumentenebene zur Verfügung haben. Wir stellen die Frage, ob wir die Übersetzungsqualität verbessern können, indem wir monolinguale Daten auf Dokumentenebene in den maschinellen Übersetzungsworkflow einbeziehen. Zu diesem Zweck verbessern wir die Integration eines Sprachmodells mit einem Übersetzungsmodell, indem wir das implizite Sprachmodell des Übersetzungssystems explizit kompensieren. Wir zeigen, dass wir ein Übersetzungssystem auf Satzebene durch die Fusion mit einem Sprachmodell auf Dokumentebene sowie durch synthetische parallele Daten auf Dokumentebene mit Kontextinformationen verbessern können. Schließlich beschreiben wir unsere Anstrengungen bezüglich der Datenfilterung für die maschinelle Übersetzung. Die Menge an parallelen Trainingsdaten für die maschinelle Übersetzung nimmt ständig zu. Da aber diese neuen Korpora automatisch über Web-Crawling aligniert werden, enthalten sie oft erhebliche Mengen an schlechten Daten, die bei der Systementwicklung schädlich sein können. Wir analysieren, welche Arten von schlechten Datenpunkten in typischen Trainingskorpora vorhanden sind und wie gut ein modernes Datenfiltersystem diese erkennen kann. Darüber hinaus schlagen wir neuartige Ansätze für die Datenfilterung vor, die nicht von der Existenz großer Mengen bekanntermaßen sauberer Daten abhängig sind. Wir vergleichen unsere Methoden mit den gängigsten Ansätzen aus der Literatur und zeigen, dass unsere Methoden vergleichbar gute Ergebnisse liefern. Unsere Ergebnisse legen nahe, dass wir üblicherweise erhebliche Teile der Trainingsdaten entfernen können, ohne das dies das finale Übersetzungssystem verschlechtert.

In this work, we focus on the task of machine translation, which means the automatic translation of text from one language to another without human intervention. While great advances have been made in this field in recent years, one clear limitation is the fact that most systems still operate solely at sentence-level, ignoring document-level context. In this work, we depart from this sentence-level paradigm and instead develop methods for taking the document-level context information into account. Firstly, we discuss approaches to document-level machine translation under the assumption that we have sufficient amounts of document-level parallel training data available. We show that target-side context is very important for the system to correctly incorporate context information. We describe and compare different approaches to decoding with a document-level neural machine translation system.We propose novel approaches to document-level machine translation, with the goal of increasing the context size even further. Our experiments show that our approaches outperform competing approaches for large context sizes in low resource scenarios. Secondly, we move to more realistic data conditions where we only have very little parallel document-level data available. We ask whether we can improve translation quality by incorporating document-level monolingual data into the machine translation workflow. To this end, we improve the integration of a language model with a translation model by explicitly compensating for the implicit language model of the translation system. We show that we can infuse a sentence-level translation system with context information via fusion with a document-level language model as well as via synthetic document-level parallel data. Finally, we describe our efforts regarding data filtering for machine translation. The amount of data for the task of machine translation is ever increasing, but since these new corpora are automatically aligned via web-crawling, they often contain significant amounts of noise that can potentially be hurtful during system development. We analyze what types of noise are present in typical training corpora and how well a state-of-the-art data-filtering system can detect them. Furthermore, we propose novel approaches to the task of data filtering that do not rely on the existence of large amounts of known-to-be-clean data. We compare our methods against the most common approaches from literature and show that our methods perform on par. Our results suggest that typically we can remove large portions of the training data without loss in performance.

OpenAccess:
PDF
(additional files)