h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

An exploration of alignment concepts to bridge the gap between phrase-based and neural machine translation = Von der phrasenbasierten zur neuronalen maschinellen Übersetzung mittels diverser Alignierungskonzepte



Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker Jan-Thorsten Peter

ImpressumAachen 2020

Umfang1 Online-Ressource (xi, 110 Seiten) : Illustrationen, Diagramme


Dissertation, RWTH Aachen University, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2020-07-22

Online
DOI: 10.18154/RWTH-2020-09034
URL: https://publications.rwth-aachen.de/record/801694/files/801694.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Maschinelles Lernen) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
MT (frei) ; NMT (frei) ; SMT (frei) ; alignment (frei) ; machine translation (frei) ; neural networks (frei) ; phrase-based (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die maschinelle Übersetzung, das heißt die automatischen Übersetzung von Text von einer natürlichen Sprache in eine andere, hat in den letzten Jahren massive Veränderungen erfahren. Phrasenbasierte Systeme stellten mehr als ein Jahrzehnt lang den Stand der Technik da. Fortschritte in der Struktur neuronaler Netze und in der Rechenleistung ermöglichten den Aufbau neuronaler maschineller Übersetzungssysteme, welche zunächst die phrasenbasierten Systeme verbesserten und später übertrafen. Die beiden Ansätze haben ihre Stärken in verschiedenen Bereichen. Die phrasenbasierten Systeme ermöglichen schnelle Übersetzungen auf der CPU und können durch Analyse der Übersetzungstabellen nachvollzogen werden. Im Gegensatz dazu erzeugt die neuronale maschinelle Übersetzung flüssigere Übersetzungen und ist robuster gegenüber kleinen Änderungen in den Eingabesätzen. Diese Dissertation zielt darauf ab, beide Systeme durch die Kombination ihrer Vorteile zu verbessern. Der erste Teil dieser Arbeit konzentriert sich auf die Analyse und Integration neuronaler feedforward-Netze in phrasenbasierte Systeme. Schon kleine Änderungen in der Eingabe eines phrasenbasierten Systems können ein Ereignis, welches gesehen wurde, in ein ungesehenes Ereignis verwandeln. Neuronale Netze sind aufgrund der stetige Darstellung des Eingabesatzes im mehrdimensionalen im Vektorraum in der Lage, direkt mit solchen Fälle umzugehen. Phrasenbasierte Systeme sind hingegen gezwungen, auf kürzere Phrasen zurückzugreifen. Dies bedeutet einen Verminderung des Übersetzungskontextes, was im Allgemeinen zu einer Verschlechterung der Übersetzungsqualität führt. Wir kombinieren die Flexibilität, die durch neuronale feedforward-Netze geboten wird, mit phrasenbasierten Systemen um eine Verbesserung gegenüber den rein phrasenbasierten Systemen zu erzielen. Wir verwenden hier neuronale feedforward-Netze, da sie konzeptionell einfach anzuwenden sind. In der Regel nutzen neuronale feedforward-Modelle nur einen lokalen Quell- und Zielkontext. Aufgrund dieser Struktur können sie keine Abhängigkeiten zwischen Wörtern über große Entfernungen erfassen. Wir verbessern die Leistung von diesen Modellen, indem wir die Abhängigkeiten über große Entfernungen effizient in ihre Struktur einbauen. Dafür nutzen wir einen Bag-of-Words Ansatz als zusätzlich Eingabe. Der zweite Teil der Arbeit konzentriert sich auf den rein neuronalen maschinellen Übersetzungsansatz unter Verwendung des Encoder-Decoder-Modells in Verbindung mit einem Aufmerksamkeits-Mechanismus. Dieser Mechanismus entspricht indirekt der weichen Alignierung von Quell- zu Zielwörtern. Bei jedem Übersetzungsschritt verlässt sich dieses Modell nur auf seinen vorherigen internen Zustand und die aktuelle Decoder-Position, um die Aufmerksamkeitsgewichte zu berechnen. Es gibt kein direktes Feedback von den zuvor verwendeten Aufmerksamkeitsgewichten. Inspiriert durch das Hidden-Markov-Modell, bei welchem die Vorhersage der aktuellen Position von der vorherigen Position abhängt, verbessern wir das Aufmerksamkeitsmodell, indem wir eine direkte Verbindung zu den zuvor verwendeten Aufmerksamkeitgewichten hinzufügen. Zusätzlich verwenden wir Wortalignierungen für neuronale Netze, um die neuronale Netze während des Trainings in die richtige Richtung zu lenken. Indem wir ein Abweichen des Aufmerksamkeits-Mechanismus vom Wort-Alignment als zusätzliche Kostenfunktion einbeziehen, erzielen so trainierte Netzwerke bessere Ergebnisse. Auch wenn die neuronalen Modelle auf dem neuesten Stand der Technik keine Wortalignierungen mehr erfordern, gibt es immer noch Anwendungen, die von Alignments profitieren, wie zum Beispiel die Visualisierung paralleler Sätze, das Erstellen von Wörterbüchern, die automatische Segmentierung langer paralleler Sätze und das erwähnte Training neuronaler Netzen. Wir stellen eine Möglichkeit vor, neuronale Modelle anzuwenden, um Wortalignierungen zu erstellen, welche eine höhere Genauigkeit besitzen als Wortalignierungen, welche mit IBM- und Hidden-Markov-Modellen erzeugt wurden. Wir evaluieren diese Techniken im Rahmen von mehreren öffentlichen Evaluierungskampagnen. Methoden, welche häufig komplexe Arbeitsabläufe mit sich bringen, auf neue Übersetzungsaufgaben anzuwenden ist eine mühsame und fehleranfällige Aufgabe. Wir stellen einen Workflow-Manager vor, welcher im Rahmen dieser Dissertation entwickelt worden ist, um diese Aufgabe zu vereinfachen und einen leichteren Wissenstransfer zu ermöglichen.

Machine translation, the task of automatically translating text from one natural language into another, has seen massive changes in recent years. After phrase-based systems represented the state of the art for over a decade, advancements were made in the structure of neural networks and computational power. These advancements made it possible to build neural machine translation systems which first improved and later outperformed phrase-based systems. These two approaches have their strength in different areas. The well-known phrase-based systems allow fast translations on CPU that can easily be explained by examining the translation table. In contrast, neural machine translation produces more fluent translations and is more robust to small changes in the provided input. This thesis aims to improve both systems by combining their advantages. The first part of this thesis focuses on investigating the integration of feed-forward neural models into phrase-based systems. Small changes in the input of a phrase-based system can turn an event that was seen in the training data into an unseen event. Neural network models are by design able to handle such cases due to the continuous space representation of the input, whereas phrase-based systems are forced to fall back to shorter phrases. This means a loss of knowledge about the local context which results in a degradation of the translation quality. We combine the flexibility provided by feed-forward neural networks with phrase-based systems while gaining a significant improvement over the phrase-based baseline systems. We use feed-forward networks since they are conceptually simple and computationally fast. Commonly, their structure only utilizes local source and target context. Due to this structure, they cannot capture long-distance dependencies. We improve the performance of feed-forward neural networks by efficiently incorporating long-distance dependencies into their structure by using a bag-of-words input. The second part of this thesis focuses on the pure neural machine translation approach using the encoder-decoder model with an attention mechanism. This mechanism corresponds indirectly to a soft alignment. At each translation step, this model relies only on its previous internal state and the current decoder position to compute the attention weights. There is no direct feedback from the previously used attention. Inspired by hidden Markov models where the prediction of the currently-aligned position depends also on the previously-aligned position, we improve the attention model by adding direct feedback from previously-used attention to improve the overall model performance. Additionally, we utilize word alignments for neural networks to guide the neural network during training. By incorporating the alignment as an additional cost function, the network performs better as our experiments show. Even though the state-of-the-art neural models do not require word alignments anymore, there are still applications that benefit from good alignments. These include the visualization of parallel sentences, the creation of dictionaries, the automatic segmentation of long parallel sentences and the above-mentioned usage during neural network training. We present a way to apply neural models to create word alignments that improve over word alignments trained with IBM and hidden Markov models. These techniques are evaluated on various large-scale translation tasks of public-evaluation campaigns. Applying new methods with usually complex workflows to new translation tasks is a cumbersome and error-prone exercise. We present a workflow manager, which is developed as part of this thesis to simplify this task and enable an easier knowledge transfer.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020580212

Interne Identnummern
RWTH-2020-09034
Datensatz-ID: 801694

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Publication server / Open Access
Faculty of Computer Science (Fac.9)
Public records
Publications database
120000
122010

 Record created 2020-09-08, last modified 2023-04-11


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)