An exploration of alignment concepts to bridge the gap between phrase-based and neural machine translation

Peter, Jan-Thorsten; van Genabith, Josef; Ney, Hermann
doi:HT020580212
000801694 001__ 801694
000801694 005__ 20230411161145.0
000801694 0247_ $$2HBZ$$aHT020580212
000801694 0247_ $$2Laufende Nummer$$a39641
000801694 0247_ $$2datacite_doi$$a10.18154/RWTH-2020-09034
000801694 037__ $$aRWTH-2020-09034
000801694 041__ $$aEnglish
000801694 082__ $$a004
000801694 1001_ $$0P:(DE-82)IDM01724$$aPeter, Jan-Thorsten$$b0$$urwth
000801694 245__ $$aAn exploration of alignment concepts to bridge the gap between phrase-based and neural machine translation$$cvorgelegt von Diplom-Informatiker Jan-Thorsten Peter$$honline
000801694 246_3 $$aVon der phrasenbasierten zur neuronalen maschinellen Übersetzung mittels diverser Alignierungskonzepte$$yGerman
000801694 260__ $$aAachen$$c2020
000801694 300__ $$a1 Online-Ressource (xi, 110 Seiten) : Illustrationen, Diagramme
000801694 3367_ $$02$$2EndNote$$aThesis
000801694 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000801694 3367_ $$2BibTeX$$aPHDTHESIS
000801694 3367_ $$2DRIVER$$adoctoralThesis
000801694 3367_ $$2DataCite$$aOutput Types/Dissertation
000801694 3367_ $$2ORCID$$aDISSERTATION
000801694 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University
000801694 502__ $$aDissertation, RWTH Aachen University, 2020$$bDissertation$$cRWTH Aachen University$$d2020$$gFak01$$o2020-07-22
000801694 5203_ $$aDie maschinelle Übersetzung, das heißt die automatischen Übersetzung von Text von einer natürlichen Sprache in eine andere, hat in den letzten Jahren massive Veränderungen erfahren. Phrasenbasierte Systeme stellten mehr als ein Jahrzehnt lang den Stand der Technik da. Fortschritte in der Struktur neuronaler Netze und in der Rechenleistung ermöglichten den Aufbau neuronaler maschineller Übersetzungssysteme, welche zunächst die phrasenbasierten Systeme verbesserten und später übertrafen. Die beiden Ansätze haben ihre Stärken in verschiedenen Bereichen. Die phrasenbasierten Systeme ermöglichen schnelle Übersetzungen auf der CPU und können durch Analyse der Übersetzungstabellen nachvollzogen werden. Im Gegensatz dazu erzeugt die neuronale maschinelle Übersetzung flüssigere Übersetzungen und ist robuster gegenüber kleinen Änderungen in den Eingabesätzen. Diese Dissertation zielt darauf ab, beide Systeme durch die Kombination ihrer Vorteile zu verbessern. Der erste Teil dieser Arbeit konzentriert sich auf die Analyse und Integration neuronaler feedforward-Netze in phrasenbasierte Systeme. Schon kleine Änderungen in der Eingabe eines phrasenbasierten Systems können ein Ereignis, welches gesehen wurde, in ein ungesehenes Ereignis verwandeln. Neuronale Netze sind aufgrund der stetige Darstellung des Eingabesatzes im mehrdimensionalen im Vektorraum in der Lage, direkt mit solchen Fälle umzugehen. Phrasenbasierte Systeme sind hingegen gezwungen, auf kürzere Phrasen zurückzugreifen. Dies bedeutet einen Verminderung des Übersetzungskontextes, was im Allgemeinen zu einer Verschlechterung der Übersetzungsqualität führt. Wir kombinieren die Flexibilität, die durch neuronale feedforward-Netze geboten wird, mit phrasenbasierten Systemen um eine Verbesserung gegenüber den rein phrasenbasierten Systemen zu erzielen. Wir verwenden hier neuronale feedforward-Netze, da sie konzeptionell einfach anzuwenden sind. In der Regel nutzen neuronale feedforward-Modelle nur einen lokalen Quell- und Zielkontext. Aufgrund dieser Struktur können sie keine Abhängigkeiten zwischen Wörtern über große Entfernungen erfassen. Wir verbessern die Leistung von diesen Modellen, indem wir die Abhängigkeiten über große Entfernungen effizient in ihre Struktur einbauen. Dafür nutzen wir einen Bag-of-Words Ansatz als zusätzlich Eingabe. Der zweite Teil der Arbeit konzentriert sich auf den rein neuronalen maschinellen Übersetzungsansatz unter Verwendung des Encoder-Decoder-Modells in Verbindung mit einem Aufmerksamkeits-Mechanismus. Dieser Mechanismus entspricht indirekt der weichen Alignierung von Quell- zu Zielwörtern. Bei jedem Übersetzungsschritt verlässt sich dieses Modell nur auf seinen vorherigen internen Zustand und die aktuelle Decoder-Position, um die Aufmerksamkeitsgewichte zu berechnen. Es gibt kein direktes Feedback von den zuvor verwendeten Aufmerksamkeitsgewichten. Inspiriert durch das Hidden-Markov-Modell, bei welchem die Vorhersage der aktuellen Position von der vorherigen Position abhängt, verbessern wir das Aufmerksamkeitsmodell, indem wir eine direkte Verbindung zu den zuvor verwendeten Aufmerksamkeitgewichten hinzufügen. Zusätzlich verwenden wir Wortalignierungen für neuronale Netze, um die neuronale Netze während des Trainings in die richtige Richtung zu lenken. Indem wir ein Abweichen des Aufmerksamkeits-Mechanismus vom Wort-Alignment als zusätzliche Kostenfunktion einbeziehen, erzielen so trainierte Netzwerke bessere Ergebnisse. Auch wenn die neuronalen Modelle auf dem neuesten Stand der Technik keine Wortalignierungen mehr erfordern, gibt es immer noch Anwendungen, die von Alignments profitieren, wie zum Beispiel die Visualisierung paralleler Sätze, das Erstellen von Wörterbüchern, die automatische Segmentierung langer paralleler Sätze und das erwähnte Training neuronaler Netzen. Wir stellen eine Möglichkeit vor, neuronale Modelle anzuwenden, um Wortalignierungen zu erstellen, welche eine höhere Genauigkeit besitzen als Wortalignierungen, welche mit IBM- und Hidden-Markov-Modellen erzeugt wurden. Wir evaluieren diese Techniken im Rahmen von mehreren öffentlichen Evaluierungskampagnen. Methoden, welche häufig komplexe Arbeitsabläufe mit sich bringen, auf neue Übersetzungsaufgaben anzuwenden ist eine mühsame und fehleranfällige Aufgabe. Wir stellen einen Workflow-Manager vor, welcher im Rahmen dieser Dissertation entwickelt worden ist, um diese Aufgabe zu vereinfachen und einen leichteren Wissenstransfer zu ermöglichen.$$lger
000801694 520__ $$aMachine translation, the task of automatically translating text from one natural language into another, has seen massive changes in recent years. After phrase-based systems represented the state of the art for over a decade, advancements were made in the structure of neural networks and computational power. These advancements made it possible to build neural machine translation systems which first improved and later outperformed phrase-based systems. These two approaches have their strength in different areas. The well-known phrase-based systems allow fast translations on CPU that can easily be explained by examining the translation table. In contrast, neural machine translation produces more fluent translations and is more robust to small changes in the provided input. This thesis aims to improve both systems by combining their advantages. The first part of this thesis focuses on investigating the integration of feed-forward neural models into phrase-based systems. Small changes in the input of a phrase-based system can turn an event that was seen in the training data into an unseen event. Neural network models are by design able to handle such cases due to the continuous space representation of the input, whereas phrase-based systems are forced to fall back to shorter phrases. This means a loss of knowledge about the local context which results in a degradation of the translation quality. We combine the flexibility provided by feed-forward neural networks with phrase-based systems while gaining a significant improvement over the phrase-based baseline systems. We use feed-forward networks since they are conceptually simple and computationally fast. Commonly, their structure only utilizes local source and target context. Due to this structure, they cannot capture long-distance dependencies. We improve the performance of feed-forward neural networks by efficiently incorporating long-distance dependencies into their structure by using a bag-of-words input. The second part of this thesis focuses on the pure neural machine translation approach using the encoder-decoder model with an attention mechanism. This mechanism corresponds indirectly to a soft alignment. At each translation step, this model relies only on its previous internal state and the current decoder position to compute the attention weights. There is no direct feedback from the previously used attention. Inspired by hidden Markov models where the prediction of the currently-aligned position depends also on the previously-aligned position, we improve the attention model by adding direct feedback from previously-used attention to improve the overall model performance. Additionally, we utilize word alignments for neural networks to guide the neural network during training. By incorporating the alignment as an additional cost function, the network performs better as our experiments show. Even though the state-of-the-art neural models do not require word alignments anymore, there are still applications that benefit from good alignments. These include the visualization of parallel sentences, the creation of dictionaries, the automatic segmentation of long parallel sentences and the above-mentioned usage during neural network training. We present a way to apply neural models to create word alignments that improve over word alignments trained with IBM and hidden Markov models. These techniques are evaluated on various large-scale translation tasks of public-evaluation campaigns. Applying new methods with usually complex workflows to new translation tasks is a cumbersome and error-prone exercise. We present a workflow manager, which is developed as part of this thesis to simplify this task and enable an easier knowledge transfer.$$leng
000801694 588__ $$aDataset connected to Lobid/HBZ
000801694 591__ $$aGermany
000801694 653_7 $$aMT
000801694 653_7 $$aNMT
000801694 653_7 $$aSMT
000801694 653_7 $$aalignment
000801694 653_7 $$amachine translation
000801694 653_7 $$aneural networks
000801694 653_7 $$aphrase-based
000801694 7001_ $$0P:(DE-82)IDM01519$$aNey, Hermann$$b1$$eThesis advisor$$urwth
000801694 7001_ $$0P:(DE-82)670019$$avan Genabith, Josef$$b2$$eThesis advisor
000801694 8564_ $$uhttps://publications.rwth-aachen.de/record/801694/files/801694.pdf$$yOpenAccess
000801694 8564_ $$uhttps://publications.rwth-aachen.de/record/801694/files/801694_source.zip$$yRestricted
000801694 8564_ $$uhttps://publications.rwth-aachen.de/record/801694/files/801694.gif?subformat=icon$$xicon$$yOpenAccess
000801694 8564_ $$uhttps://publications.rwth-aachen.de/record/801694/files/801694.jpg?subformat=icon-180$$xicon-180$$yOpenAccess
000801694 8564_ $$uhttps://publications.rwth-aachen.de/record/801694/files/801694.jpg?subformat=icon-700$$xicon-700$$yOpenAccess
000801694 909CO $$ooai:publications.rwth-aachen.de:801694$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
000801694 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01724$$aRWTH Aachen$$b0$$kRWTH
000801694 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01519$$aRWTH Aachen$$b1$$kRWTH
000801694 9141_ $$y2020
000801694 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000801694 9201_ $$0I:(DE-82)122010_20140620$$k122010$$lLehrstuhl für Informatik 6 (Maschinelles Lernen)$$x0
000801694 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1
000801694 961__ $$c2020-10-19T11:53:28.143339$$x2020-09-08T12:19:41.238795$$z2020-10-19T11:53:28.143339
000801694 9801_ $$aFullTexts
000801694 980__ $$aI:(DE-82)120000_20140620
000801694 980__ $$aI:(DE-82)122010_20140620
000801694 980__ $$aUNRESTRICTED
000801694 980__ $$aVDB
000801694 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines