h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Neural hidden Markov model for machine translation



Verantwortlichkeitsangabevorgelegt von M.Sc. Informatik Weiyue Wang

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen


Dissertation, RWTH Aachen University, 2023

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
; ;

Tag der mündlichen Prüfung/Habilitation
2023-03-15

Online
DOI: 10.18154/RWTH-2023-04470
URL: https://publications.rwth-aachen.de/record/956960/files/956960.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Maschinelles Lernen) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Hidden Markov Model (frei) ; machine translation evaluation (frei) ; natural language processing (frei) ; neural machine translation (frei) ; neural network (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In letzter Zeit zeigen die neuronalen maschinellen Übersetzungssysteme eine vielversprechende Qualität und übertreffen die Phrasen-basierten Systeme, die mehr als 10 Jahre lang der Stand der Technik in der statistischen maschinellen Übersetzung waren. Unabhängig davon, ob ein rekurrentes neuronales Netz mit Long Short-Term Memory, oder ein konvolutionelles neuronales Netz oder ein Transformer-Netz verwendet wird, ist der Aufmerksamkeitsmechanismus immer eine der Schlüsselkomponenten, die alle modernen neuronalen maschinellen Übersetzungssysteme enthalten. In dieser Arbeit schlagen wir als Alternative zu aufmerksamkeitsbasierten Systemen eine völlig neuartige neuronale Architektur für die maschinelle Übersetzung vor, die als direktes Hidden-Markov-Model bezeichnet wird. Eine Aufmerksamkeitskomponente hilft einem Encoder-Decoder-Model dabei, bestimmte Positionen auf der Quellseite zu beachten, um eine Übersetzung zu erzeugen. Auf diese Weise wird die Übersetzungsleistung deutlich verbessert. Dieser Mechanismus erfasst die Relevanz zwischen den verborgenen Quell- und Zielzuständen, der eine ähnliche Funktionalität wie ein Alignment-Model in einem Phrasen-basierten maschinellen Übersetzungssystem hat. Aktuelle Forschungen haben jedoch gezeigt, dass die Verwendung von Aufmerksamkeitsgewichten direkt zum Ausrichten von Wörtern zu einer schlechten Ausrichtungsqualität führt. Das inspiriert uns, ein explizites Alignment-Model in die neuronale Architektur einzuführen, um die Ausrichtung und damit auch die Übersetzungsqualität des Gesamtsystems zu verbessern. Zu diesem Zweck schlagen wir vor, das Konzept des Hidden-Markov-Models aus der statistischen maschinellen Übersetzung zu verwenden, das aus einem Lexikonmodell und einem Alignment-Model besteht. Beim neuronalen Hidden-Markov-Model werden die Lexikon- und Ausrichtungswahrscheinlichkeiten durch neuronale Netze modelliert, und die Ausrichtung wird von der Ziel- zur Quellrichtung modelliert, so dass sie direkt in der Vorwärtsübersetzung als Aufmerksamkeitskomponente verwendet werden kann. Die beiden Modelle werden gemeinsam mit dem Vorwärts-Rückwärts-Algorithmus trainiert und das neuronale maschinelle Übersetzungssystem kann weiterhin Ende-zu-Ende trainiert werden. Zur Modellierung der Lexikon- und Ausrichtungswahrscheinlichkeiten können verschiedene neuronale Netzarchitekturen verwendet werden. Wir beginnen mit einfachen Feedforward-Netzwerken und wenden das erste Modell an, um die von Phrasen-basierten Systemen generierten n-Bestenlisten neu zu ordnen, und beobachten signifikante Verbesserungen. Um ein monolithisches direktes Hidden-Markov-Model aufzubauen, werden die ausdrucksstärkeren rekurrenten neuronalen Netze mit Long Short-Term Memory auf die Architektur angewendet und ein eigenständiger Decoder wird implementiert. Indem wir den Aufmerksamkeitsmechanismus durch ein Alignment-Model erster Ordnung ersetzen, erreichen wir eine vergleichbare Leistung wie das Referenz-Aufmerksamkeitsmodell und verbessern gleichzeitig die Ausrichtungsqualität erheblich. Um mit der Entwicklung der neuronalen maschinellen Übersetzung Schritt zu halten, untersuchen wir auch Möglichkeiten die Transformer-Architektur im direkten Hidden-Markov-Model zu nutzen. Im Gegensatz zum Fall des rekurrenten neuronalen Netzes ersetzen wir hier den Aufmerksamkeitsmechanismus nicht vollständig durch das Alignment-Model. Stattdessen kombinieren wir die Ausrichtungsinformationen mit dem Aufmerksamkeitsmechanismus. Die experimentellen Ergebnisse zeigen, dass die Anwendung des Konzepts des direkten Hidden-Markov-Models die Leistung der modernen Transformer-Architektur in Bezug auf TER- und CHARACTER-Werte signifikant verbessert. Neben der Arbeit am direkten Hidden-Markov-Modell schlagen wir zwei neue Metriken für die Bewertung der maschinellen Übersetzung vor, genannt CHARACTER und EED. Sie sind einfach zu nutzen und für jeden öffentlich verfügbar. Sie schneiden bei den jährlichen WMT-Metriken-Shared-Tasks vielversprechend ab und gehören immer zu den Spitzenreitern.

Recently, neural machine translation systems have shown promising performance, outperforming phrase-based systems, which were the state-of-the-art in statistical machine translation for more than 10 years. Regardless of whether a recurrent neural network with long short-term memory or a convolutional neural network or a self-attentive transformer network is used, the attention mechanism is always one of the key components that all modern neural machine translation systems contain. In this work, we propose a completely novel neural architecture for machine translation, which is referred to as a direct hidden Markov model, as an alternative to attention-based systems.An attention component helps an encoder-decoder model attend to specific positions on the source side to produce a translation. In this way, the translation performance is significantly improved. This mechanism captures the correspondence between the source and target hidden states, and has a similar functionality to an alignment model in a phrase-based machine translation system. However, recent studies have found that using attention weights straight out of the box to align words results in poor alignment quality. This inspires us to introduce an explicit alignment model into the neural architecture in order to improve the alignment and thus also the translation quality of the overall system. To this end, we propose to use the concept of the hidden Markov model from statistical machine translation, which is made up of a lexicon model and an alignment model. In the neural hidden Markov model, the lexicon and alignment probabilities are modeled by neural networks, and the alignment is modeled from target to source direction so that it can be used directly in the forward translation as an attention component. The two models are trained jointly with the forward-backward algorithm and the end-to-end training process of a neural machine translation system is not violated. Various neural network architectures can be used to model the lexicon and the alignment probabilities. We start with simple feedforward neural networks and apply our first model to re-rank n-best lists generated by phrase-based systems and observe significant improvements. In order to build a monolithic direct hidden Markov model, the more powerful recurrent neural networks with long short-term memory are applied to the architecture, and a standalone decoder is implemented. By replacing the attention mechanism with a first-order alignment model, we achieve comparable performance to the baseline attention model while significantly improving the alignment quality. The improvements in alignment quality do not lead to an improvement in translation performance, one possible reason is that the attention mechanism is aimed at finding a relevant context for estimating the next target word and therefore source words with high attention weights are not necessarily translation equivalents of the target word. To keep pace with the development of neural machine translation, we also study the possibility of applying the transformer architecture to the direct hidden Markov model. Contrary to the recurrent neural network case, here we do not completely replace the attention mechanism with the alignment model. Instead, we combine the alignment information obtained by the hidden Markov model factorization with the attention mechanism. The experimental results show that applying the concept of the direct hidden Markov model significantly improves the performance of the state-of-the-art self-attentive transformer architecture in terms of TER and CHARACTER scores. In addition to the work on the direct hidden Markov model, we propose two novel metrics for machine translation evaluation, called CHARACTER and EED. These are easy-to-use and publicly available to everyone. They perform promisingly in the annual WMT metrics shared tasks and are always among the front runners.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT030005800

Interne Identnummern
RWTH-2023-04470
Datensatz-ID: 956960

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2023-04-25, last modified 2023-05-30


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)