h1

h2

h3

h4

h5
h6
000956960 001__ 956960
000956960 005__ 20251010143240.0
000956960 0247_ $$2HBZ$$aHT030005800
000956960 0247_ $$2Laufende Nummer$$a42208
000956960 0247_ $$2datacite_doi$$a10.18154/RWTH-2023-04470
000956960 037__ $$aRWTH-2023-04470
000956960 041__ $$aEnglish
000956960 082__ $$a004
000956960 1001_ $$0P:(DE-588)1288241607$$aWang, Weiyue$$b0$$urwth
000956960 245__ $$aNeural hidden Markov model for machine translation$$cvorgelegt von M.Sc. Informatik Weiyue Wang$$honline
000956960 260__ $$aAachen$$bRWTH Aachen University$$c2023
000956960 300__ $$a1 Online-Ressource : Illustrationen
000956960 3367_ $$02$$2EndNote$$aThesis
000956960 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000956960 3367_ $$2BibTeX$$aPHDTHESIS
000956960 3367_ $$2DRIVER$$adoctoralThesis
000956960 3367_ $$2DataCite$$aOutput Types/Dissertation
000956960 3367_ $$2ORCID$$aDISSERTATION
000956960 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University
000956960 502__ $$aDissertation, RWTH Aachen University, 2023$$bDissertation$$cRWTH Aachen University$$d2023$$gFak01$$o2023-03-15
000956960 5203_ $$aIn letzter Zeit zeigen die neuronalen maschinellen Übersetzungssysteme eine vielversprechende Qualität und übertreffen die Phrasen-basierten Systeme, die mehr als 10 Jahre lang der Stand der Technik in der statistischen maschinellen Übersetzung waren. Unabhängig davon, ob ein rekurrentes neuronales Netz mit Long Short-Term Memory, oder ein konvolutionelles neuronales Netz oder ein Transformer-Netz verwendet wird, ist der Aufmerksamkeitsmechanismus immer eine der Schlüsselkomponenten, die alle modernen neuronalen maschinellen Übersetzungssysteme enthalten. In dieser Arbeit schlagen wir als Alternative zu aufmerksamkeitsbasierten Systemen eine völlig neuartige neuronale Architektur für die maschinelle Übersetzung vor, die als direktes Hidden-Markov-Model bezeichnet wird. Eine Aufmerksamkeitskomponente hilft einem Encoder-Decoder-Model dabei, bestimmte Positionen auf der Quellseite zu beachten, um eine Übersetzung zu erzeugen. Auf diese Weise wird die Übersetzungsleistung deutlich verbessert. Dieser Mechanismus erfasst die Relevanz zwischen den verborgenen Quell- und Zielzuständen, der eine ähnliche Funktionalität wie ein Alignment-Model in einem Phrasen-basierten maschinellen Übersetzungssystem hat. Aktuelle Forschungen haben jedoch gezeigt, dass die Verwendung von Aufmerksamkeitsgewichten direkt zum Ausrichten von Wörtern zu einer schlechten Ausrichtungsqualität führt. Das inspiriert uns, ein explizites Alignment-Model in die neuronale Architektur einzuführen, um die Ausrichtung und damit auch die Übersetzungsqualität des Gesamtsystems zu verbessern. Zu diesem Zweck schlagen wir vor, das Konzept des Hidden-Markov-Models aus der statistischen maschinellen Übersetzung zu verwenden, das aus einem Lexikonmodell und einem Alignment-Model besteht. Beim neuronalen Hidden-Markov-Model werden die Lexikon- und Ausrichtungswahrscheinlichkeiten durch neuronale Netze modelliert, und die Ausrichtung wird von der Ziel- zur Quellrichtung modelliert, so dass sie direkt in der Vorwärtsübersetzung als Aufmerksamkeitskomponente verwendet werden kann. Die beiden Modelle werden gemeinsam mit dem Vorwärts-Rückwärts-Algorithmus trainiert und das neuronale maschinelle Übersetzungssystem kann weiterhin Ende-zu-Ende trainiert werden. Zur Modellierung der Lexikon- und Ausrichtungswahrscheinlichkeiten können verschiedene neuronale Netzarchitekturen verwendet werden. Wir beginnen mit einfachen Feedforward-Netzwerken und wenden das erste Modell an, um die von Phrasen-basierten Systemen generierten n-Bestenlisten neu zu ordnen, und beobachten signifikante Verbesserungen. Um ein monolithisches direktes Hidden-Markov-Model aufzubauen, werden die ausdrucksstärkeren rekurrenten neuronalen Netze mit Long Short-Term Memory auf die Architektur angewendet und ein eigenständiger Decoder wird implementiert. Indem wir den Aufmerksamkeitsmechanismus durch ein Alignment-Model erster Ordnung ersetzen, erreichen wir eine vergleichbare Leistung wie das Referenz-Aufmerksamkeitsmodell und verbessern gleichzeitig die Ausrichtungsqualität erheblich. Um mit der Entwicklung der neuronalen maschinellen Übersetzung Schritt zu halten, untersuchen wir auch Möglichkeiten die Transformer-Architektur im direkten Hidden-Markov-Model zu nutzen. Im Gegensatz zum Fall des rekurrenten neuronalen Netzes ersetzen wir hier den Aufmerksamkeitsmechanismus nicht vollständig durch das Alignment-Model. Stattdessen kombinieren wir die Ausrichtungsinformationen mit dem Aufmerksamkeitsmechanismus. Die experimentellen Ergebnisse zeigen, dass die Anwendung des Konzepts des direkten Hidden-Markov-Models die Leistung der modernen Transformer-Architektur in Bezug auf TER- und CHARACTER-Werte signifikant verbessert. Neben der Arbeit am direkten Hidden-Markov-Modell schlagen wir zwei neue Metriken für die Bewertung der maschinellen Übersetzung vor, genannt CHARACTER und EED. Sie sind einfach zu nutzen und für jeden öffentlich verfügbar. Sie schneiden bei den jährlichen WMT-Metriken-Shared-Tasks vielversprechend ab und gehören immer zu den Spitzenreitern.$$lger
000956960 520__ $$aRecently, neural machine translation systems have shown promising performance, outperforming phrase-based systems, which were the state-of-the-art in statistical machine translation for more than 10 years. Regardless of whether a recurrent neural network with long short-term memory or a convolutional neural network or a self-attentive transformer network is used, the attention mechanism is always one of the key components that all modern neural machine translation systems contain. In this work, we propose a completely novel neural architecture for machine translation, which is referred to as a direct hidden Markov model, as an alternative to attention-based systems.An attention component helps an encoder-decoder model attend to specific positions on the source side to produce a translation. In this way, the translation performance is significantly improved. This mechanism captures the correspondence between the source and target hidden states, and has a similar functionality to an alignment model in a phrase-based machine translation system. However, recent studies have found that using attention weights straight out of the box to align words results in poor alignment quality. This inspires us to introduce an explicit alignment model into the neural architecture in order to improve the alignment and thus also the translation quality of the overall system. To this end, we propose to use the concept of the hidden Markov model from statistical machine translation, which is made up of a lexicon model and an alignment model. In the neural hidden Markov model, the lexicon and alignment probabilities are modeled by neural networks, and the alignment is modeled from target to source direction so that it can be used directly in the forward translation as an attention component. The two models are trained jointly with the forward-backward algorithm and the end-to-end training process of a neural machine translation system is not violated. Various neural network architectures can be used to model the lexicon and the alignment probabilities. We start with simple feedforward neural networks and apply our first model to re-rank n-best lists generated by phrase-based systems and observe significant improvements. In order to build a monolithic direct hidden Markov model, the more powerful recurrent neural networks with long short-term memory are applied to the architecture, and a standalone decoder is implemented. By replacing the attention mechanism with a first-order alignment model, we achieve comparable performance to the baseline attention model while significantly improving the alignment quality. The improvements in alignment quality do not lead to an improvement in translation performance, one possible reason is that the attention mechanism is aimed at finding a relevant context for estimating the next target word and therefore source words with high attention weights are not necessarily translation equivalents of the target word. To keep pace with the development of neural machine translation, we also study the possibility of applying the transformer architecture to the direct hidden Markov model. Contrary to the recurrent neural network case, here we do not completely replace the attention mechanism with the alignment model. Instead, we combine the alignment information obtained by the hidden Markov model factorization with the attention mechanism. The experimental results show that applying the concept of the direct hidden Markov model significantly improves the performance of the state-of-the-art self-attentive transformer architecture in terms of TER and CHARACTER scores. In addition to the work on the direct hidden Markov model, we propose two novel metrics for machine translation evaluation, called CHARACTER and EED. These are easy-to-use and publicly available to everyone. They perform promisingly in the annual WMT metrics shared tasks and are always among the front runners.$$leng
000956960 591__ $$aGermany
000956960 653_7 $$aHidden Markov Model
000956960 653_7 $$amachine translation evaluation
000956960 653_7 $$anatural language processing
000956960 653_7 $$aneural machine translation
000956960 653_7 $$aneural network
000956960 7001_ $$0P:(DE-82)IDM01519$$aNey, Hermann$$b1$$eThesis advisor$$urwth
000956960 7001_ $$0P:(DE-82)670019$$avan Genabith, Josef$$b2$$eThesis advisor
000956960 7001_ $$0P:(DE-82)IDM05417$$aHoos, Holger Hendrik$$b3$$eThesis advisor$$urwth
000956960 8564_ $$uhttps://publications.rwth-aachen.de/record/956960/files/956960.pdf$$yOpenAccess
000956960 8564_ $$uhttps://publications.rwth-aachen.de/record/956960/files/956960_source.zip$$yRestricted
000956960 909CO $$ooai:publications.rwth-aachen.de:956960$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
000956960 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-588)1288241607$$aRWTH Aachen$$b0$$kRWTH
000956960 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01519$$aRWTH Aachen$$b1$$kRWTH
000956960 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM05417$$aRWTH Aachen$$b3$$kRWTH
000956960 9141_ $$y2023
000956960 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000956960 9201_ $$0I:(DE-82)122010_20140620$$k122010$$lLehrstuhl für Informatik 6 (Maschinelles Lernen)$$x0
000956960 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1
000956960 961__ $$c2023-05-24T13:43:49.190773$$x2023-04-25T14:33:30.477045$$z2023-05-24T13:43:49.190773
000956960 9801_ $$aFullTexts
000956960 980__ $$aI:(DE-82)120000_20140620
000956960 980__ $$aI:(DE-82)122010_20140620
000956960 980__ $$aUNRESTRICTED
000956960 980__ $$aVDB
000956960 980__ $$aphd