Maximum entropy models for sequences: scaling up from tagging to translation

Lehnen, Patrick; Ney, Hermann; Yvon, Franccois

doi:HT019651917

Maximum entropy models for sequences: scaling up from tagging to translation

Lehnen, Patrick^RWTH*

2017 & 2018

Verantwortlichkeitsangabevorgelegt von Diplom-Physiker Patrick Lehnen

ImpressumAachen 2017

Umfang1 Online-Ressource (xi,118 Seiten) : Illustrationen

Dissertation, RWTH Aachen University, 2017

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2018

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Yvon, Franccois (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2017-05-17

Online
DOI: 10.18154/RWTH-2018-223512
URL: https://publications.rwth-aachen.de/record/722309/files/722309.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
RPROP (frei) ; conditional random field (frei) ; maximum-entropy-Ansatz (frei)

Thematische Einordnung (Klassifikation)
DDC: 530

Kurzfassung
Maximum-Entropy-Ansätze für Sequenzen und Conditional Random Fields im Speziellen haben bereits für eine größere Anzahl an Aufgaben im Bereich des maschinellen Lernens ihre Effektivität bewiesen. Als Teil dieser Doktorarbeit wird dies am Beispiel des semantischen Taggens aus dem Teilbereich des Sprachverstehens gezeigt. Dort wird gezeigt, dass eine ausführliche Merkmalsauswahl und eine Einstellung des Regularisierungsparameters ausreicht, um ein System zu bauen, was einer Reihe maschineller Lernverfahren überlegen ist. Als konkurrierende Ansätze wurden Support-Vektor-Maschinen, phrasen-basierte Übersetzung, Maximum Entropy Markov-Modelle, Dynamic Bayesian Networks und statistische Finite State Transducer ausgewählt. Möchte man Conditional Random Fields auf andere Aufgaben anwenden, stößt dieser Ansatz an seine Grenzen. Für semantisches Tagging im Rahmen des Sprachverstehens mit einem Mehr-Ebenen-Tagging werden Einschränkungen im Ausgabevokabular benötigt, für eine Graphem-zu-Phonem Umwandlung müssen die Conditional Random Fields eine implizite Segmentierung und sehr große Merkmalssätze unterstützen und für statistische maschinelle Übersetzung wird eine Lösung für die großen Ein- und Ausgabevokabularien, komplexe Umordnungen der Wörter und noch größerer Merkmalssätze benötigt. Diese Doktorarbeit präsentiert Lösungen zu diesen Anforderungen. Die Conditional RandomFields werden mit Hilfe von statistischen Automaten modelliert, was eine Einschränkung des Ausgabevokabulars einfach macht. Dieser Ansatz wird erweitert mit impliziten Segmentierungen, Elastic-Net Regularisierung, sparsen Forward-Backward Berechungnen, Approximationen (Pruning)im Training und zwischengelagerten Klassen in der Ausgabeschicht. Abschließend wird alles zusammengefügt, um mit Conditional Random Fields statistische maschinelle Übersetzung zu modellieren. Die beste Implementierung zur Verbesserung der statistischen maschinellen Übersetzung wird erreicht mit einer Anpassung der Zielfunktion zur Maximierung des Bleu-Erwartungswerts. Dieser Ansatz verendet eine ähnliche Merkmalsextraktion und dieselbe Parameterberechnung anhand des RPROP Verfahrens. Jedoch wurden das phrasenbasierte oder hierarchische Grundsystem besser genutzt, indem n-best Listen für die Näherung des Parametertrainings verwendet werden.

Maximum entropy approaches for sequences tagging and conditional random fields in particular have shown high potential in a variety of tasks. The effectiveness of these approaches is verified within this thesis using semantic tagging within natural language understanding as an example. Within this task, decent feature engineering and a tuning of the regularization parameter is sufficient to let conditional random fields be superior to a broad set of competing approaches including support vector machines, phrase-based translation, maximum entropy Markov models, dynamic Bayesian networks, and generatively trained probabilistic finite state transducers. Applying conditionalr andom fields to other tasks in many cases calls for extensions to the original notation. For amulti-level semantic tagging in natural language understanding, constrained search is needed, whereas for grapheme-to-phoneme conversion, the support for a hidden segmentation and huge feature sets is required, and for statistical machine translation a solution for the large input and output vocabulary, even larger feature sets, and the hidden alignments have to be found. This thesis presents solutions to all these constraints. The conditional random fields are modeled with finite state transducers to support constraints on the search space. They are extended with hidden segmentation, elastic-net regularization, sparse-forward-backward, pruning in training, and intermediate classes in the output layer. Finally, we will combine all extensions to support statistical machine translation with conditional random fields. The best implementation for statistical machine translation is then based on a refined maximum expected Bleu objective using a similar feature notation and the same RPROP parameter estimation. It differs in a more efficient use of the phrase-based or hierarchical baseline with the help of n-best lists.

OpenAccess:
PDF
(additional files)