000772331 001__ 772331 000772331 005__ 20230408050137.0 000772331 0247_ $$2HBZ$$aHT020301540 000772331 0247_ $$2Laufende Nummer$$a38800 000772331 0247_ $$2datacite_doi$$a10.18154/RWTH-2019-10638 000772331 037__ $$aRWTH-2019-10638 000772331 041__ $$aEnglish 000772331 082__ $$a004 000772331 1001_ $$0P:(DE-82)IDM03495$$aNuhn, Malte$$b0$$urwth 000772331 245__ $$aUnsupervised training with applications in natural language processing$$cvorgelegt von Diplom-Physiker und Diplom-Informatiker Malte Nuhn$$honline 000772331 246_3 $$aUnüberwachtes Lernen mit Anwendungen bei der Verarbeitung natürlicher Sprache$$yGerman 000772331 260__ $$aAachen$$c2019 000772331 260__ $$c2020 000772331 300__ $$a1 Online-Ressource (xiii, 139 Seiten) : Illustrationen, Diagramme 000772331 3367_ $$02$$2EndNote$$aThesis 000772331 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd 000772331 3367_ $$2BibTeX$$aPHDTHESIS 000772331 3367_ $$2DRIVER$$adoctoralThesis 000772331 3367_ $$2DataCite$$aOutput Types/Dissertation 000772331 3367_ $$2ORCID$$aDISSERTATION 000772331 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University 2020 000772331 502__ $$aDissertation, RWTH Aachen University, 2019$$bDissertation$$cRWTH Aachen University$$d2019$$gFak01$$o2019-07-12 000772331 5203_ $$aDer Stand der Technik für viele Aufgaben, die bei der Verarbeitung natürlicher Sprache auftreten, setzt die Verfügbarkeit großer Mengen von gelabelten Trainingsdaten voraus. Gleichzeitig stellt das Akquirieren von gelabelten Trainingsdaten von hoher Qualität den oftmals teuersten Schritt bei der Entwicklung von Systemen zur Verarbeitung von natürlicher Sprache dar. Im Gegensatz dazu sind ungelabelte Daten kostengünstiger und in größeren Mengen verfügbar. Derzeit nutzen nur wenige Trainingsalgorithmen ungelabelte Daten. Das Training mit ausschließlich ungelabelten Daten wird in der Praxis nicht durchgeführt. In dieser Arbeit wird untersucht, wie ungelabelte Daten verwendet werden können um Modelle zur Verarbeitung natürlicher Sprache zu trainieren. Insbesondere untersuchen wir Modelle zur Lösung von Substitutions-Chiffren, zur Rechtschreibkorrektur und zur maschinellen Übersetzung. Diese Arbeit zeigt die Grundlagen für unüberwachtes Training auf indem die oben genannten Modelle in einer konsistenten Notation eingeführt und untersucht werden. Wir zeigen, dass das Problem des unüberwachten Trainings welches beim Lösen von Eins-zu-eins-Substitutions-Chiffren auftritt gleichbedeutend, und damit NP-hart, zum Quadratic Assignment Problem (QAP) ist, sobald ein Bigramm-Sprachmodell verwendet wird. Hierauf basierend stellen wir einen neuartigen, effektiven Algorithmus für das unüberwachte Training für deterministische Substitutionen vor. Im Falle von englischen Eins-zu-eins-Substitutions-Chiffren erzielt unser Algorithmus Ergebnisse, die der in [Shannon 49] vorhergesagten menschlichen Performance äußerst nahe kommen. Des Weiteren präsentieren wir mit diesem Algorithmus die nach unserem Wissen erste automatische Entschlüsselung des zweiten Teils der Beale-Chiffren. Weiterhin erarbeiten wir für das Problem der Rechtschreibkorrektur die Details des EM-Algorithmus [Dempster & Laird+ 77] und zeigen experimentell, dass die mit rein unüberwachtem Training erzielten Fehlerraten die mit überwachtem Training erzielten Fehlerraten erreichen. Für die Handhabung von Korpora mit großem Wortschatz stellen wir neuartige Initialisierungs- und Trainingsverfahren vor. Diese beschleunigen den Lernprozess deutlich, ohne dabei die Qualität der resultierenden Modelle zu beeinträchtigen. Wir erweitern das Modell zur Rechtschreibkorrektur durch die Einbindung eines Wort-Alignierungs-Modells, so dass dieses auf die Aufgabe der Maschinenübersetzung angewendet werden kann. Für dieses erweiterte Modell zeigen wir, dass die wahren Modellparameter auch ohne gelabelte Daten gelernt werden können, wenn eine ausreichende Menge an ungelabelten Daten vorliegt: Wir zeigen experimentell, dass das Maximum der Likelihood-Funktion für diese Modelle für die wahren Modellparameter angenommen wird. Weiterhin zeigen wir auch für die Rechtschreibkorrektur mit Ersetzungen und lokalen Umordnungen experimentell, dass die mit rein unüberwachtem Lernen erzielte Fehlerrate die mit überwachtem Lernen erzielte Fehlerrate erreicht. Schließlich präsentieren wir Ergebnisse zum unüberwachten Lernen für einen Übersetzungs-Task mit zehnmal größerem Wortschatz als dem in früheren Arbeiten behandelten Tasks.$$lger 000772331 520__ $$aThe state-of-the-art algorithms for various natural language processing tasks require large amounts of labeled training data. At the same time, obtaining labeled data of high quality is often the most costly step in setting up natural language processing systems. Opposed to this, unlabeled data is much cheaper to obtain and available in larger amounts. Currently, only few training algorithms make use of unlabeled data. In practice, training with only unlabeled data is not performed at all. In this thesis, we study how unlabeled data can be used to train a variety of models used in natural language processing. In particular, we study models applicable to solving substitution ciphers, spelling correction, and machine translation. This thesis lays the groundwork for unsupervised training by presenting and analyzing the corresponding models and unsupervised training problems in a consistent manner. We show that the unsupervised training problem that occurs when breaking one-to-one substitution ciphers is equivalent to the quadratic assignment problem (QAP) if a bigram language model is incorporated and therefore NP-hard. Based on this analysis, we present an effective algorithm for unsupervised training for deterministic substitutions. In the case of English one-to-one substitution ciphers, we show that our novel algorithm achieves results close to human performance, as presented in [Shannon 49]. Also, with this algorithm, we present, to the best of our knowledge, the first automatic decipherment of the second part of the Beale ciphers. Further, for the task of spelling correction, we work out the details of the EM algorithm [Dempster & Laird+ 77] and experimentally show that the error rates achieved using purely unsupervised training reach those of supervised training. For handling large vocabularies, we introduce a novel model initialization as well as multiple training procedures that significantly speed up training without hurting the performance of the resulting models significantly. By incorporating an alignment model, we further extend this model such that it can be applied to the task of machine translation. We show that the true lexical and alignment model parameters can be learned without any labeled data: We experimentally show that the corresponding likelihood function attains its maximum for the true model parameters if a sufficient amount of unlabeled data is available. Further, for the problem of spelling correction with symbol substitutions and local swaps, we also show experimentally that the performance achieved with purely unsupervised EM training reaches that of supervised training. Finally, using the methods developed in this thesis, we present results on an unsupervised training task for machine translation with a ten times larger vocabulary than that of tasks investigated in previous work.$$leng 000772331 588__ $$aDataset connected to Lobid/HBZ 000772331 591__ $$aGermany 000772331 653_7 $$aEM algorithm 000772331 653_7 $$abeam search 000772331 653_7 $$adecipherment 000772331 653_7 $$amachine learning 000772331 653_7 $$aunsupervised learning 000772331 653_7 $$aunsupervised training 000772331 7001_ $$0P:(DE-82)IDM01519$$aNey, Hermann Josef$$b1$$eThesis advisor$$urwth 000772331 7001_ $$0P:(DE-82)066911$$aJuan, Alfons$$b2$$eThesis advisor 000772331 8564_ $$uhttps://publications.rwth-aachen.de/record/772331/files/772331.pdf$$yOpenAccess 000772331 8564_ $$uhttps://publications.rwth-aachen.de/record/772331/files/772331_source.zip$$yRestricted 000772331 8564_ $$uhttps://publications.rwth-aachen.de/record/772331/files/772331.gif?subformat=icon$$xicon$$yOpenAccess 000772331 8564_ $$uhttps://publications.rwth-aachen.de/record/772331/files/772331.jpg?subformat=icon-180$$xicon-180$$yOpenAccess 000772331 8564_ $$uhttps://publications.rwth-aachen.de/record/772331/files/772331.jpg?subformat=icon-700$$xicon-700$$yOpenAccess 000772331 909CO $$ooai:publications.rwth-aachen.de:772331$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery 000772331 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM03495$$aRWTH Aachen$$b0$$kRWTH 000772331 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01519$$aRWTH Aachen$$b1$$kRWTH 000772331 9141_ $$y2019 000772331 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess 000772331 9201_ $$0I:(DE-82)122010_20140620$$k122010$$lLehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung)$$x0 000772331 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1 000772331 961__ $$c2020-01-10T13:03:21.253214$$x2019-11-16T11:47:31.025380$$z2020-01-10T13:03:21.253214 000772331 9801_ $$aFullTexts 000772331 980__ $$aI:(DE-82)120000_20140620 000772331 980__ $$aI:(DE-82)122010_20140620 000772331 980__ $$aUNRESTRICTED 000772331 980__ $$aVDB 000772331 980__ $$aphd