Novel jet flavour tagging algorithms exploiting adversarial deep learning techniques with efficient computing methods and preparation of open data for robustness studies

Stein, Annika; Schmidt, Alexander; Krämer, Michael

doi:10.18154/RWTH-2024-07840

Novel jet flavour tagging algorithms exploiting adversarial deep learning techniques with efficient computing methods and preparation of open data for robustness studies

Stein, Annika^RWTH*

2024

Verantwortlichkeitsangabevorgelegt von Annika Stein, M.Sc. RWTH

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Schmidt, Alexander (Thesis advisor)^RWTH* ; Krämer, Michael (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2024-06-20

Online
DOI: 10.18154/RWTH-2024-07840
URL: https://publications.rwth-aachen.de/record/991721/files/991721.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Daten (frei) ; Deep Learning (frei) ; KI (frei) ; Künstliche Intelligenz (frei) ; Robustheit (frei) ; Teilchenphysik (frei) ; adversarial (frei) ; computing (frei) ; data (frei) ; flavor (frei) ; flavour (frei) ; jet (frei) ; machine learning (frei) ; particle physics (frei)

Thematische Einordnung (Klassifikation)
DDC: 530

Kurzfassung
Algorithmen des Maschinellen Lernens sind ein nicht mehr wegzudenkendes Werkzeug für die Wissenschaft. Präzisionstests des Standardmodells der Teilchenphysik und die Suche nach Prozessen, in welchen elementare Teilchen involviert sind, werden durch neue Rekonstruktionsalgorithmen erleichtert, die komplexe Architekturen Neuronaler Netzwerke nutzen. Solche Anwendungen hängen allerdings oft von simulierten Prozessen ab, wobei die Identifikation von Quark-Flavour oder Gluonen, welche Teilchenjets initiieren (Jet Flavour Tagging) ein Beispiel darstellt. Neben anderen experimentellen Unsicherheiten kann die Unsicherheit der Effizienz bei der Objektidentifizierung mithilfe Neuronaler Netzwerke in hohem Maße zu finalen Resultaten beitragen, welche zum Beispiel mit Signalstärken ausgedrückt werden. Tests mit Kontrollregionen machen Unterschiede in der Performance für Stichproben, die durch Simulation gewonnen wurden, und solche, die aus Detektordaten stammen, sichtbar, woraus sich die Notwendigkeit der Kalibrierung ergibt. Dies im Sinn zielt diese Arbeit darauf ab, nicht nur effiziente Mittel bereitzustellen, die die Performancelücke zwischen Daten und Simulation von Grund auf schließen (besonders dann, wenn die Performance für die Simulation sehr gut ist), als auch Konzepte zu entwickeln, die helfen zu verstehen, weshalb die Ansätze wirken. Ausgehend von früheren Versionen für ``adversarial'' (feindliche) Attacks und Defenses, wird ein neuer Algorithmus, genannt Normed Gradient Method (NGM), eingeführt und zum ersten Mal für eine physikalische Anwendung verwendet. Dies stellt ebenso die Einführung modernster Transformer-Architekturen für Jets mit kleinem Radius in CMS dar. In Kombination mit NGM werden die momentan besten Performance-Metriken für diese Aufgabe in CMS erreicht, besser als mit früheren Algorithmen. Das Netzwerk behält hohe Performance auch dann bei, wenn es systematischen Modifikationen der Eingaben ausgesetzt wird. Es ist das erste Mal, dass ein (adversarial) robuster Algorithmus in der offiziellen Rekonstruktionssoftware eines Teilchendetektors in der Hochenergiephysik integriert wird. Der Durchsatz an Ereignissen steigt im Vergleich zu einem Algorithmus mit etwas geringerer Performance. Die effiziente Integration wurde signifikant durch eine neue, speziell auf Jet Flavour Tagging spezialisierte Software-Umgebung erleichtert, welche Performance-Studien mit Detektor-Daten bereits während der Entwicklungs- (Trainings-)Phase erlaubt. Die Zeit, die vom Training bis zur Verfügbarkeit von zuverlässigen Performance-Studien vergeht, wird signifikant reduziert. Dies ist möglich, da das Entwicklungssystem auf nur einer Stufe der Datenrepräsentation aufbaut, die mehreren Zwecken zur Untersuchung des Neuronalen Netzwerks dient. Neben der Arbeit im Kontext eines Experiments, ist ein anderer Fokus die Vorbereitung und Nutzung von CERN Open Data für Robustheits-Studien. Dieser letzte Teil der Arbeit widmet sich der Umwandlung bereits vorhandener offener Datensätze, welche ausschließlich mit Experiment-spezifischer Software verwendet werden können, zu Formaten, die sich für Maschinelles Lernen eignen. Das Ergebnis ist der erste offene Datensatz, mit welchem Jet Flavour Tagging Studien für Jets mit geringem Radius mit Simulation und aufgenommenen Detektordaten für ein breiteres Publikum von Data Scientists möglich sind, auch wenn diese nicht notwendigerweise über das Wissen verfügen, die Experiment-Software zu bedienen. Da jedes Experiment individuelle Daten, Hilfsmittel und Problemstellungen bereitstellt, wird das Konzept einer einhüllenden Struktur eingeführt, welche die Anwendung einer Grundmenge von Adversarial-Techniken in einem Werkzeugkasten für verschiedene Nutzungsmöglichkeiten erlaubt.

Machine learning algorithms are an indispensable tool for science. Precision tests of the standard model of particle physics and searches for processes involving elementary particles are facilitated with novel reconstruction algorithms that exploit complex neural network architectures. Such applications however oftentimes rely on simulated processes, one example being the identification of the flavour of quarks or gluons initiating particle jets (jet flavour tagging). Besides other experimental sources of uncertainties, the efficiency uncertainties stemming from object identification involving neural networks can contribute significantly to final results, expressed for example as uncertainties in a signal strength. Tests with control regions reveal differences in performance between samples obtained through simulation and those from detector data, meaning that calibration is required. With this in mind, this thesis aims at providing not only efficient measures to mitigate this performance gap between data and simulation from the ground up (especially when the algorithm performs very well on simulation), but also derives concepts that assist in understanding why the proposed approaches work. Building up from early versions of adversarial attacks and defenses, a new algorithm, denoted Normed Gradient Method (NGM), is introduced and adapted for physics applications for the first time. This also marks the introduction of a state-of-the-art transformer architecture for small-radius jets for the CMS experiment. In combination with NGM, the currently best performance metrics for this task at CMS are achieved, improving over previous algorithms. The network maintains high performance even under exposition to systematic modifications of inputs. It is thus the first time an (adversarially) robust algorithm is introduced for the official reconstruction software of a high-energy particle detector. Event throughput improves compared to an algorithm that achieves slightly worse performance. The efficient integration was significantly facilitated by a novel software framework specifically developed for jet flavour tagging that is capable of performance studies with data, although the neural network is still in development (training) stage. The time-to-insight from neural network training to reliable performance studies is significantly reduced. This is possible, because the framework is built around only one data tier that serves multiple purposes to study the neural network. Besides the work within the context of one experiment, another focus is the preparation and utilization of CERN Open Data for robustness studies. This last part of this thesis is dedicated to the conversion of already available open datasets, which can only be used with experiment-specific software, into machine learning-friendly formats. The result is the first open dataset that allows small-radius jet flavour tagging studies with simulation and recorded detector data for a broader audience of data scientists that do not necessarily know how to operate the experiment software. As every experiment provides unique data, tools, and problem statements, the concept of a wrapper structure is introduced, which allows applying a core set of adversarial techniques in a toolbox to the different use cases.

OpenAccess:
PDF
(additional files)