Machine learning for domain generation algorithm classification

Drichel, Arthur; Desmet, Lieven; Meyer, Ulrike Michaela

doi:44670

Items
Marc 21

001			1018190
005			20251021053809.0
024	7	_	\|2 HBZ \|a HT031276859
024	7	_	\|2 Laufende Nummer \|a 44670
024	7	_	\|2 datacite_doi \|a 10.18154/RWTH-2025-07743
037	_	_	\|a RWTH-2025-07743
041	_	_	\|a English
082	_	_	\|a 004
100	1	_	\|0 P:(DE-82)IDM03987 \|a Drichel, Arthur \|b 0 \|u rwth
245	_	_	\|a Machine learning for domain generation algorithm classification \|c vorgelegt von Arthur Drichel, M. Sc. RWTH \|h online
260	_	_	\|a Aachen \|b RWTH Aachen University \|c 2025
300	_	_	\|a 1 Online-Ressource : Illustrationen
336	7	_	\|0 2 \|2 EndNote \|a Thesis
336	7	_	\|0 PUB:(DE-HGF)11 \|2 PUB:(DE-HGF) \|a Dissertation / PhD Thesis \|b phd \|m phd
336	7	_	\|2 BibTeX \|a PHDTHESIS
336	7	_	\|2 DRIVER \|a doctoralThesis
336	7	_	\|2 DataCite \|a Output Types/Dissertation
336	7	_	\|2 ORCID \|a DISSERTATION
500	_	_	\|a Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
502	_	_	\|a Dissertation, RWTH Aachen University, 2025 \|b Dissertation \|c RWTH Aachen University \|d 2025 \|g Fak01 \|o 2025-09-10
520	3	_	\|a Botnetze stellen eine erhebliche Bedrohung für die Cybersicherheit dar, da sie eine breite Palette von bösartigen Aktivitäten, einschließlich Distributed Denial-of-Service (DDoS) Angriffen und Spam-Kampagnen, ermöglichen. Die zunehmende Verwendung von Domain Generation Algorithms (DGAs) durch moderne Botnetze, um Verbindungen zu ihren Command and Control (C&C) Servern herzustellen, verkompliziert Eindämmungsmaßnahmen erheblich und schafft eine ausgeprägte Asymmetrie, bei der die Verteidiger alle generierten Domains blockieren müssen, während die Angreifer nur eine einzige nicht blockierte Domain benötigen, um die Kontrolle aufrechtzuerhalten. Ein vielversprechender Ansatz zur Bekämpfung von DGA-basierten Botnetzen besteht in der Implementierung von Machine Learning (ML) Klassifikatoren, die speziell trainiert werden, um Anfragen an potenzielle C&C Domains zu erkennen und effektiv zu blockieren. Dies bietet einen erheblichen Vorteil gegenüber herkömmlichen Blocklisten, da diese neue Domains erkennen können, die nicht in den Trainingsdaten enthalten waren, und so die Erkennung selbst noch unbekannter DGAs ermöglichen. Insbesondere Deep Learning (DL) basierte Klassifikatoren haben eine beispiellose Genauigkeit bei der Erkennung von DGAs gezeigt, weisen jedoch auch erhebliche Nachteile im Zusammenhang mit Erklärbarkeit, Robustheit und Datenschutz auf. Diese Dissertation bietet eine umfassende Analyse der Anwendbarkeit von ML für die DGA-Erkennung und konzentriert sich auf die Herausforderungen, die den erfolgreichen Einsatz von ML-basierten DGA-Klassifikatoren in der Praxis behindern. In einer umfassenden Studie quantifizieren wir zunächst systematisch die aktuelle Bedrohungslage, zeigen die Unzulänglichkeiten bestehender Eindämmungsmaßnahmen auf und unterstreichen die Notwendigkeit verbesserter Gegenmaßnahmen zur wirksamen Bekämpfung der anhaltenden Bedrohung durch Botnetze. In diesem Zusammenhang schlagen wir eine Reihe neuartiger Klassifizierungsmodelle vor, die die Klassifizierungsleistung über den Stand der Technik hinaus erheblich verbessern, einschließlich ihrer Fähigkeit, bisher unbekannte DGAs zu erkennen. Außerdem untersuchen wir das Klassenungleichgewicht und die Verallgemeinerbarkeit von DGA-Klassifikatoren bei Netzwerkverkehrsänderungen, um die Datenauswahl und Umschulungsstrategien zu optimieren und die langfristige Effektivität der DGA-Klassifikatoren zu gewährleisten. Weiterhin führen wir eine umfassende Studie zum kollaborativen ML durch und zeigen, dass dies die Klassifizierungsleistung deutlich verbessern kann. Gleichzeitig untersuchen wir die damit verbundenen Auswirkungen auf den Datenschutz und erforschen die Machbarkeit eines datenschutzfreundlichen Classification-as-a-Service (CaaS). In unserer Studie zur Erklärbarkeit führen wir eine kritische Analyse der Merkmale durch, die bei der DL-basierten DGA-Erkennung verwendet werden, und decken mehrere Verzerrungen auf, die DGA-Klassifikatoren innewohnen und von einem Angreifer leicht ausgenutzt werden können, um die Erkennung zu umgehen. Um diese Probleme zu entschärfen, schlagen wir ein Klassifizierungssystem vor, das diese Verzerrungen ohne Einbußen bei der Erkennungsleistung beseitigt, und ergänzen es mit visuellen Analysesystemen, die eine fundierte Entscheidungsfindung erleichtern, indem sie Einblicke in die Klassifizierungsprozesse geben. Darüber hinaus untersuchen wir kritisch die Widerstandsfähigkeit von DGA-Klassifikatoren gegenüber adversarial attacks und schlagen einen neuartigen Härtungsansatz vor um ihre Robustheit erheblich zu verbessern. Schließlich schlagen wir ein Erkennungssystem vor, das unsere Forschungsergebnisse integriert, und demonstrieren dessen Effektivität in einer realen Netzwerkumgebung. \|l ger
520	_	_	\|a Botnets pose a significant threat to cybersecurity as they enable various malicious activities such as Distributed Denial-of-Service (DDoS) attacks and spam campaigns. The growing adoption of Domain Generation Algorithms (DGAs) by modern botnets to establish connections with their Command and Control (C&C) servers complicates containment measures, creating a pronounced asymmetry where defenders must block all generated domains, while attackers require only a single unblocked domain to maintain control. A promising approach to combat DGA-based botnets involves utilizing Machine Learning (ML) classifiers, which can be trained to detect and block queries to potential C&C domains, offering a significant advantage over traditional blocklists as they generalize to detect new domains not seen during training, thereby enabling the detection of even yet unknown DGAs. Especially, Deep Learning (DL) based classifiers have demonstrated unprecedented accuracy in detecting DGAs, yet they also exhibit notable drawbacks, including issues related to explainability, robustness, and privacy. This dissertation provides a comprehensive analysis of the applicability of ML for DGA detection, focusing on addressing the challenges that hinder the successful deployment of ML-based DGA classifiers in practice, thereby presenting a holistic view of the DGA detection problem and exploring solutions to bridge the gap between theoretical advancements and real-world applicability. In a comprehensive, large-scale study we first systematically quantify the current threat posed by DGA-based botnets, highlight the shortcomings of existing containment measures, and underscore the need for enhanced countermeasures to effectively combat the persistent and ongoing threat posed by botnets. In this dissertation, we propose a range of novel classification models that substantially improve the classification performance beyond the state of the art, including their ability to detect previously unknown DGAs. We also address the problem of class imbalance resulting from the significant disparity in available training samples across different DGAs and examine the models' generalizability in response to temporal and environmental changes. These aspects are critical factors that guide data selection and retraining strategies, thereby ensuring the long-term effectiveness of DGA classifiers in real-world deployments. To further improve classification performance, we conduct a comprehensive study on collaborative ML for DGA detection and demonstrate its potential to substantially reduce the False Positive Rate (FPR).At the same time, we investigate the associated privacy implications and explore the feasibility of privacy-preserving Classification-as-a-Service (CaaS).In our study on explainability, we conduct a critical analysis of the features used in DL-based DGA detection and reveal several biases inherent in state-of-the-art DGA classifier which can easily be exploited by an adversary to evade detection. To mitigate these issues, we propose a bias-reduced classification system that effectively addresses these biases while maintaining state-of-the-art detection performance, and introduce visual analytics systems that facilitate informed decision-making by providing insights into a classifier's reasoning. Moreover, we critically examine the robustness of DGA detection classifiers against adversarial attacks and propose a novel hardening approach that leverages adversarial latent space vectors and discretized adversarial domains to substantially improve their robustness.Finally, to bridge the gap between research and practical application, we propose a detection system that integrates our research findings and demonstrate its effectiveness and feasibility through a comprehensive case study in which we deploy the system to classify the DNS network traffic within a real-world network. \|l eng
536	_	_	\|0 G:(EU-Grant)833418 \|a SAPPAN - Sharing and Automation for Privacy Preserving Attack Neutralization (833418) \|c 833418 \|f H2020-SU-ICT-2018 \|x 0
588	_	_	\|a Dataset connected to Lobid/HBZ
591	_	_	\|a Germany
653	_	7	\|a DNS security
653	_	7	\|a botnets
653	_	7	\|a domain generation algorithms
653	_	7	\|a intrusion detection
653	_	7	\|a machine learning
653	_	7	\|a network security
700	1	_	\|0 P:(DE-82)IDM05900 \|a Meyer, Ulrike Michaela \|b 1 \|e Thesis advisor \|u rwth
700	1	_	\|0 P:(DE-82)1020116 \|a Desmet, Lieven \|b 2 \|e Thesis advisor
856	4	_	\|u https://publications.rwth-aachen.de/record/1018190/files/1018190.pdf \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/1018190/files/1018190_source.zip \|y Restricted
909	C	O	\|o oai:publications.rwth-aachen.de:1018190 \|p openaire \|p open_access \|p driver \|p VDB \|p ec_fundedresources \|p dnbdelivery
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM03987 \|a RWTH Aachen \|b 0 \|k RWTH
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM05900 \|a RWTH Aachen \|b 1 \|k RWTH
914	1	_	\|y 2025
915	_	_	\|0 StatID:(DE-HGF)0510 \|2 StatID \|a OpenAccess
920	1	_	\|0 I:(DE-82)123520_20140620 \|k 123520 \|l Lehr- und Forschungsgebiet IT-Sicherheit \|x 0
920	1	_	\|0 I:(DE-82)120000_20140620 \|k 120000 \|l Fachgruppe Informatik \|x 1
980	1	_	\|a FullTexts
980	_	_	\|a I:(DE-82)120000_20140620
980	_	_	\|a I:(DE-82)123520_20140620
980	_	_	\|a UNRESTRICTED
980	_	_	\|a VDB
980	_	_	\|a phd

Library	Collection	CLSMajor	CLSMinor	Language	Author

Marc 21

h1

h2

h3

h4

h5

h6