h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Medical image segmentation: the potential of convoluational neural networks and transformers



Verantwortlichkeitsangabevorgelegt von Reza Azad, M. Sc.

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen


Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2024-03-07

Online
DOI: 10.18154/RWTH-2024-10043
URL: https://publications.rwth-aachen.de/record/995648/files/995648.pdf

Einrichtungen

  1. Lehrstuhl für Informationstheorie und Datenanalytik (617110)

Inhaltliche Beschreibung (Schlagwörter)
convolutional neural networks (frei) ; deep learning (frei) ; medical image (frei) ; segmentation (frei) ; vision transformer (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Die medizinische Bildsegmentierung zur Abgrenzung anatomischer Strukturen und relevanter Regionen spielt eine wichtige Rolle in der computergestützten Diagnose. Herkömmliche manuelle Segmentierung durch klinische Experten ist jedoch zeitaufwändig, arbeitsintensiv und fehleranfällig und auch die Komplexität der verschiedenen Bildgebungsmodalitäten stellt eine Herausforderung dar. Um diese Limitierungen zu überwinden werden in der aktuellen Forschung Deep-Learning-Modelle entwickelt, insbesondere neuronale Faltungsnetze (Convolutional Neural Network, CNN) und Transformer (Vision Transformer, ViT). Auch wenn CNNs in der medizinischen Bildsegmentierung aktuell weit verbreitet sind, bringen ihre aufeinanderfolgenden Faltungsoperationen Einschränkungen mit sich hinsichtlich der Modellierung nicht-lokaler Abhängigkeiten und der Erfassung des globalen Kontexts. ViT hingegen bieten eine alternative Architektur die es erlaubt, nicht-lokale Abhängigkeiten zu modellieren. Gleichzeitig bringen ViT Vorteile mit sich wie schwache induktive Verzerrung und Robustheit gegenüber Rauschen, wodurch sie für die Segmentierung medizinischer Bilddaten gut geeignet sind. Allerdings können ViT bei der Modellierung lokaler Repräsentationen aufgrund des Tokenisierungsprozesses auf Schwierigkeiten stoßen. Diese Arbeit verfolgt daher drei unterschiedliche Ansätze, um die Einschränkungen von CNNs und ViTs bei der medizinischen Bildsegmentierung zu überwinden und gleichzeitig eine höhere Genauigkeit trotz niedriger Modell-Komplexität zu erreichen. Zunächst wird die Bedeutung von Textur- und Formeigenschaften untersucht, da sie wertvolle Einblicke in den Aufbau und die Struktur von Geweben liefern. Darauf aufbauend wird ein Vergleich zwischen CNNs und ViTs hinsichtlich ihrer Fähigkeit zur Erfassung von Struktur-, Textur- und Form-Merkmalen angestellt. Techniken wie Shape-Attention, Style-Matching und Frequenz-Rekalibrierung oder die Adaption von Self-Attention-Modulen werden erforscht, um die Darstellung dieser Merkmale zu verbessern. Zweitens wird die Fusion von CNNs und ViTs untersucht, um eine präzise und kontextsensitive Segmentierung zu erreichen, indem die Vorteile der einzelnen Architekturen genutzt werden. Schließlich wird eine umfassende Analyse der Verwendung von reinen ViTs (d.h. ohne Einbeziehung von CNN-Modulen) durchgeführt. Es werden drei neue Ansätze vorgeschlagen, um eine lineare Komplexität zu erreichen und mehrskalige Darstellungen für die semantische Segmentierung zu erfassen. Zusammenfassend leistet diese Arbeit einen signifikanten Beitrag im Bereich der medizinischen Bildsegmentierung, indem sie verschiedene Herausforderungen adressiert und Lösungsansätze vorstellt und untersucht. Durch die Erforschung neuartiger Methoden der medizinischer Bildsegmentierung und durch Kombination der Stärken von CNNs und ViTs leistet diese Forschung bedeutende Fortschritte für die Anwendung von Deep-Learning-Algorithmen in der klinischen Praxis.

Medical image segmentation, a crucial aspect of computer-aided diagnosis, plays a vital role in accurately delineating anatomical structures and regions of interest (ROIs). However, conventional segmentation methods are time-consuming, labour-intensive, and error-prone, relying heavily on manual labelling and clinical expertise. The complexities of various imaging modalities add further challenges to the process. To overcome these limitations, researchers have turned their attention to deep learning models, specifically convolutional neural networks (CNNs) and Vision Transformers (ViTs). While CNNs have found widespread use in medical image segmentation, their consecutive convolution operations have limitations in modelling long-term dependencies and capturing global context. On the other hand, ViT offers an alternative architecture with properties such as long-range dependency modelling, weak inductive bias, and noise robustness, making them well-suited for medical image segmentation. However, ViTs may encounter difficulties in modelling local representations due to the tokenization process. This thesis delves into three unique pathways to overcome the constraints of CNNs and Transformers, all while attaining higher accuracy and model simplicity. First, it examines the significance of texture and shape representation as they provide valuable insights into tissue structures. A comparison between CNNs and ViTs is made concerning their ability to capture structural, texture, and shape information. Techniques such as shape-attention, style matching, and frequency recalibration or self-attention module redesign are explored to enhance their representation of these features. Secondly, the fusion of CNNs and Transformers is investigated to achieve precise and contextually aware segmentation by leveraging the advantages of each architecture. Finally, a comprehensive analysis is conducted on utilizing ViTs in their pure form, without incorporating CNN modules. Three novel approaches are proposed to achieve linear complexity and capture multi-scale representations for semantic segmentation. In conclusion, this thesis significantly contributes to the field of medical image segmentation by addressing various challenges and providing solutions in each direction. By exploring innovative methods and combining the strengths of CNNs and Transformers, this research represents a significant step forward in applying deep learning algorithms to clinical practice.

OpenAccess:
Volltext herunterladen PDF
(zusätzliche Dateien)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT030892890

Interne Identnummern
RWTH-2024-10043
Datensatz-ID: 995648

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Dokumenttypen > Qualifikationsschriften > Dissertationen
Fakultät für Elektrotechnik und Informationstechnik (Fak.6)
Publikationsserver / Open Access
Öffentliche Einträge
Publikationsdatenbank
617120

 Datensatz erzeugt am 2024-10-24, letzte Änderung am 2025-09-30


Dieses Dokument bewerten:

Rate this document:
1
2
3
 
(Bisher nicht rezensiert)