h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Deep pixel embedding for segmentation of dense and overlapping objects in biomedical images



Verantwortlichkeitsangabevorgelegt von Long Chen M. Sc. (RWTH Aachen)

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen


Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2025


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
; ;

Tag der mündlichen Prüfung/Habilitation
2024-06-10

Online
DOI: 10.18154/RWTH-2025-03528
URL: https://publications.rwth-aachen.de/record/1009556/files/1009556.pdf

Einrichtungen

  1. Lehrstuhl für Bildgebung und Bildverarbeitung (611710)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Die Segmentierung von Objekten in Bilddaten stellt eine fundamentale Aufgabe in einer Vielzahl von Anwendungsfeldern dar. Im Gegensatz zur semantischen Segmentierung besteht die zentrale Herausforderung der Instanzsegmentierung darin, einzelne Objekte, insbesondere solche in räumlicher Nähe oder direktem Kontakt, zuverlässig voneinander zu trennen. Diese Problematik wird im Kontext biomedizinischer Bildgebung durch eine hohe Objektdichte, unscharfe oder fehlende Objektgrenzen, unregelmäßige bzw. extreme Objektformen, visuelle Ähnlichkeit sowie Überlappungen zusätzlich erschwert. Der Stand der Technik verfolgt primär zwei methodische Ansätze. Der dominierende Top-down-Ansatz detektiert Objekte zunächst auf Basis grober Repräsentationen, beispielsweise in Form von Begrenzungsrahmen oder Polygonen, welche anschließend mit pixelgenauer Präzision verfeinert werden. Der Mangel dieser Vorgehensweise treten jedoch bei zunehmender Objektdichte und komplexeren Formen deutlich zutage. Im Gegensatz dazu basiert der Bottom-up-Ansatz auf der direkten Überführung von Pixelwerten in Repräsentationen, die eine objektorientierte Trennung ermöglichen. Dies kann beispielsweise durch die Vorhersage von Objektgrenzen oder durch Distanzkarten erfolgen. Die zentrale Schwachstelle dieser Methodik liegt in der Robustheit und Generalisierbarkeit der jeweils erforderlichen Nachverarbeitungsschritte. Um die Anwendbarkeit auf unterschiedliche Datencharakteristika zu erhöhen und die Genauigkeit der Segmentierung zu verbessern, liegt ein zentraler Schwerpunkt dieser Arbeit auf der Entwicklung instanzsensitiver Pixel-Embedding-Methoden. Hierbei werden Deep-Learning-Modelle eingesetzt, die die Pixel eines Objekts einem gemeinsamen Cluster im sogenannten Embedding-Raum zuordnen. Aus methodischer Sicht bietet dieser Ansatz mehrere Vorteile. Erstens wird durch das pixelgenaue Clustering das Problem der groben Repräsentationen, wie sie typischerweise im Top-down-Ansatz auftreten, vermieden. Ist eine klare Clusterstruktur vorhanden, erweist sich das Clustering zudem in der Regel als robustes Verfahren. Schließlich überträgt die Abbildung der Objekte in einen gut strukturierten Embedding-Raum die Aufgabe der Anpassung an unterschiedliche Datencharakteristika auf das Modell selbst, anstatt dies durch nachgelagerte Verarbeitungsschritte zu erreichen. Auf diese Weise wird die Flexibilität gegenüber variierenden Eigenschaften der Eingangsdaten erheblich gesteigert. Zunächst wird ein auf dem Kosinusmaß basierender Trainingsverlust vorgeschlagen, der eine orthogonale Anordnung der Cluster im Embedding-Raum ermöglicht. Durch die Einführung einer Sparsitätsregularisierung erlaubt das Kosinus-Embedding eine schnelle Objektextraktion, ohne dass ein expliziter Clustering-Schritt erforderlich ist. Aufbauend auf diesem orthogonalen Embedding wird das Framework erweitert, um auch überlappende Objektbereiche verarbeiten zu können. Zusätzlich werden zwei weitere Verfahren vorgeschlagen: Eine lokale Einschränkung, die ausschließlich räumlich benachbarte Objekte trennt, sowie eine gezielte Abschwächung des Gradienten bereits gut vorhergesagter Pixel während des Trainings. Beide Ansätze tragen wesentlich zur Leistungssteigerung bei und erweisen sich als entscheidend für das Erreichen von state-of-the-art Segmentierungsergebnissen. Darüber hinaus handelt es sich bei dieser Arbeit um den ersten Ansatz, bei dem Pixel-Triplets zur Optimierung instanzsensitiver Pixel-Embeddings verwendet werden. Anstelle herkömmlicher kontrastiver Verlustfunktionen auf Basis von Proxy-Repräsentationen zeigt sich, dass der Einsatz des Triplet-Loss signifikant zur Verbesserung der Segmentierungsgenauigkeit beiträgt. Neben der ergebnisorientierten Optimierung widmet sich dieser Arbeit auch den zugrundeliegenden Mechanismen, mittels derer Convolutional Neural Networks (CNNs) Objektunterscheidung leisten. Es werden vier grundlegende Prinzipien identifiziert: semantische Gruppierung von Objektbestandteilen, kontextuelle Gruppierung durch Umgebungsinformation, Gittereffekte sowie Randdetektionseffekte. Zusätzlich werden strukturelle Eigenschaften der konvolutionellen Netzwerkarchitektur, insbesondere der Conv-Pooling-Struktur, untersucht. Entgegen der gängigen Annahme, dass Positionsinformationen durch Pooling verloren gehen, zeigen die Ergebnisse, dass CNNs in der Lage sind, Positionsinformationen innerhalb der Pooling-Regionen effektiv zu extrahieren. Zusammenfassend leistet diese Arbeit einen Beitrag zur Entwicklung eines allgemeinen, robusten und präzisen Frameworks für die Instanzsegmentierung, mit besonderem Fokus auf die Bewältigung der Herausforderungen in der biomedizinischen Bildverarbeitung.

Segmentation of objects in imaging data is a fundamental task for a wide range of applications. Compared with semantic segmentation, the core problem of instance segmentation is to separate objects that are close to or in contact with each other. The task is even more challenging in biomedical data due to highly crowded objects, blurred boundaries, irregular/extreme shapes, similar appearance and overlap, among other factors.State-of-the-art research follows two main strategies. The prevalent top-down approach identifies objects using a coarse but manageable representation, such as bounding boxes or polygons, which are then refined at the pixel level. However, the deficiency of coarse representations becomes evident as objects become denser and shapes become more complex. On the other hand, the alternative bottom-up approach converts pixel values into representations that can be readily used for object separation, such as boundary prediction or distance maps. The bottleneck of bottom-up approaches lies in the robustness and the universality of the corresponding post-processing approach.To enhance the applicability to diverse data characteristics and improve segmentation accuracy, a major focus of this thesis is the development of instance-aware pixel embedding approaches. This approach utilizes deep learning models to map the pixels of each object to a cluster in the embedding space. Methodologically, this approach has several advantages. Firstly, pixel-level clustering avoids the problem of coarse representations in the top-down approach. If clusters are present, clustering is usually a robust procedure. Lastly, mapping objects into a well-structured embedding space assigns the responsibility of fitting diverse data to the learning model, rather than relying on post-processing steps. Therefore, the adaptability to different data characteristics is greatly improved. Firstly, a cosine-based training loss that positions clusters in orthogonal spaces is proposed. By imposing sparsity regularization, the cosine-based embedding enables fast object extraction without explicit clustering. Building upon the orthogonal embedding, the framework is extended to handle the overlap of object parts. Additionally, the local constraint, separating only spatially adjacent objects, and attenuating the gradient of well-predicted pixels during training are proposed. These two techniques significantly improve performance and are crucial for achieving state-of-the-art results. This is also the first work using pixel triplets to train instance-aware pixel embedding instead of the proxy-based contrastive loss. The triplet loss is found to contribute to superior segmentation accuracy.Beyond result-oriented optimization, this study delves into mechanisms by which CNN models achieve object differentiation. Four principles are presented: object semantic grouping, surround grouping, grid effect, and boundary effect. The properties of the basic CNN model structure, the conv-pool structure, are also studied. Contrary to the common belief that position information is lost after pooling, the study finds that CNN models can effectively extract the position of features within the pooling region.In summary, this thesis aims to contribute to developing a general, robust, and accurate instance segmentation framework, with a particular emphasis on handling challenging biomedical imaging data.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT031046379

Interne Identnummern
RWTH-2025-03528
Datensatz-ID: 1009556

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
611710

 Record created 2025-04-04, last modified 2025-06-05


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)