2024
Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2024
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
Genehmigende Fakultät
Fak04
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2024-04-15
Online
DOI: 10.18154/RWTH-2024-04533
URL: https://publications.rwth-aachen.de/record/985219/files/985219.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
6D pose estimation (frei) ; Bayesian inference (frei) ; GPU (frei) ; camera (frei) ; computer vision (frei) ; robotics (frei)
Thematische Einordnung (Klassifikation)
DDC: 620
Kurzfassung
Kamerabasierte 6D Posenschätzung ist insbesondere im Kontext der Roboter-Objektmanipulation von Bedeutung [1]. Roboter benötigen diese, um lokale Pläne wie Greifpunkte aus dem Koordinatensystem eines Objekts in das des Roboters zu transformieren. Diese Arbeit hat ihren Ursprung in medizinischen Anwendungen wie der Schätzung der 6D-Position von chirurgischen Instrumenten und dem Tracking von Knochen. Jedoch bieten industrielle Anwendungen ähnliche Herausforderungen: Texturen fehlen oder sind unzuverlässig, und Teile des Objekts können verdeckt sein. Im Gegensatz zu Deep Learning, dem aktuellen Goldstandard in der Bildverarbeitung, benötigen Bayessche Methoden in der Regel keine großen Datensätze und ermöglichen eine intuitive Einbindung weiterer Sensoren. Darüber hinaus können die geschätzten Unsicherheiten eine informierte Entscheidungsfindung ermöglichen. Im Vergleich zu Deep Learning wird in der Bayesschen Inferenz zur Bildverarbeitung die verfügbare Rechenleistung von GPUs unzureichend genutzt, was diese Methoden zurückhält. In dieser Arbeit werden probabilistische Modelle für die Bayessche Inferenz auf Tiefenbildern mit bekannten CAD-Modellen entwickelt und samplingbasierte Inferenzalgorithmen angepasst. Lediglich ein Vorwissen über die Position eines Objektpunktes ist erforderlich. Durch die Verwendung einer GPU wird die Laufzeit der Methode so weit verkürzt, dass der Einsatz im Rahmen robotischer Objektmanipulation möglich ist. Die Einflüsse verschiedener Modellkomponenten werden systematisch evaluiert. Schließlich wird die Vielseitigkeit der gezeigten Methoden für die Posenschätzung in diversen Anwendungen gezeigt: Industrielle Objekte, chirurgische Instrumente und das Tracking von Knochenposen. Die Ergebnisse zeigen, dass Laufzeiten von <1 s pro Objekt möglich sind, während ein durchschnittlicher Recall von 0,475 auf BOP Datensätzen für ungesehene Objekte erreicht wird. Der Stand der Technik erreicht einen Recall von 0,674, benötigt jedoch zusätzlich Farbbilder und Laufzeiten pro Bild von >30 s [2]. Die Bayessche Poseninferenz ist bei begrenzter Laufzeit kompetitiv. Da die Modelle kein semantisches Verständnis haben, könnte die Kombination mit lernbasierten Methoden ein vielversprechender Ansatz für künftige Forschungen sein.Camera-based 6D Pose estimation is specifically relevant in the context of robotic manipulation and augmented reality [1]. Robots require the pose estimates to transform local plans, such as grasp points from the object's coordinate frame to the robot's base frame. This thesis originated in medical applications, e.g., estimating the 6D pose of surgical instruments and tracking bones. The challenges are, however, similar to many industrial applications: Textures are missing or unreliable, and parts of the object might be occluded. Unlike deep learning methods, which recently dominated computer vision, probabilistic/Bayesian methods can operate without large datasets and intuitively fuse other sensor measurements or user inputs. Moreover, probabilistic methods include uncertainty estimates, enabling decision-making, e.g., by exploring different viewpoints instead of cutting a bone if the uncertainty is high. Compared to deep learning, insufficient utilization of the computational power of graphics processing unit (GPU) holds back Bayesian inference on images. This work develops probabilistic models and adapts sampling-based Bayesian inference algorithms for the 6D object pose estimation with known CAD models using depth images from a 3D camera. It only requires a prior for the position of a point, which can be provided, e.g., by attaching tags to the objects or a surgeon pointing onto a bone. Utilizing a GPU improves the method's runtime to enable robotic manipulation applications. Moreover, the experiments ablate the influence of different model components and inference algorithms. Finally, this thesis demonstrates the methods' versatility in different applications: industry-relevant BOP datasets, a synthetic dataset of surgical instruments, and tracking the pose of a bone. The results show that per-object runtimes of ≈1 s are possible, while achieving an average recall of 0.475 on BOP for unseen objects. State-of-the-art methods participating in the same category achieve recalls of 0.674, but additionally require color images and per-image runtimes >30 s [2]. The Bayesian pose inference is competitive if the runtime is limited. As the models have no semantic understanding, combining them with learning-based methods might be a promising direction for future research.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT030733013
Interne Identnummern
RWTH-2024-04533
Datensatz-ID: 985219
Beteiligte Länder
Germany
|
The record appears in these collections: |