Enhancing artificial vision by integrating machine learning in retinal prosthetics

Wu, Yuli; Walter, Peter; Stegmaier, Johannes

doi:HT031356377

Enhancing artificial vision by integrating machine learning in retinal prosthetics = Verbesserung des künstlichen Sehens durch die Integration von maschinellem Lernen in Netzhautprothesen

Wu, Yuli^RWTH*

2025

Verantwortlichkeitsangabevorgelegt von Yuli Wu, M.Sc.

ImpressumAachen : RWTH Aachen University 2025

Umfang1 Online-Ressource : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2025

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Stegmaier, Johannes (Thesis advisor)^RWTH* ; Walter, Peter (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2025-11-10

Online
DOI: 10.18154/RWTH-2025-09910
URL: https://publications.rwth-aachen.de/record/1022134/files/1022134.pdf

Einrichtungen

Lehrstuhl für Bildgebung und Bildverarbeitung (611710)

Projekte

GRK 2610 - GRK 2610: Innovative Schnittstellen zur Retina für optimiertes künstliches Sehen - InnoRetVision (424556709) (424556709)

Inhaltliche Beschreibung (Schlagwörter)
artificial vision (frei) ; machine learning (frei) ; neural engineering (frei) ; retinal prosthetics (frei) ; visual fixation (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Implantierbare Netzhautprothesen sind eine vielversprechende Lösung zur Wiederherstellung partiellen Sehens, werden jedoch häufig durch eine limitierte Elektrodenauflösung und unspezifische neuronale Stimulation eingeschränkt, was die Qualität der wahrgenommenen visuellen Information beeinträchtigt. Zur Überwindung dieser Einschränkungen werden in dieser Dissertation auf maschinellem Lernen basierende Ansätze zur Verbesserung des künstlichen Sehens entwickelt und evaluiert. Die technischen Hauptbeiträge sind zweigeteilt. Erstens adressiert diese Arbeit das Problem der Stimulationsoptimierung durch drei neuartige Kodierungsstrategien mit physiologisch validierten Rechenmodellen: den Reverse-Encoder, den End-to-End-Encoder und den invertierbaren Encoder. Diese Ansätze optimieren Stimulationsmuster mittels einer Encoder-Decoder-Architektur, deren Encoder zur Maximierung der perzeptuellen Qualität trainiert wird. Zweitens wird eine vom biologischen Sehen inspirierte, visuelle fixationsbasierte Methode vorgeschlagen, um saliente Bildausschnitte zu priorisieren und so die Übertragung visueller Informationen zu optimieren. Subjektive Experimente bestätigten die probandenübergreifende Konsistenz der Fixationsmuster und unterstreichen die Funktionalität dieser Strategie. Ergänzend zu diesen thematischen Schwerpunkten behandelt die Dissertation auch mehrere angrenzende Anwendungen, darunter eine Umfrage unter sehbehinderten Personen zur Identifikation von Entwicklungszielen, ein Braille-Simulations-Framework zum assistiven Lesen sowie Verarbeitungspipelines für Netzhautbilder von menschlichen und Mausmodellen. Zusammengenommen bieten diese Beiträge ein umfassendes, auf maschinellem Lernen basierendes Framework für künstliches Sehen, das die Kodierungsoptimierung mit der Integration biologisch inspirierter visueller Mechanismen verbindet.

Implantable retinal prostheses represent a promising solution for restoring partial vision but are often constrained by limited electrode resolution and non-specific neuronal stimulation, which reduces the quality of perceived visual information. To address these limitations, this dissertation proposes and evaluates machine learning-based approaches designed to enhance artificial vision. The core technical contributions are twofold. First, this work addresses the stimulation optimization problem through three novel encoding strategies with physiologically validated computational models: the reverse encoder, the end-to-end encoder, and the invertible encoder. These approaches optimize stimulation patterns by framing the problem within an encoder-decoder architecture where the encoder is trained to maximize perceptual quality. Second, a visual fixation-driven framework, inspired by biological vision, is proposed to prioritize salient image patches, thus optimizing the transmission of visual information. Subjective experiments confirmed the cross-subject consistency of fixation patterns, supporting the feasibility of this strategy. Complementing these core approaches, the dissertation also explores several auxiliary applications, including a survey of visually impaired individuals to inform development goals, a braille simulation framework for assistive reading, and retinal imaging processing pipelines for human and mouse models. Together, these contributions offer a comprehensive machine learning-based framework for improving artificial vision in retinal prosthetics, addressing both the encoding optimization challenge and the incorporation of biologically inspired visual mechanisms.

OpenAccess:
PDF
(additional files)