000681424 001__ 681424 000681424 005__ 20230408005002.0 000681424 0247_ $$2URN$$aurn:nbn:de:hbz:82-rwth-2017-002035 000681424 0247_ $$2datacite_doi$$a10.18154/RWTH-2017-00203 000681424 0247_ $$2HBZ$$aHT019221399 000681424 0247_ $$2ISSN$$a2198-3372 000681424 0247_ $$2Laufende Nummer$$a35685 000681424 020__ $$a978-3-8440-4882-7 000681424 037__ $$aRWTH-2017-00203 000681424 041__ $$aEnglish 000681424 082__ $$a004 000681424 1001_ $$0P:(DE-82)066956$$aWeyand, Tobias$$b0 000681424 245__ $$aVisual discovery of landmarks and their details in large-scale image collections$$cTobias Weyand$$honline, print 000681424 246_3 $$aVisuelles Auffinden von Denkmälern und ihren Details in großen Mengen von Bildern$$yGerman 000681424 260__ $$aAachen$$bShaker$$c2016 000681424 260__ $$c2017 000681424 300__ $$a1 Online-Ressource (viii, 171 Seiten) : Illustrationen, Diagramme 000681424 3367_ $$2DataCite$$aOutput Types/Dissertation 000681424 3367_ $$0PUB:(DE-HGF)3$$2PUB:(DE-HGF)$$aBook$$mbook 000681424 3367_ $$2ORCID$$aDISSERTATION 000681424 3367_ $$2BibTeX$$aPHDTHESIS 000681424 3367_ $$02$$2EndNote$$aThesis 000681424 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd 000681424 3367_ $$2DRIVER$$adoctoralThesis 000681424 4900_ $$aSelected topics in computer vision$$v2 000681424 500__ $$aDruckausgabe: 2016. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2017 000681424 502__ $$aDissertation, RWTH Aachen University, 2016$$bDissertation$$cRWTH Aachen University$$d2016$$gFak01$$o2016-09-30 000681424 5203_ $$aDurch ihr rapides Wachstum in den letzten Jahren sind Foto-Sharing-Webseiten zu einer sehr wertvollen Quelle visueller Daten geworden. Sie bieten eine Fülle von Fotos der Denkmäler, Monumente, Skulpturen und Gemälde der Welt. Aus diesem Reichtum an visueller Information lassen sich Landmark Recognition Engines konstruieren, die ein Foto von einem Denkmal automatisch mit seinem Namen und Standort versehen können. Landmark Recognition Engines bauen auf Clustering Algorithmen auf, die Millionen von Fotos nach den abgebildeten Gebäuden oder Objekten gruppieren.Dieses Gruppierungsproblem ist sehr komplex, da die massive Menge an Internetfotos effiziente und hochgradig parallele Algorithmen erfordert. Zudem sorgen verschiedene Blickwinkel, Tageszeiten und Wetterbedingungen für starke Veränderungen im Aussehen der Gebäude, weshalb robuste Ahnlichkeitsmaße für Bilder benötigt werden. Letztlich ist es wichtig, ein Clustering-Kriterium zu definieren, das sinnvolle Objektcluster ergibt. Der Iconoid Shift Algorithmus, den wir in dieser Dissertation präsentieren, verwendet eine sehr intuitive Definition von Clustern: Er repräsentiert jedes Objekt durch ein ikonisches Bild, oder Iconoid. Der Iconoid eines Objekts ist das Bild, welches den größten Gesamtüberlapp mit allen anderen Bildern dieses Objekts hat. Das Cluster eines Iconoid ist die Menge aller Bilder, die einen gewissen Mindestüberlapp mit dem Iconoid haben. Wir finden Iconoids durch Mode Search, unter Verwendung eines neuen Ahnlichkeitsmaßes, welches auf dem Bildüberlapp basiert und daher robuster bezüglich Veränderungen in Blickwinkel und Beleuchtung ist als traditionelle Bildähnlichkeitsmaße. Wir schlagen effiziente parallele Algorithmen für diese Mode Search vor. Im Gegensatz zu den meisten vorherigen Algorithmen zum Clustern von Bildern, welche ein hartes Clustering produzieren, erzeugt Iconoid Shift ein überlappendes Clustering und kann daher elegant mit Bildern umgehen, die mehrere benachbarte Denkmäler zeigen, indem diese Bilder mehreren Clustern zugeordnet werden.Die steigende Dichte an Fotos auf Foto-Sharing-Webseiten erlaubt es uns, noch einen Schritt weiter zu gehen und sogar Sub-Strukturen von Gebäuden, wie Türen, Türme oder Fassadendetails aufzufinden. Hierzu präsentieren wir den Hierarchical Iconoid Shift Algorithmus, der statt eines flachen Clustering eine Hierarchie von Clustern produziert, in der jedes Cluster ein Gebäude oder eine Sub-Struktur repräsentiert. Dieser Algorithmus basiert auf einer neuen Variante von Medoid Shift, die die Evolution von Modi im Scale Space verfolgt während sie kontinuierlich die Größe des Kernel-Fensters erhöht.Aber welche Arten von Objekten kann eine ausschließlich durch Mining von FotoSharing-Webseiten erstellte Landmark Recognition Engine erkennen? Und wie konstruiert man eine solche Engine, sodass sie möglichst effizient ist und gleichzeitig eine gute Erkennungsrate erreicht? Um diese Fragen zu beantworten, führen wir eine großangelegte Evaluation einer Landmark Recognition Engine durch und zeigen auf, wie die Wahl ihrer Komponenten und Parameter die Erkennungsrate verschiedener Arten von Objekten, wie Gebäuden, Gemälden oder Skulpturen beeinflusst.Unser letzter Beitrag bezieht sich auf ein praktisches Problem der Image Retrieval Methoden, auf denen unsere Algorithmen basieren: Ein großer Anteil von Internetfotos hat sichtbare Wasserzeichen, Datums- und Uhrzeitinformationen oder Rahmen, die in den Bildinhalt eingebettet sind. Diese Artefakte verursachen oft falsch-positive Bildmatches. Wir präsentieren eine einfache, aber hocheffektive und effiziente Methode, um solche Matches zu detektieren und dadurch Fehler beim Auffinden und Erkennen von Denkmälern zu verhindern.$$lger 000681424 520__ $$aWith their rapid growth in recent years, Internet photo collections have become an invaluable repository of visual data. In particular, they provide detailed coverage of the world’s landmark buildings, monuments, sculptures, and paintings. This wealth of visual information can be used to construct landmark recognition engines that can automatically tag a photo of a landmark with its name and location. Landmark recognition engines rely on clustering algorithms that are able to group several millions of images by the buildings or objects they depict.This grouping problem is very challenging since the massive amount of Internet images requires efficient and highly parallel algorithms, and the appearance variability of buildings caused by viewpoint, weather and lighting changes requires robust image similarity measures. Most importantly, it is critical to define a clustering criterion that results in meaningful object clusters. The Iconoid Shift algorithm we present in this thesis uses a very intuitive definition: It represents each object by an iconic image, or Iconoid, which is the image that has the highest overlap with all other images of the object. The object cluster is then the set of all images that have a certain minimum overlap with the Iconoid. We find Iconoids by performing mode search using a novel distance measure based on image overlap that is more robust to viewpoint and lighting changes than traditional image distance measures. We propose efficient parallel algorithms for performing this mode search. In contrast to most previous algorithms that produced a hard clustering, Iconoid Shift produces an overlapping clustering and thus elegantly handles images showing multiple nearby landmarks by assigning them to multiple clusters.The increasing density of Internet photo collections allows us to go a step further and to even discover sub-structures of buildings such as doors, spires, or facade details. To this end, we present the Hierarchical Iconoid Shift algorithm that, instead of a flat clustering, produces a hierarchy of clusters, where each cluster represents a building sub-structure. This algorithm is based on a novel hierarchical variant of Medoid Shift that tracks the evolution of modes through scale space by continuously increasing the size of its kernel window.But which objects can a landmark recognition engine built by automatically mining Internet photo collections recognize? And how to construct such a system such that it is efficient and achieves high recognition performance? To answer these questions, we perform a large-scale evaluation of the different components of a landmark recognition system, analyzing how different choices of components and parameters affect performance for different object categories such as buildings, paintings or sculptures.As a final contribution, we consider a practical problem of the image retrieval methods that our algorithms are based on: a large fraction of the photos in Internet photo collections has visible watermarks, timestamps, or frames embedded in the image content. These artifacts often cause false-positive image matches. We present a simple but highly efficient and effective method to detect such matches and thus prevent errors in landmark discovery and recognition.$$leng 000681424 591__ $$aGermany 000681424 653_7 $$alandmark recognition 000681424 653_7 $$aimage clustering 000681424 653_7 $$aimage retrieval 000681424 7001_ $$0P:(DE-82)IDM02387$$aLeibe, Bastian$$b1$$eThesis advisor$$urwth 000681424 7001_ $$0P:(DE-HGF)0$$aChum, Ondrej$$b2$$eThesis advisor 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.pdf$$yOpenAccess 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424_source.zip$$yRestricted 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.gif?subformat=icon$$xicon$$yOpenAccess 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.jpg?subformat=icon-1440$$xicon-1440$$yOpenAccess 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.jpg?subformat=icon-180$$xicon-180$$yOpenAccess 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.jpg?subformat=icon-640$$xicon-640$$yOpenAccess 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.jpg?subformat=icon-700$$xicon-700$$yOpenAccess 000681424 8564_ $$uhttps://publications.rwth-aachen.de/record/681424/files/681424.pdf?subformat=pdfa$$xpdfa$$yOpenAccess 000681424 909CO $$ooai:publications.rwth-aachen.de:681424$$pdnbdelivery$$pVDB$$pdriver$$purn$$popen_access$$popenaire 000681424 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess 000681424 9141_ $$y2016 000681424 9101_ $$0I:(DE-HGF)0$$6P:(DE-82)066956$$aRWTH Aachen University$$b0 000681424 9201_ $$0I:(DE-82)123720_20140620$$k123720$$lLehr- und Forschungsgebiet Informatik 8 (Computer Vision)$$x0 000681424 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1 000681424 961__ $$c2017-03-01T20:06:56.967282$$x2017-01-05T20:15:47.463939$$z2017-03-01T20:06:56.967282 000681424 9801_ $$aFullTexts 000681424 980__ $$aphd 000681424 980__ $$aVDB 000681424 980__ $$abook 000681424 980__ $$aI:(DE-82)123720_20140620 000681424 980__ $$aI:(DE-82)120000_20140620 000681424 980__ $$aUNRESTRICTED