Hans H. Diebner, Sebastian Fischer, Lasse Scherffig


EyeVisionBot

Eine Schnittstelle zur blickbasierten Bildersuche


EyeVisionBot [link 01]

EyeVisionBot

Kurzdarstellung

Kurzbeschreibung

EyeVisionBot ist eine auf Blickerfassung beruhende Benutzerschnittstelle zur Bildersuche. Mit ihr ist es möglich, allein durch das Betrachten von Bildern durch Bilddatenbanken zu navigieren. Obwohl das System während der Benutzung Suchanfragen generiert, die aus einer Kombination von Kategorien und strukturellen Bildinhalten bestehen, entfällt das bei herkömmlichen Systemen übliche Erlernen und Bedienen einer komplexen Suchmaske. Der Benutzer wird individuell durch eine Bilddatenbank geführt, die in ihrer Gesamtheit zu umfangreich und unüberschaubar ist. Das System adaptiert dabei an seine Interessen und Intentionen. Durch die Verwendung von Metadaten und struktureller Analyse von Bilddaten werden unterschiedliche Zugänge zur Semantik der betrachteten Bilder performativ erfahrbar. EyeVisionBot stellt im Medienmuseum des ZKM einen Zugang zur Datenbank des Medien Kunst Netzes zur Verfügung.

KünstlerInnen / AutorInnen

  • Hans H. Diebner, ZKM | Institut für Grundlagenforschung
  • Sebastian Fischer, Institut für Wissensmedien, Tübingen
  • Lasse Scherffig, ZKM | Institut für Grundlagenforschung

Entstehung

Deutschland, 2003-2004

Eingabe des Beitrags

Lasse Scherffig, 25.07.2005

Kategorie

  • künstlerische Arbeit

Schlagworte

  • Themen:
    • Interface |
    • Mensch-Maschine-Interaktion HCI |
    • Wahrnehmung |
    • Medienkunst |
    • Datenbank
  • Formate:
    • Installation
  • Technik:
    • Eye Tracking

Inhalt

Inhaltliche Beschreibung

EyeVisionBot ist eine auf Blickerfassung beruhende Benutzerschnittstelle zur metadaten- und inhaltsbasierten Suche in Bilddatenbanken. Dem System liegt die Idee zu Grunde, dem Benutzer die gewünschte Bildkategorie "von den Augen abzulesen". Obwohl die Idee eines "What You Look at is What You Get" wiederholt in der Schnittstellenforschung diskutiert worden ist, hat es bisher keine echte Implementierung davon gegeben. Vielmehr wurde Blickerfassung als Schnittstellentechnologie meist analog zu traditionellen Eingabemedien, wie der Maus, genutzt.
Versuche die Intention des Benutzers durch Erstellung eines Benutzermodells zu ermitteln waren bisher erfolglos. Im Gegensatz dazu wird bei EyeVisionBot der Benutzer nicht modelliert, sondern so in die Interaktion mit der Schnittstelle integriert, dass seine Intention aus seinem natürlichen Verhalten erkennbar wird: Bilder werden gezeigt und konkurrieren um den Blick des Benutzers. Die Blickzeiten werden ausgewertet und in Suchanfragen übersetzt, deren Ergebnisse wieder dargestellt werden. Auf der Benutzerseite ist EyeVisionBot so eine extrem einfache und transparente Schnittstelle. Das Erlernen und Bedienen einer komplexen Suchmaske entfällt.
Die Transparenz der Schnittstelle wird über direktes und indirektes Feedback gewährleistet. Ersteres besteht im dynamischen Aufzoomen des gerade betrachteten Bildes, letzteres im Fortschritt des Suchprozesses. Zu Beginn der Suche werden zufällig gewählte Bilder gezeigt. Auf Grundlage der Betrachtungszeiten der einzelnen, in einer überschaubaren Matrix angeordneten Bilder, werden dann im Hintergrund neue Bilder gesucht und nach Abschluss der Suche dargestellt. Dieser Prozess von Suche und Darstellung der Suchergebnisse wiederholt sich. Das Aufzoomen der Bilder dient dabei zum einen der Sichtbarmachung des Auswählens unter den Bildern, zum anderen ermöglicht es den Blick auf Details im einzelnen Bild.
EyeVisionBot wird bereits erfolgreich im Medienmuseum des ZKM genutzt. Die Darstellung der Bilder erfolgt dort auf einer Projektion, die Blickerfassungseinheit kalibriert sich selbständig. Das System kann daher von Museumsbesuchern ohne Betreuung genutzt werden. Die Datenbasis im Museum stellt die Medienkunstdatenbank „Medien Kunst Netz“, deren Bilder von Experten kategorisiert sind. Durch das Aufzoomen der betrachteten Bilder bekommen auch passive Betrachter ein sinnvolles Feedback.
Die Bildersuche mit EyeVisionBot zeichnet sich durch die Kombination zweier unterschiedlicher Zugänge zur Semantik eines Bildes aus: Zum einen wird „Content Based Image Retrieval“ (CBIR), zum anderen werden Kategorien (Metadaten) verwendet. Dabei enthält jeder Zugang wieder eine Vielzahl von Möglichkeiten: Bei einer CBIR-Suche stehen unterschiedliche Algorithmen zur Verfügung, die jeweils auf verschiedene Auswahlverfahren zurückgreifen. Da Kategorien selten disjunkt und eindeutig sind, können einzelne Bilder auch mehreren Kategorien angehören. Die Kategorien können dabei unabhängig oder hierarchisch verschachtelt sein. EyeVisionBot verknüpft bei der Suche in der "Medien Kunst Netz"-Datenbank so zwei kategorienbasierte Suchmechanismen, nämlich die Zuordung zu Bildern aus dem Werkkomplex des selben Autors und die Zuordnung zu Bildern aus dem selben Medienkunstthemenfeld, mit zwei inhaltsbasierten Suchmechanismen, bei denen die gesuchten Bilder nach zwei unterschiedlichen Gewichtungen der Bildeigenschaften ermittelt werden.
Wesentlicher Bestandteil des Systems ist eine Datenbank. Diese verwaltet Bildersammlungen auf verschiedenen Servern, Bildkategorien aus Metadaten, Inhaltsanalysen oder Benutzerstatistiken und protokolliert alle während der Benutzerinteraktionen ermittelten Blickdaten. Die Bildkategorien werden dabei dynamisch in der Datenbank verwaltet, so dass auch Änderungen der Kategorien und den ihnen zugeordneten Bildern möglich sind und im Zeitverlauf festgehalten werden können. Die Blickverhaltensdaten können zum einen der Anpassung des Suchverfahrens an den aktuellen Benutzer dienen, zum anderen können Kategorien immer wieder neu, beispielsweise aus dem gesamten Benutzerverhalten generiert werden.
In der jetzigen Form sind im EyeVisionBot bereits die Grundlagen für zukünftige Forschungsvorhaben angelegt: Eine globale Adaptierung ganzer Bilddatenbanken an das Benutzerverhalten ist genauso denkbar wie antizipative Algorithmen, die die Effizienz der Suche einzelner Benutzer erhöhen können. Die Benutzerdaten können auch in der Erforschung von Blickerfassung als Benutzschnittstelle verwendet werden.

Technik

Technische Beschreibung

Verteilte Implementation auf vernetzten Rechnern. Kombination von Eye- Tracking, Content Based Image Retrieval und Metadaten.

Hardware / Software

Tisch mit höhenverstellbarem Einblickschirm, Beamer, stand-alone Eye-Tracking System von SMI, Linux Server mit MySQL-Datenbank, Apache Webserver und dem GNU Image Finding Tool für Content Based Image Retrieval, eigene Applikation zur Darstellung des Interfaces und zur Koordination aller Komponenten auf Basis von C++ und wxWidgets.

Kontext

Ausstellungen / Präsentationen

  • Austellung: Meisterwerke der Medienkunst aus der ZKM_Sammlung, ZKM Karlsruhe, 09/2004 - 12/2005
    » http://on1.zkm.de/zk…ner_fischer_scherffig [link 02]

Veröffentlichungen

  • Lasse Scherffig, It's in Your Eyes - Gaze Based Image Retrieval in Context, Karlsruhe, 2005
    » http://www.scheimlack.de/inyoureyes [link 03]
  • › Community/netzkollektor [link 04]

» http://www.medienkun…/werke/eye-vision-bot [link 05]