Lasse Scherffig


EyeVisionBot

Ein System zur blickbasierten Bildersuche und dessen medientheoretische Reflektion.


EyeVisionBot im Medienmuseum des ZKM [link 01]

EyeVisionBot im Medienmuseum des ZKM

Kurzdarstellung

Kurzbeschreibung

EyeVisionBot ist ein System zur blickbasierten Bildersuche: Einem Betrachter wird, während er Bilder betrachtet, von den Augen abgelesen, welche Art von Bildern er sehen möchte. Diese Bilder werden ihm anschließend gezeigt, wobei die Suche iterativ fortgesetzt wird. Aus dem Blickverhalten entsteht so ein nichtlinearer Pfad durch eine Bilddatenbank.
Das System wurde als interaktive Installation realisiert und ist seit September 2004 im Medienmuseum des ZKM benutz- und erlebbar. Als Forschungsprojekt in der Interfaceforschung geht das System so von Anfang an in den öffentlichen Raum. Damit lässt sich EyeVisionBot nicht nur als als experimentelle Mensch-Maschine-Schnittstelle sehen, sondern auch als medienpsychologisches Experimentalsystem und künstlerische Closed-Circuit-Installation. Im Rahmen einer Master Thesis werden das System und die Erfahrungen während seiner Entwicklung nun zum Anlass genommen, die mit diesen drei Lesarten definierten Themenfelder – Closed-Circuit-Kunst, die Naturwissenschaften und die Interfaceforschung – zu verknüpfen um vor diesem Hintergrund schließlich gängige Interfacebegriffe und gängige Praktiken der Interfacegestaltung kritisch zu hinterfragen.
Die medientheoretische Reflektion der Arbeit am EyeVisionBot wird so zu einem untrennbaren Bestandteil dieser Arbeit, weshalb beide zusammen für den Wettbewerb eingereicht werden.

KünstlerInnen / AutorInnen

  • Lasse Scherffig, Student, Universität Bremen

MitarbeiterInnen

  • Sebastian Fischer, Wissenschaftlicher Mitarbeiter, IWM, Institut für Wissensmedien, Tübingen
  • Dr. Hans H. Diebner, Institutsleiter, ZKM, Institut für Grundlagenforschung, Karlsruhe

Entstehung

Deutschland, 2004-2005

Partner / Sponsoren

Die Arbeit entstand am Institut für Grundlagenforschung des ZKM. Lasse Scherffig wurde durch ein Stipendium des ZKM unterstützt.

EyeVisionBot wurde von Hans H. Diebner, Sebastian Fischer und später auch Lasse Scherffig konzeptioniert und geplant. Design und Programmierung wurden von Sebastian Fischer und Lasse Scherffig durchgeführt. Die medientheoretische Reflektion des Projektes in der Master Thesis "It's in Your Eyes. Gaze Based Image Retrieval in Context." stammt von Lasse Scherffig.

Eingabe des Beitrags

Lasse Scherffig, 04.01.2006

Kategorie

  • Forschungsprojekt

Schlagworte

  • Themen:
    • Mensch-Maschine-Interaktion HCI |
    • Wahrnehmung |
    • Medientheorie |
    • Überwachung
  • Formate:
    • Text |
    • Installation
  • Technik:
    • Eye Tracking

Inhalt

Inhaltliche Beschreibung

Der Blick ist, so könnte man sagen, das Interface durch das ein Betrachter Zugang zu Bildmedien erhält. Im Gegenzug ließe sich der Blick dann als das Interface sehen, durch das ein Bildmedium Zugang zu seinem Betrachter erhalten kann.
EyeVisionBot nutzt diese Ein-/Ausgabedualität des Sehens als Grundlage für ein Computerinterface, das ein Blickerfassungssystem verwendet. Das Ziel ist dabei zunächst, einem Betrachter von den Augen abzulesen, welche Art von Bildern er sehen möchte.
Ein solches Ziel zu erreichen ist natürlich in der Praxis problematisch, wenn nicht unmöglich. Das Interface EyeVisionBot versteht sich daher als Versuch, die Machbarkeit, aber auch die Grenzen eines solchen Unterfangens auszuloten und gleichzeitig diese durch die Konzeptionierung des Interfaces als Museumsinstallation öffentlich sichtbar und erlebbar zu machen. Im Medienmuseum des ZKM stellt EyeVisionBot darüber hinaus einen experimentellen Zugang zur Bilddatenbank des Medien Kunst Netzes zur Verfügung.
Die theoretische Arbeit "It's in Your Eyes. Gaze Based Image Retrieval in Context." ist parallel zur Entwicklung des EyeVisionBot entstanden. In ihr wird das System in verschiedene Kontexte gerückt, um so zu Erkenntnissen über die Rolle von Interfaces und ihrer Entwicklung zu kommen. Die Verknüpfung der verschiedenen Kontexte folgt dabei einer Methode, die sich eher der Bricolage eines Marcel Duchamp als dem ingenieurwissenschaftlichen Diskurs verpflichtet fühlt, zugleich aber letzteren immer im Blick behält.
Dazu werden zunächst in drei Kapiteln drei Kontexte definiert: "Kunst", "Wissenschaft" und "Interface". Für jeden dieser Kontexte wird dann aufgezeigt, welche Rolle die Blickerfassungstechnologie darin spielt und spielte. Anschließend werden jeweils wichtige Ideen und Entwicklungen, die für den EyeVisionBot relevant sind, erläutert.
Darunter sind die Rolle von Interaktivität in der Medienkunst, das Konzept der Closed-Circuit-Kunst, die Informationsästhetik in der Nachfolge von George David Birkhoff und Max Bense, gegenwärtige Entwicklungen in der Suche und Visualisierung von Informationen und schließlich eine eingehende Betrachtung des Interfacebegriffs. Dieser wird zunächst unter Rückgriff auf verschiedene Theoretiker (wie Donald Norman, Brenda Laurel, Terry Winograd oder Matthew Fuller) rekonstruiert, wobei insbesondere die Unterschiede ihrer jeweiligen Definitionen berücksichtigt werden. Im Verlauf dieser Rekonstruktion erscheint der Interfacebegriff als einer kontinuierlichen Verschiebung unterworfen. Diese Verschiebung beginnt mit der Vorstellung, ein Interface sei ein Punkt, an dem psychophysische Interaktion stattfindet, geht über die Vorstellungen ein Interface sei eine gestaltete (Ober-)Fläche oder ein Raum für Kommunikation und endet mit der Vorstellung, dass alles ein Interface sei.
Anschließend wird der Interfacebegriff mit Hilfe von Michel Foucault's Buch "Überwachen und Strafen" neu definiert. Die (Informatik-)Praktiken des Erstellens von "Scenarios" und "Use Cases" und das "User Modeling", also die Benutzermodellierung, werden dabei als Praktiken und Methoden der Modellierung von Benutzern im Sinne einer Erzeugung dieser Benutzer und einer Einschreibung möglichen und richtigen Verhaltens gelesen. Daraus folgt, dass Interfaces generell als Systeme der Definition und Durchsetzung von Verhalten und damit als Disziplinarsysteme im Sinne Foucaults gelesen werden können. In diesem Zusammenhang wird die Nähe algorithmischer Überwachungssysteme (des algorithmic CCTV) zu EyeVisionBot im speziellen und Mensch-Maschine-Schnittstellen im allgemeinen herausgestellt.
Trotz der Unterteilung der Arbeit in drei klar abgesetzte Themenfelder steht die assoziative Verknüpfung der Themen im Vordergrund. Beispielsweise kommen bei der Betrachtung von Closed-Circuit-Installationen Kunstgeschichte, Überwachungstechnologie und das an Feedback orientierte Denken der Kybernetik zusammen.

Technik

  • › It's in Your Eyes. Gaze Based Image Retrieval in Context. [2 MB ] [link 02]
  • › EyeVisionBot: Hard- und Softwarekomponenten [24 KB ] [link 03]

Technische Beschreibung

Die Bildersuche des EyeVisionBot beruht auf einfachen Prinzipien: Eine Menge von Bildern wird, angeordnet in einer Matrix, gezeigt, das gerade vom Betrachter fokussierte Bild wird durch Zoomen gegenüber dem Rest vergrößert dargestellt. Da immer nur ein Bild fokussiert werden kann, konkurrieren die Bilder somit um den Blick und die Aufmerksamkeit des Betrachters. Die Daten, welche Bilder wie lange betrachtet wurden, können nun genutzt werden, um Bilder, die den am meisten betrachteten ähnlich sind, zu suchen. Die Ähnlichkeit von Bildern wird dabei auf zwei Arten bestimmt: Zum einen wird inhaltsbasierte Bildersuche (Content Based Image Retrieval) verwendet, also die algorithmisch bestimmte Ähnlichkeit von Textur- und Farbeigenschaften, zum anderen kommen den Bildern zugeordnete Metadaten zum Einsatz. EyeVisionBot vereinigt damit die beiden wohl wichtigsten Antworten der Informatik, auf die Frage wie Bilder verwaltet und verglichen werden können.
EyeVisionBot wurde als hybrides System entwickelt, das zahlreiche Technologien vereinigt. Im Zentrum des Systems steht eine Software, die einerseits die Bilder darstellt und andererseits das Zusammenspiel aller beteiligten Komponenten koordiniert. Die beteiligten Komponenten sind die Bilddatenbank und die Metadaten des Medien Kunst Netzes, eine Software für inhaltsbasierte Bildersuche, ein Eye-Tracking-System und eine Datenbank zur Protokollierung aller Aktionen des EyeVisionBot. Multithreading stellt sicher, dass Bilder gleichzeitig dargestellt, gesucht und heruntergeladen werden können.

Hardware / Software

Zur Hardware des EyeVisionBot gehören drei handelsübliche PCs, von denen einer zu einem Eye-Tracking-System der Firma SMI gehört. Um als Installation im Museum eingesetzt werden zu können wurde ein Tisch gebaut, auf dem ein höhenverstellbarer Einblickschirm und die Kamera des Eye-Tracking-Systems angebracht wurden. Die Bilder werden auf einer Videoprojektion oder einem Plasmabildschirm dargestellt.

Die Software des EyeVisionBot wurde als plattformunabhängige Applikation in C++ unter Verwendung der Open-Source-Bibliothek wxWidgets entwickelt. Die Darstellung der Bilder erfolgt mit Hilfe von OpenGL. Die verwendete Datenbank-Software ist MySQL, für inhaltsbasierte Bildersuche wird das Gnu Image Finding Tool (GIFT) verwendet. Die Bilder werden von einem Apache-Webserver bereitgestellt. Die Kommunikation aller Komponenten erfolgt über verschiedene Netzwerkprotokolle. Der Eye-Tracker wird über UDP angesprochen, das GIFT über HTTP und die Multimedia Retrieval Markup Language (MRML). Kleinere Skripte sorgen dafür, dass beim Einsatz der Installation im Museum alle Softwarekomponenten im Falle eines Ausfalls neu gestartet werden.

Kontext

Hochschule / Fachbereich

Universität Bremen
Informatik

URL der Hochschule

» http://www.uni-bremen.de [link 04]

Betreuer des Projekts

Prof. Dr. Frieder Nake

Kommentar des Betreuers

Die Einreichung von Lasse Scherffig kommt aus seiner Master-Thesis zum M.Sc. in Digital Media, einem internationalen Studiengang der Universität Bremen. Die Thesis hat den Titel "It’s in your eyes. Gaze based image retrieval in context". Die Arbeit wurde am ZKM angefertigt, ich habe sie aus Bremen betreut. Im Kern ist sie eine Software-Entwicklung, die zu einer interaktiven Installation am ZKM geführt hat. Die Installation ist dort zu besichtigen. Die Arbeit wurde unter die Publikationen des ZKM aufgenommen.

Das Werk ist zwischen Kunst und wissenschaftlichem Experiment anzusiedeln. Dem Betrachter wird in großer Projektion ein Feld mit Bildmaterial angeboten. Seine Blickrichtung wird automatisch verfolgt und je nachdem, auf welches Bild er den Blick innerhalb des Feldes konzentriert, wird der dortige Bildinhalt als Anzeichen seines aktuellen Interesses gedeutet. Aus einer Bilddatenbank werden weitere Bilder geholt und angeboten, die dem durch Blick definierten In halt nahe stehen. Hieraus erklärt sich der Titel, dass es nämlich um Bildaufsuchen geht, diese Suche aber durch den ikonisch gerichteten Blick, nicht durch den symbolisch orientierten Fingeranschlag geleitet wird.

Die Arbeit zeichnet sich dadurch aus, dass sie künstlerische, informatische und interaktive Fragestellungen aufgreift. Scherffig stellt sich ihnen und schreibt in essayistischer Form und um Knappheit bemüht einen Text, der aus dem Rahmen gewöhnlich zu erwartender Theses deutlich hervortritt: durch die besondere Thematik, durch die Art der Interaktion (fern vom Desktop), durch den Schreibstil. Über diesen Komponenten, oder sie verbindend, weist die Arbeit ein hohes Maß an kreativer Intelligenz auf.

Anders als in typischen Informatik-Arbeiten ist Scherffig sich der weiteren Zusammenhänge seines Themas wohl bewusst. Er nimmt sie auf und reflektiert das Geschehen in einem sicheren Stil. Eine Arbeit,die aus meiner Sicht, die hervorragenden Fähigkeiten des Autors dokumentiert. In die aktuelle Debatte um Interaktionsmöglichkeiten jenseits der erfolgreichen Bürowelt-Metapher wirft Lasse Scherffig einen wichtigen Gesichtspunkt ein.

Seminar / Kurzbeschreibung

Lasse Scherffig reicht aus seiner Master’s Thesis heraus ein. Zum Abschluss ihres Studium der Digital Media müssen unsere Studierenden eine solche Thesis erarbeiten. Sie haben dafür 6 Monate Zeit. Während dieser Zeit werden sie von einem Hochschullehrer betreut. In diesem Fall gab es zwei Betreuer, den unmittelbar tätigen Dr. Diebner am ZKM und mich in Bremen. Die Arbeit schließt ab mit zwei unabhängigen Gutachten und einem Kolloquium, in dem der Kandidat die Arbeit vorstellt und verteidigt. Der Charakter der Arbeit ist also recht selbständig bei kritischer Begleitung.

Zuordnung Forschungsbereich

Interaktions-Design, Image Retrieval

  • › digital sparks 2006 [link 05]
  • › It's in Your Eyes. Gaze Based Image Retrieval in Context. [2 MB ] [link 06]
  • › EyeVisionBot: Hard- und Softwarekomponenten [24 KB ] [link 07]