Michael Markert


Politician's Speech

Interaktives Rednerpult (Sprachmaschine)


Sensory Realtime System [link 01]

Sensory Realtime System

Kurzdarstellung

Kurzbeschreibung

"Politican's Speech" ist ein interaktives Rednerpult, an dem durch Gestik eine computergenerierte Sprachausgabe erzeugt und deren Parameter in Echtzeit verändert werden können. Der zufällig - immer wieder neu generierte - Text basiert auf einer statistischen Auswertung von Buchstaben- und Wortverteilungen eines Ausgangstextes (Markov Chain). Die Sprachausgabe erfolgt in Echtzeit durch multilinguale Computerstimmen. Die Entwicklung entsprechender Sensorik-Hardware sowie der Software (Microcontroller, Mac) ist Bestandteil der Arbeit. Untersuchungsgegenstand ist die Haltung in Körper und Meinung sowie die menschliche Sprache als Lauterzeugungsinstrument.

KünstlerInnen / AutorInnen

  • Michael Markert, Urban Research Institute

Entstehung

Deutschland, 2007

Partner / Sponsoren

http://www.urban-research-institute.org

Eingabe des Beitrags

Michael Markert, 05.12.2007

Kategorie

  • künstlerische Arbeit

Schlagworte

  • Themen:
    • Kommunikation |
    • Mensch-Maschine-Interaktion HCI |
    • Körper
  • Formate:
    • Installation |
    • interaktiv
  • Technik:
    • Midi |
    • Gesture Recognition

Ergänzungen zur Schlagwortliste

  • Elektronik |
  • Sprache |
  • Sprachausgabe

Inhalt

Inhaltliche Beschreibung

kIII/Politician‘s Speech ist eine interaktive Installation. Der Benutzer kann durch Gestikulieren eine Rede zu einem brisanten politischen Thema seiner Wahl halten.

Die Installation besteht aus einem Rednerpult und mehreren Distanzsensoren. Das Pult ist als politische Pressekonferenz inszeniert. Durch Gestik kann der Benutzer eine computergenerierte Stimme erzeugen und deren Parameter in Echtzeit verändern. Folgende Parameter und -typen können gestisch kontrolliert werden:
- Markov-Text Trigger (Textausgabe)
- Phonem (Kieferöffnung, Zungenposition)
- Tonhöhe (Harmonisiert!)
- Rhythmus (Notenwerte, BPM, Master/Slave Sync)
- Spannung (Tense, Stress, Modulation und Geschwindigkeit)

Neben den phonetischen Gesetzen sind auch Funktionen einer zufallsgesteuerten Spracherzeugung implementiert, die durch statistische Auswertung von Buchstaben- und Wortverteilung eines Ausgangstextes (mit Hilfe von mathematischen Markov-Ketten) in Echtzeit neue Phrasen generieren können. Dabei dient ein Ausgangstext zur Ermittlung der statistischen Werte - damit ist die Eingabe nicht an eine (Fremd-)Sprache gebunden. Der Ausgabetext, erzeugt auf die gestische Handlung, wird zufallsgesteuert neu zusammengesetzt, wobei der Eindruck eines Sinnzusammenhangs entsteht.

In Anlehnung an die politische Redekultur vor Medienvertretern, die durch Wortwahl und Ausdrucksweise den Inhalt oft entweder verschleiern oder zu positivieren versuchen, ist hier dem Bürger selbst die Möglichkeit gegeben, sich diese Ausdrucksweise durch körperliche Handlung einzuverleiben. Durch die Zufallssteuerung entstehen häufig absurde Formulierungen, die im Sinne der fröhlichen Wissenschaft die Erweiterung des Verständnisses der Sprache und die Vorführung unlogischer Argumentation in gut formulierte Sprachhülsen.

Die Stimme als privateste Ausdrucksform im Sprechakt wie auch im Gesang ist gekennzeichnet durch das Hervorbringen von Bedeutung durch Artikulation verschiedenster Körperteile. Die Imitation des Sprechens durch Maschinen war und ist Gegenstand der historischen und aktuellen Forschung. Die Trennung der Bedeutungsebene von der klanglichen Erscheinung trat kunsthistorisch schon in Erscheinung, meist jedoch als performative Aufführung komponierter Sprach(-loser) Arien. In der technischen Entwicklung stellt die Hervorbringung verständlicher Bedeutung das bevorzugte Ziel datenverarbeitender Programme und Schaltkreise dar.

Die zur Erzeugung menschlicher Sprache verwendeten Verhaltens- und Ausdrucksmechanismen sollen Gegenstand der Untersuchungen sein. Dabei interessiert nicht die Reproduktion von Bedeutung als Kommunikationszweck, sondern die Produktion von Verhalten durch Interaktion. Die elektrische Stimme soll nicht Imitat sondern Instrument sein. Die entstehende Sprache geht durch den verhaltensbasierenden Ansatz jedoch weit über reine lautpoetische Experimente hinaus:
Der Besucher wird aufgefordert, eine nicht näher spezifizierte Verhaltensweise auszuüben, um eine bedeutungslose Stimme zu steuern, die durch einen Rückkopplungseffekt wiederum seine Verhaltensweise beeinflusst und dadurch Bedeutung im Betrachter der Aktion oder dem Handelnden selbst auszulösen (kybernetische Apparatur zur Erzeugung systemtranszendenter kinetischer Energie)

Technik

Technische Beschreibung

Vier Infrarot-Distanzsensoren (in den Mikrofonen) erfassen die Gestik des Redners. Mit einer Sensor-Box werden diese Daten ausgewertet und per MIDI an einen Macintosh-Computer geschickt, an dem die MIDI-Daten zur Ansteuerung der Sprache dienen und die Ausgabe der Stimmen stattfindet.

Die beiden Kernkomponenten wurden vom Künster selbst entwickelt und programmiert:

1. ACSensorizer: SensorBox zur harmonisierten und quantisierten Auswertung analoger Signale; erzeugt harmonische und synchronisierte MIDI-Daten

2. kIII: Sprachausgabe-Software für Echtzeitverarbeitung und MIDI-Steuerung mit diversen Ausgabemodulen:
-- Phonem-Generator: erzeugt Phoneme basierend auf Kiefer- und Zungenstellung
-- Markov-Generator: erzeugt in Echtzeit einen zufälligen, grammatikalisch scheinbar korrekten Text durch Analyse der statistischen Wortverteilungen aus einem Quelltext (Fremdsprachen-unabhängig)
-- Phrasen-Editor: speichert unlimitierte Phrasen und gibt diese wieder
-- SpeakJet® Emulation
-- Performer: Echtzeit-Gesang

Hardware / Software

Hardware:
- Pult
- Nationalflaggen
- IR-Distanzsensoren
- ACSensorizer: MBHP SensorBox (midibox.org)
- MIDI Device
- Mac Mini
- Aktive Lautsprecher

Software:
- ACSensorizer, Sensor-Software für PIC-Microkontroller, entwickelt und programmiert von Michael Markert für MBHP/MIOS (Quellcode und Baupläne veröffentlicht)
- kIII Sprachsoftware, entwickelt und programmiert von Michael Markert für Mac OS X 10.4.x
- iVox Voices (Deutsch, Britisch, US-Amerikanisch) zur Sprachausgabe

Elektrische Spezifikationen:
- Mac Mini, Lautsprecher: 240 V~
- ACSensorizer: 9 V=, 800 mA; Netzteil 240 V~

Kontext

Referenzen

» http://www.audiocommander.de [link 02]

  • › Politician's Speech Konzeption & Beschreibung (DE, PDF) [PDF | 635 KB ] [link 03]
  • › kIII Sensoren [JPEG | 6 KB ] [link 04]
  • › kIII Benutzer #1 [JPEG | 9 KB ] [link 05]
  • › kIII Benutzer #2 [JPEG | 14 KB ] [link 06]
  • › kIII Demonstrations-Video (EN) [8 MB ] [link 07]
  • › Rednerpult Entwurf [JPEG | 16 KB ] [link 08]
  • › Rednerpult Realisation [JPEG | 6 KB ] [link 09]
  • › kIII Technical Rider [JPEG | 27 KB ] [link 10]
  • › kIII Markov Chain Generator Module (Screenshot) [JPEG | 55 KB ] [link 11]
  • › kIII Phoneme Generator Module (Screenshot) [JPEG | 43 KB ] [link 12]
  • › kIII Voice Parameter Settings (Screenshot) [JPEG | 40 KB ] [link 13]