KI ist bereits besser im Lippenlesen als wir

The wird nicht alt werden, ein Dokumentarfilm aus dem Jahr 2018 über das Leben und die Bestrebungen britischer und neuseeländischer Soldaten, die den Ersten Weltkrieg durchlebten, wurde gefeiert Herr der Ringe Regisseur Peter Jackson ließ sein über hundert Jahre altes Stummfilmmaterial modernisieren, sowohl durch Kolorierung als auch durch die Aufnahme von neuem Ton für zuvor nicht existierende Dialoge. Um eine Vorstellung davon zu bekommen, was die Leute im Archivmaterial sagten, stellte Jackson ein Team forensischer Lippenleser ein, um ihre aufgezeichneten Äußerungen zu schätzen. Berichten zufolge, „die Lippenleser waren so genau, dass sie sogar den Dialekt und Akzent der sprechenden Personen bestimmen konnten.“

„Diese Typen lebten nicht in einer stillen Schwarz-Weiß-Welt, und dieser Film handelt nicht vom Krieg; es geht um die Erfahrung des Soldaten im Krieg“, sagte Jackson Täglicher Sentinel im Jahr 2018. „Ich wollte, dass das Publikum so nah wie möglich sieht, was die Soldaten sahen und wie sie es sahen und hörten.“

Das ist eine ziemliche sprachliche Meisterleistung, wenn man bedenkt, dass eine Studie aus dem Jahr 2009 ergab, dass die meisten Menschen nur Lippen lesen können mit rund 20 Prozent Genauigkeit und die CDC Hörverlust bei Kindern – Leitfaden für Eltern schätzt, dass „ein guter Sprachleser möglicherweise nur 4 bis 5 Wörter in einem Satz mit 12 Wörtern sehen kann“. Ähnlich, eine Studie aus dem Jahr 2011 der University of Oklahoma sah bei seinen Testpersonen nur eine Genauigkeit von etwa 10 Prozent.

„Jede Person, die a CUNY-Lippenlesepunktzahl von 30 Prozent korrekt gilt als Ausreißer, was ihnen einen T-Wert von fast 80 gibt, der dreimal so hoch ist wie die Standardabweichung vom Mittelwert. Ein Genauigkeitswert der Lippenleseerkennung von 45 Prozent korrekt platziert eine Einzelperson um 5 Standardabweichungen über dem Mittelwert.“ die Studie von 2011 abgeschlossen. „Diese Ergebnisse quantifizieren die inhärente Schwierigkeit der rein visuellen Satzerkennung.“

Für Menschen ist das Lippenlesen dem Schlagen in den Major Leagues sehr ähnlich – wenn Sie es auch nur dreimal von zehn richtig machen, gehören Sie zu den Besten, die jemals dieses Spiel gespielt haben. Für moderne maschinelle Lernsysteme ist das Lippenlesen eher wie Go spielen – nur Runde für Runde auf die Fleischsäcke einzuprügeln, die Sie erschaffen und versklavt haben – wobei die heutigen hochmodernen Systeme gute Leistungen erbringen über 95 Prozent Wortgenauigkeit auf Satzebene. Und da sie sich weiter verbessern, könnten wir soon Sehen Sie einen Tag, an dem Aufgaben von der Stummfilmverarbeitung über das stille Diktieren in der Öffentlichkeit bis hin zur biometrischen Identifizierung von KI-Systemen übernommen werden.

Kontextangelegenheiten

Nun könnte man meinen, dass Menschen inzwischen besser im Lippenlesen sind, da wir die Technik seit den Tagen des spanischen Benediktinermönchs Pedro Ponce de León offiziell praktizieren, dem zugeschrieben wird Pionierarbeit für die Idee im frühen 16. Jahrhundert.

es ist eine Statue

Wikipedia / Gemeinfrei

„Wir betrachten Sprache normalerweise als das, was wir hören, aber der hörbare Teil der Sprache ist nur ein Teil davon“, sagt Dr. Fabian Campbell-West, CTO des Lippenlese-App-Entwicklers. Lopa, teilte Engadget per E-Mail mit. „So wie wir es wahrnehmen, kann die Sprache einer Person in visuelle und auditive Einheiten unterteilt werden. Die visuellen Einheiten, Mundbilder genannt, werden als Lippenbewegungen gesehen. Die hörbaren Einheiten, Phoneme genannt, werden als Schallwellen gehört.“

„Bei der Kommunikation von Angesicht zu Angesicht wird oft der Vorzug gegeben, weil wir sowohl für visuelle als auch für akustische Informationen sensibel sind“, fuhr er fort. „Allerdings gibt es ungefähr dreimal so viele Phoneme wie Mundbilder. Mit anderen Worten, Lippenbewegungen allein enthalten nicht so viele Informationen wie der hörbare Teil der Sprache.“

„Die meisten Lippenlesebewegungen, abgesehen von Lippen und manchmal Zunge und Zähnen, sind latent und ohne Kontext schwer zu disambiguieren“, bemerkte der damalige Forscher und LipNet-Entwickler Yannis Assael von der Universität Oxford im Jahr 2016 angegeben, unter Berufung auf Fishers frühere Studien. Diese Homopheme sind das Geheimnis Schlechtes LippenlesenErfolg.

Das Verrückte ist, dass Bad Lip Reading im Allgemeinen in jeder gesprochenen Sprache funktioniert, egal ob es eine ist Tonhöhe-Akzent wie Englisch bzw tonal wie Vietnamesen. „Sprache macht einen Unterschied, besonders solche mit einzigartigen Klängen, die in anderen Sprachen nicht üblich sind“, sagte Campbell-West. „Jede Sprache hat Syntax- und Ausspracheregeln, die sich darauf auswirken, wie sie interpretiert wird. Im Großen und Ganzen sind die Methoden zum Verstehen die gleichen.“

„Tonale Sprachen sind interessant, weil sie dasselbe Wort mit unterschiedlichen Tonhöhenänderungen (wie Tonhöhenänderungen) verwenden, um Bedeutung zu vermitteln“, fuhr er fort. „Intuitiv würde dies eine Herausforderung für das Lippenlesen darstellen, aber die Forschung zeigt, dass es immer noch möglich ist, Sprache auf diese Weise zu interpretieren. Ein Grund dafür ist, dass eine Veränderung des Tonus physiologische Veränderungen erfordert, die sich visuell manifestieren können. Das Lippenlesen wird auch im Laufe der Zeit durchgeführt, sodass der Kontext früherer Mundbilder, Wörter und Sätze beim Verständnis helfen kann.“

„Es ist wichtig, wie gut Ihre Sprachkenntnisse sind, weil Sie im Grunde die Menge der Mehrdeutigkeiten einschränken, nach denen Sie suchen können“, Adrian KC Lee, ScD, Professor und Vorsitzender der Abteilung für Sprach- und Hörwissenschaften, Sprach- und Hörwissenschaften an der University of Washington, sagte Engadget. „Sag, ‚kalt; und 'halten', richtig? Wenn Sie nur vor einem Spiegel sitzen, können Sie den Unterschied nicht wirklich erkennen. Aus physikalischer Sicht ist es also unmöglich, aber wenn ich etwas festhalte, anstatt über das Wetter zu sprechen, wissen Sie es aufgrund des Kontexts bereits.

Neben dem allgemeinen Kontext der größeren Bekehrung kommt vieles von dem, was die Menschen beim Sprechen vermitteln, nonverbal rüber. „Die Kommunikation ist normalerweise einfacher, wenn man die Person sowohl sehen als auch hören kann“, sagte Campbell-West, „aber die jüngste Verbreitung von Videoanrufen hat uns allen gezeigt, dass es nicht nur darauf ankommt, die Person dort zu sehen, sondern viel mehr Nuancen. Es gibt viel mehr Potenzial für den Aufbau intelligenter automatisierter Systeme zum Verständnis menschlicher Kommunikation als das, was derzeit möglich ist.“

Sprachlich einen Wald vor lauter Bäumen vermissen

Während menschliche und maschinelle Lippenleser das gleiche allgemeine Endziel haben, unterscheiden sich die Ziele ihrer individuellen Prozesse stark. Als ein Team von Forschern aus Iran Universität für Wissenschaft und Technologie argumentierten im Jahr 2021: „In den letzten Jahren wurden mehrere Methoden für eine Person zum Lippenlesen vorgeschlagen, aber es gibt einen wichtigen Unterschied zwischen diesen Methoden und den in der KI vorgeschlagenen Lippenlesemethoden. Der Zweck der vorgeschlagenen Methoden zum Lippenlesen durch die Maschine besteht darin, visuelle Informationen in Wörter umzuwandeln … Der Hauptzweck des Lippenlesens durch den Menschen besteht jedoch darin, die Bedeutung der Sprache zu verstehen und nicht jedes einzelne Wort der Sprache zu verstehen.“

Kurz gesagt: „Menschen sind im Allgemeinen faul und verlassen sich auf den Kontext, weil wir viel Vorwissen haben“, erklärte Lee. Und es ist diese Dissonanz im Prozess – das sprachliche Äquivalent dazu, einen Wald vor lauter Bäumen zu verpassen – die eine so einzigartige Herausforderung für das Ziel darstellt, das Lippenlesen zu automatisieren.

„Ein großes Hindernis bei der Erforschung des Lippenlesens ist das Fehlen einer standardisierten und praktischen Datenbank“, sagte Hao. „Die Größe und Qualität der Datenbasis bestimmen den Trainingseffekt dieses Modells, und eine perfekte Datenbasis wird auch das Entdecken und Lösen von immer komplexeren und schwierigeren Problemen bei Lippenleseaufgaben fördern.“ Andere Hindernisse können Umweltfaktoren wie schlechte Beleuchtung und sein shiftHintergründe, die Bildverarbeitungssysteme verwirren können, ebenso wie Abweichungen aufgrund des Hauttons des Sprechers, des Drehwinkels seines Kopfes (der shifts der Betrachtungswinkel des Mundes) und das verdeckende Vorhandensein von Falten und Bärten.

Wie Assael feststellt, „ist das maschinelle Lippenlesen schwierig, weil es das Extrahieren von räumlich-zeitlichen Merkmalen aus dem Video erfordert (da sowohl Position als auch Bewegung wichtig sind)“. Wie Mingfeng Hao von der Xinjiang University jedoch in den 2020er Jahren erklärt Eine Umfrage zur Lippenlesetechnologie, „Aktionserkennung, die zur Videoklassifizierung gehört, kann durch ein einzelnes Bild klassifiziert werden.“ „Während Lippenlesen häufig die Merkmale im Zusammenhang mit dem Sprachinhalt aus einem einzelnen Bild extrahieren und die zeitliche Beziehung zwischen der gesamten Bildfolge analysieren muss, um auf den Inhalt zu schließen.“ Dies ist ein Hindernis, das sowohl die Verarbeitung natürlicher Sprache als auch die Fähigkeiten des maschinellen Sehens erfordert überwinden.

Akronym Suppe

Heutzutage gibt es die Spracherkennung je nach Eingabequelle in drei Varianten. Worüber wir heute sprechen, fällt unter die Forschung zur visuellen Spracherkennung (VSR) – das heißt, nur visuelle Mittel zu verwenden, um zu verstehen, was übermittelt wird. Umgekehrt gibt es Automatisierte Spracherkennung (ASR), das vollständig auf Audio angewiesen ist, dh „Hey Siri“, und Audiovisuelle automatisierte Spracherkennung (AV-ASR), das sowohl akustische als auch visuelle Hinweise in seine Vermutungen einbezieht.

„Die Forschung zur automatischen Spracherkennung (ASR) ist extrem ausgereift und der aktuelle Stand der Technik ist im Vergleich zu dem, was zu Beginn der Forschung möglich war, nicht wiederzuerkennen“, sagte Campbell-West. „Die visuelle Spracherkennung (VSR) befindet sich noch in einem relativ frühen Stadium der Nutzung und die Systeme werden weiter reifen.“ Liopas SRAVI-App, das es Krankenhauspatienten ermöglicht, zu kommunizieren, unabhängig davon, ob sie aktiv verbalisieren können, beruht auf der letzteren Methodik. „Dies kann beide Informationsarten nutzen, um die Mängel des anderen zu überwinden“, sagte er. „In Zukunft wird es durchaus Systeme geben, die zusätzliche Hinweise nutzen, um das Verständnis zu unterstützen.“

„Es gibt mehrere Unterschiede zwischen VSR-Implementierungen“, fuhr Campbell-West fort. „Aus technischer Sicht ist die Architektur, wie die Modelle aufgebaut sind, anders … Deep-Learning-Probleme können aus zwei verschiedenen Blickwinkeln angegangen werden. Die erste sucht nach der bestmöglichen Architektur, die zweite nutzt eine große Datenmenge, um so viele Variationen wie möglich abzudecken. Beide Ansätze sind wichtig und können kombiniert werden.“

In den frühen Tagen der VSR-Forschung wurden Datensätze wie AVLetters mussten von Hand beschriftet und kategorisiert werden, eine arbeitsintensive Einschränkung, die die Menge der verfügbaren Daten zum Trainieren von Modellen für maschinelles Lernen stark einschränkte. Daher konzentrierte sich die anfängliche Forschung zunächst auf die absoluten Grundlagen – die Identifizierung auf Alphabet- und Zahlenebene – bevor sie schließlich zur Identifizierung auf Wort- und Satzebene überging, wobei die Satzebene der heutige Stand der Technik ist, der versucht, die menschliche Sprache zu verstehen in natürlicheren Umgebungen und Situationen.

In den letzten Jahren hat der Aufstieg fortschrittlicherer Deep-Learning-Techniken, die Modelle im Wesentlichen im Internet im Allgemeinen trainieren, zusammen mit der massiven Expansion von online veröffentlichten sozialen und visuellen Medien es Forschern ermöglicht, weitaus größere Datensätze zu generieren, wie z Oxford-BBC Lippenlesesätze 2 (LRS2), das auf Tausenden von gesprochenen Zeilen aus verschiedenen BBC-Programmen basiert. LRS3-TED sammelte 150,000 Sätze aus verschiedenen TED-Programmen, während die LSVSR-Datenbank (Large-Scale Visual Speech Recognition) zu den größten derzeit existierenden Angeboten gehört 140,000 Stunden Audiosegmente mit 2,934,899 Sprachaussagen und über 127,000 Wörtern.

Und es ist nicht nur Englisch: Ähnliche Datensätze existieren für eine Reihe von Sprachen wie z HIT-AVDB-II, das auf einer Reihe chinesischer Gedichte basiert, oder IV2, eine französische Datenbank, die aus 300 Personen besteht, die dieselben 15 Sätze sagen. Ähnliche Sets gibt es auch für Anwendungen in russischer, spanischer und tschechischer Sprache.

Looking Ahead

Die Zukunft von VSR könnte der Vergangenheit von ASR sehr ähnlich werden, sagt Campbell-West. Datenschutz ist natürlich ein großes Thema. Obwohl die jüngeren Generationen weniger daran gehindert sind, ihr Leben online zu dokumentieren, sagte Campbell-West: „Die Menschen sind sich der Privatsphäre jetzt zu Recht bewusster als früher. Menschen können ein Mikrofon tolerieren, während sie eine Kamera nicht tolerieren.“

Unabhängig davon bleibt Campbell-West gespannt auf die potenziellen zukünftigen Anwendungen von VSR, wie z. B. automatisierte High-Fidelity-Untertitelung. „Ich stelle mir ein Echtzeit-Untertitelungssystem vor, damit Sie Live-Untertitel in Ihre Brille bekommen können, wenn Sie mit jemandem sprechen“, sagte Campbell-West. „Für alle Schwerhörigen könnte dies eine lebensverändernde Anwendung sein, aber selbst für den allgemeinen Gebrauch in lauten Umgebungen könnte dies nützlich sein.“

„Es gibt Situationen, in denen Geräusche ASR sehr schwierig machen, aber die Sprachsteuerung vorteilhaft ist, wie zum Beispiel in einem Auto“, fuhr er fort. „VSR könnte dazu beitragen, dass diese Systeme besser und sicherer für Fahrer und Passagiere werden.“

Auf der anderen Seite sieht Lee, dessen Labor an der UW intensiv Gehirn-Computer-Schnittstellentechnologien erforscht hat, tragbare Textanzeigen eher als „Notlösung“, bis die BCI-Technologie weiter ausgereift ist. „Wir wollen BCI nicht unbedingt bis zu dem Punkt verkaufen, an dem ‚Okay, wir werden Gehirn-zu-Gehirn-Kommunikation betreiben, ohne auch nur laut zu sprechen'“, sagte Lee. „In etwa einem Jahrzehnt werden Sie mit Sicherheit feststellen, dass biologische Signale in Hörgeräten genutzt werden. So wenig [das Gerät] sieht, wohin Ihre Augen blicken, kann ihm möglicherweise einen Hinweis darauf geben, wo Sie sich auf das Zuhören konzentrieren müssen.“

„Ich zögere, wirklich zu sagen: ‚Oh ja, wir werden gehirngesteuerte Hörgeräte bekommen“, räumte Lee ein. „Ich denke, es ist machbar, aber wissen Sie, es wird Zeit brauchen.“

Alle von Engadget empfohlenen Produkte werden von unserem Redaktionsteam unabhängig von unserer Muttergesellschaft ausgewählt. Einige unserer Geschichten enthalten Affiliate-Links. Wenn Sie etwas über einen dieser Links kaufen, erhalten wir möglicherweise eine Affiliate-Provision. Alle Preise sind zum Zeitpunkt der Veröffentlichung korrekt.

Quelle