AI is al beter in liplezen dan wij

They zal niet oud worden, een documentaire uit 2018 over het leven en de ambities van Britse en Nieuw-Zeelandse soldaten die de Eerste Wereldoorlog doormaken uit de veelgeprezen Lord of the Rings regisseur Peter Jackson, liet zijn meer dan honderd jaar oude stille beelden moderniseren door zowel inkleuring als het opnemen van nieuwe audio voor voorheen niet-bestaande dialogen. Om een ​​idee te krijgen van wat de mensen op de archiefbeelden zeiden, huurde Jackson een team van forensische liplezers in om hun opgenomen uitingen te raden. Naar verluidt, "de liplezers waren zo nauwkeurig dat ze zelfs het dialect en het accent van de mensen die spraken konden bepalen."

“Deze kerels leefden niet in een zwart-wit, stille wereld, en deze film gaat niet over de oorlog; het gaat over de ervaring van de soldaat in de oorlog,' vertelde Jackson aan de... Dagelijkse Sentinel in 2018. "Ik wilde dat het publiek zo goed mogelijk zou zien wat de soldaten zagen, en hoe ze het zagen en hoorden."

Dat is nogal een taalkundige prestatie, aangezien een onderzoek uit 2009 heeft uitgewezen dat de meeste mensen alleen lippen kunnen lezen met een nauwkeurigheid van ongeveer 20 procent en de CDC's Gehoorverlies bij kinderen Handleiding voor ouders schat dat "een goede spraaklezer slechts 4 tot 5 woorden in een zin van 12 woorden kan zien." evenzo, een studie uit 2011 van de Universiteit van Oklahoma zag slechts ongeveer 10 procent nauwkeurigheid in zijn proefpersonen.

“Iedereen die een CUNY lipleesscore van 30 procent correct wordt als een uitbijter beschouwd, waardoor ze een T-score van bijna 80 krijgen, drie keer de standaarddeviatie van het gemiddelde. Een herkenningsnauwkeurigheidsscore van liplezen van 45 procent correct plaatst een individu 5 standaarddeviaties boven het gemiddelde, " de studie van 2011 concludeerde. "Deze resultaten kwantificeren de inherente moeilijkheid van alleen visuele zinherkenning."

Voor mensen lijkt liplezen veel op batten in de Major Leagues - doe het consequent goed, zelfs maar drie van de tien keer en je zult een van de besten zijn die het spel ooit heeft gespeeld. Voor moderne machine learning-systemen is liplezen meer als het spelen van Go - ronde na ronde van het verslaan van de vleeszakken die je hebben gecreëerd en tot slaaf hebben gemaakt - met de moderne state-of-the-art systemen die het goed doen meer dan 95 procent woordnauwkeurigheid op zinsniveau. En naarmate ze blijven verbeteren, kunnen we soon zie een dag waarop taken van stille filmverwerking en stil dicteren in het openbaar tot biometrische identificatie worden afgehandeld door AI-systemen.

Context is belangrijk

Nu zou je denken dat mensen inmiddels beter zouden zijn in liplezen, aangezien we de techniek officieel beoefenen sinds de tijd van de Spaanse benedictijner monnik Pedro Ponce de León, aan wie wordt toegeschreven pionier van het idee in het begin van de 16e eeuw.

het is een standbeeld

Wikipedia / Publiek domein

"We beschouwen spraak meestal als wat we horen, maar het hoorbare deel van spraak is er slechts een deel van", zegt Dr. Fabian Campbell-West, CTO van app-ontwikkelaar liplezen, Liopa, vertelde Engadget via e-mail. “Zoals we het waarnemen, kan de spraak van een persoon worden onderverdeeld in visuele en auditieve eenheden. De visuele eenheden, visemes genaamd, worden gezien als lipbewegingen. De hoorbare eenheden, fonemen genaamd, worden gehoord als geluidsgolven.”

"Als we face-to-face met elkaar communiceren, heeft dat vaak de voorkeur omdat we gevoelig zijn voor zowel visuele als auditieve informatie," vervolgde hij. “Er zijn echter ongeveer drie keer zoveel fonemen als visemen. Met andere woorden, lipbewegingen alleen bevatten niet zoveel informatie als het hoorbare deel van de spraak.”

"De meeste liplezen, behalve de lippen en soms tong en tanden, zijn latent en moeilijk te ondubbelzinnig te maken zonder context", merkte de toenmalige onderzoeker van de Universiteit van Oxford en ontwikkelaar van LipNet, Yannis Assael op. in 2016, daarbij verwijzend naar eerdere studies van Fisher. Deze homofemen zijn het geheim van Slecht liplezensucces.

Het gekke is dat Bad Lip Reading over het algemeen in elke gesproken taal werkt, of het nu is toonhoogte-accent zoals Engels of toon- zoals Vietnamees. "Taal maakt een verschil, vooral die met unieke geluiden die niet gebruikelijk zijn in andere talen," zei Campbell-West. "Elke taal heeft syntaxis- en uitspraakregels die van invloed zijn op hoe deze wordt geïnterpreteerd. In grote lijnen zijn de methoden om te begrijpen hetzelfde.”

"Tonale talen zijn interessant omdat ze hetzelfde woord gebruiken met verschillende toonveranderingen (zoals toonhoogte) om betekenis over te brengen," vervolgde hij. “Intuïtief zou dit een uitdaging zijn voor liplezen, maar onderzoek toont aan dat het nog steeds mogelijk is om spraak op deze manier te interpreteren. Een deel van de reden is dat het veranderen van toon fysiologische veranderingen vereist die zich visueel kunnen manifesteren. Liplezen wordt ook in de loop van de tijd gedaan, dus de context van eerdere visemes, woorden en zinnen kan helpen bij het begrijpen.”

"Het maakt uit hoe goed je kennis van de taal is, omdat je in feite de reeks ambiguïteiten beperkt waarnaar je kunt zoeken", Adrian KC Lee, ScD, Professor en voorzitter van de afdeling Spraak- en gehoorwetenschappen, Spraak- en gehoorwetenschappen aan de Universiteit van Washington, vertelde Engadget. “Zeg, 'koud; en 'vasthouden' toch? Als je gewoon voor een spiegel zit, kun je het verschil niet echt zien. Dus vanuit fysiek oogpunt is het onmogelijk, maar als ik iets vasthoud versus praten over het weer, weet je, door de context, al.

Naast de algemene context van de grotere bekering, komt veel van wat mensen overbrengen als ze spreken non-verbaal over. "Communicatie is meestal gemakkelijker als je de persoon zowel kunt zien als horen," zei Campbell-West, "maar de recente toename van videogesprekken heeft ons laten zien dat het niet alleen gaat om het zien van de persoon, er is veel meer nuance. Er is veel meer potentieel voor het bouwen van intelligente geautomatiseerde systemen voor het begrijpen van menselijke communicatie dan wat momenteel mogelijk is.”

Door de bomen het bos missen, taalkundig

Hoewel menselijke en machinale liplezers hetzelfde algemene einddoel hebben, verschillen de doelen van hun individuele processen sterk. Als een team van onderzoekers van Iran University of Science and Technology betoogde in 2021: “De afgelopen jaren zijn er verschillende methoden voorgesteld om een ​​persoon te laten liplezen, maar er is een belangrijk verschil tussen deze methoden en de lipleesmethoden die in AI worden voorgesteld. Het doel van de voorgestelde methoden voor liplezen door de machine is om visuele informatie om te zetten in woorden... Het belangrijkste doel van liplezen door mensen is echter om de betekenis van spraak te begrijpen en niet om elk woord van spraak te begrijpen.”

Kortom, "mensen zijn over het algemeen lui en vertrouwen op de context omdat we veel voorkennis hebben", legt Lee uit. En het is die dissonantie in het proces - het taalkundige equivalent van het door de bomen missen van een bos - die zo'n unieke uitdaging vormt voor het doel om liplezen te automatiseren.

"Een groot obstakel in de studie van liplezen is het ontbreken van een standaard en praktische database", zegt Hao. "De grootte en kwaliteit van de database bepalen het trainingseffect van dit model, en een perfecte database zal ook de ontdekking en oplossing van steeds complexere en moeilijkere problemen bij liplezen bevorderen." Andere obstakels kunnen omgevingsfactoren zijn zoals slechte verlichting en shiftachtergronden die machine vision-systemen in de war kunnen brengen, evenals variaties als gevolg van de huidskleur van de spreker, de rotatiehoek van hun hoofd (die shifts de gezichtshoek van de mond) en de verduisterende aanwezigheid van rimpels en baarden.

Zoals Assael opmerkt: "Machine liplezen is moeilijk omdat het tijdsruimtelijke kenmerken uit de video moet halen (aangezien zowel positie als beweging belangrijk zijn)." Echter, zoals Mingfeng Hao van Xinjiang University uitlegt in 2020 Een onderzoek naar technologie voor liplezen, "actieherkenning, die tot videoclassificatie behoort, kan worden geclassificeerd via een enkele afbeelding." Dus "terwijl liplezen vaak de kenmerken met betrekking tot de spraakinhoud uit een enkele afbeelding moet halen en de tijdsrelatie tussen de hele reeks afbeeldingen moet analyseren om de inhoud af te leiden." Het is een obstakel dat zowel natuurlijke taalverwerking als machinevisie-mogelijkheden vereist te overwinnen.

Acroniem Soep

Tegenwoordig is spraakherkenning verkrijgbaar in drie smaken, afhankelijk van de invoerbron. Waar we het vandaag over hebben, valt onder onderzoek naar visuele spraakherkenning (VSR) - dat wil zeggen, alleen visuele middelen gebruiken om te begrijpen wat er wordt overgebracht. Omgekeerd is er Geautomatiseerde spraakherkenning (ASR) die volledig afhankelijk is van audio, dat wil zeggen "Hey Siri", en Audiovisuele geautomatiseerde spraakherkenning (AV-ASR), die zowel audio als visuele aanwijzingen in zijn gissingen opneemt.

"Onderzoek naar automatische spraakherkenning (ASR) is extreem volwassen en de huidige stand van zaken is onherkenbaar in vergelijking met wat mogelijk was toen het onderzoek begon," zei Campbell-West. "Visuele spraakherkenning (VSR) bevindt zich nog in de relatief vroege stadia van exploitatie en systemen zullen blijven rijpen." Liopa's SRAVI-app, waarmee ziekenhuispatiënten kunnen communiceren, ongeacht of ze actief kunnen verbaliseren, vertrouwt op de laatste methode. "Dit kan beide vormen van informatie gebruiken om de tekortkomingen van de ander te overwinnen", zei hij. "In de toekomst zullen er absoluut systemen zijn die extra aanwijzingen gebruiken om het begrip te ondersteunen."

"Er zijn verschillende verschillen tussen VSR-implementaties", vervolgt Campbell-West. “Vanuit technisch oogpunt is de architectuur van hoe de modellen worden gebouwd anders... Diepgaande leerproblemen kunnen vanuit twee verschillende invalshoeken worden benaderd. De eerste is op zoek naar de best mogelijke architectuur, de tweede is het gebruik van een grote hoeveelheid data om zoveel mogelijk variatie te dekken. Beide benaderingen zijn belangrijk en kunnen worden gecombineerd.”

In de begindagen van VSR-onderzoek waren datasets zoals: AV-letters moest met de hand worden geëtiketteerd en gecategoriseerd, een arbeidsintensieve beperking die de hoeveelheid beschikbare gegevens voor het trainen van machine learning-modellen ernstig beperkte. Als zodanig was het eerste onderzoek eerst gericht op de absolute basis - identificatie op alfabet en nummerniveau - voordat uiteindelijk werd overgegaan tot identificatie op woord- en zinsniveau, waarbij zinsniveau de huidige stand van de techniek is die menselijke spraak probeert te begrijpen in meer natuurlijke omgevingen en situaties.

In de afgelopen jaren hebben de opkomst van meer geavanceerde deep learning-technieken, die modellen op in wezen het internet in het algemeen trainen, samen met de enorme uitbreiding van sociale en visuele media die online zijn geplaatst, onderzoekers in staat gesteld veel grotere datasets te genereren, zoals de Oxford-BBC Liplezen Zinnen 2 (LRS2), dat is gebaseerd op duizenden gesproken regels van verschillende BBC-programma's. LRS3-TED verzamelde 150,000 zinnen uit verschillende TED-programma's, terwijl de LSVSR-database (Large-Scale Visual Speech Recognition), een van de grootste die momenteel bestaat, 140,000 uur aan audiosegmenten met 2,934,899 spraakuitspraken en meer dan 127,000 woorden.

En het is niet alleen Engels: er zijn vergelijkbare datasets voor een aantal talen, zoals: HIT-AVDB-II, die is gebaseerd op een reeks Chinese gedichten, of IV2, een Franse database die bestaat uit 300 mensen die dezelfde 15 zinnen uitspreken. Soortgelijke sets bestaan ​​ook voor toepassingen in het Russisch, Spaans en Tsjechisch.

Vooruitkijkend

De toekomst van VSR zou kunnen gaan lijken op het verleden van ASR, zegt Campbell-West, "Er zijn veel barrières voor de adoptie van VSR, net als voor ASR tijdens de ontwikkeling ervan in de afgelopen decennia." Privacy is natuurlijk een grote. Hoewel de jongere generaties minder geremd zijn in het online documenteren van hun leven, zei Campbell-West: “Mensen zijn zich nu terecht meer bewust van privacy dan voorheen. Mensen kunnen een microfoon tolereren terwijl ze een camera niet tolereren.”

Hoe dan ook, Campbell-West blijft enthousiast over de mogelijke toekomstige toepassingen van VSR, zoals high-fidelity geautomatiseerde ondertiteling. "Ik voorzie een realtime ondertitelingssysteem, zodat je live ondertitels in je bril kunt krijgen als je met iemand praat", zei Campbell-West. "Voor slechthorenden kan dit een levensveranderende toepassing zijn, maar zelfs voor algemeen gebruik in lawaaierige omgevingen kan dit nuttig zijn."

"Er zijn omstandigheden waarin geluid ASR erg moeilijk maakt, maar stembesturing is voordelig, zoals in een auto", vervolgde hij. “VSR zou kunnen helpen deze systemen beter en veiliger te maken voor de bestuurder en passagiers.”

Aan de andere kant ziet Lee, wiens laboratorium bij UW uitgebreid onderzoek heeft gedaan naar Brain-Computer Interface-technologieën, draagbare tekstdisplays meer als een "noodoplossing" totdat BCI-technologie verder rijpt. "We willen BCI niet per se zo verkopen dat 'Oké, we gaan hersen-tot-hersencommunicatie doen zonder zelfs maar hardop te praten'", zei Lee. "Over een decennium of zo zul je zeker merken dat biologische signalen worden gebruikt in hoortoestellen. Zo weinig als [het apparaat] ziet waar je ogen kijken, kan het misschien een idee geven waar je je op moet concentreren bij het luisteren."

"Ik aarzel om echt te zeggen 'oh ja, we krijgen hersengestuurde hoortoestellen', gaf Lee toe. "Ik denk dat het te doen is, maar weet je, het zal tijd kosten."

Alle door Engadget aanbevolen producten zijn geselecteerd door onze redactie, onafhankelijk van ons moederbedrijf. Sommige van onze verhalen bevatten gelieerde links. Als u iets koopt via een van deze links, kunnen we een aangesloten commissie verdienen. Alle prijzen zijn correct op het moment van publicatie.

bron