AI är redan bättre på läppläsning som vi är

Thej ska inte bli gammal, en dokumentär från 2018 om livet och ambitionerna för brittiska och nyazeeländska soldater som levde under första världskriget från hyllade Lord of the Rings regissören Peter Jackson, fick sina hundra-plus år gamla tysta filmer moderniserade genom både färgläggning och inspelning av nytt ljud för tidigare obefintlig dialog. För att få en uppfattning om vad personerna med i arkivfilmerna sa, anlitade Jackson ett team av rättsmedicinska läppläsare för att gissa deras inspelade yttranden. Enligt uppgift, "läppläsarna var så precisa att de till och med kunde bestämma dialekten och accenten hos de som talade."

"De här killarna levde inte i en svart och vit, tyst värld, och den här filmen handlar inte om kriget; det handlar om soldatens erfarenhet av att utkämpa kriget”, berättade Jackson Daglig vaktpost 2018. "Jag ville att publiken skulle se, så nära som möjligt, vad soldaterna såg, och hur de såg det och hörde det."

Det är en ganska språklig bedrift med tanke på att en studie från 2009 fann att de flesta människor bara kan läsa läppar med cirka 20 procents noggrannhet och CDC: er Hörselnedsättning hos barn Föräldraguide uppskattar att "en bra talläsare kanske bara kan se 4 till 5 ord i en mening på 12 ord." Liknande, en studie från 2011 från University of Oklahoma såg bara runt 10 procents noggrannhet hos sina testpersoner.

"Varje individ som uppnått en CUNY läppläsande poäng av 30 procent korrekt anses vara en extremvärde, vilket ger dem ett T-poäng på nästan 80 tre gånger standardavvikelsen från medelvärdet. En läppavläsningsigenkänningspoäng på 45 procent korrekt placerar en individuell 5 standardavvikelser över medelvärdet. 2011 års studie avslutades. "Dessa resultat kvantifierar den inneboende svårigheten med endast visuell meningsigenkänning."

För människor är läppläsning mycket som att slå i Major Leagues - gör det konsekvent rätt även bara tre gånger av tio och du kommer att vara bland de bästa som någonsin spelat spelet. För moderna maskininlärningssystem är läppläsning mer som att spela Go - bara varv efter omgång av att slå på köttsäckarna som skapade och förslavade dig - med dagens toppmoderna system som presterar bra över 95 procent ordnoggrannhet på meningsnivå. Och när de fortsätter att förbättras kan vi det soon se en dag där uppgifter från stumfilmsbehandling och tyst diktering offentligt till biometrisk identifiering hanteras av AI-system.

Kontext spelar roll

Nu skulle man kunna tro att människor skulle vara bättre på läppläsning vid det här laget med tanke på att vi officiellt har övat tekniken sedan den spanska benediktinermunken Pedro Ponce de Leóns dagar, som krediteras med banbrytande idén i början av 16-talet.

det är en staty

Wikipedia / Public Domain

"Vi brukar tänka på tal som det vi hör, men den hörbara delen av talet är bara en del av det," Dr Fabian Campbell-West, CTO för utvecklare av läppläsningsappar, Lopa, berättade för Engadget via e-post. ”Som vi uppfattar det kan en persons tal delas in i visuella och auditiva enheter. De visuella enheterna, som kallas visemer, ses som läpprörelser. De hörbara enheterna, som kallas fonem, hörs som ljudvågor.”

"När vi kommunicerar med varandra ansikte mot ansikte är ofta att föredra eftersom vi är känsliga för både visuell och auditiv information," fortsatte han. "Men det finns ungefär tre gånger så många fonem som visemer. Med andra ord innehåller läpprörelser ensamma inte lika mycket information som den hörbara delen av talet."

"De flesta läppavläsningsaktiveringar, förutom läpparna och ibland tungan och tänderna, är latenta och svåra att disambiguera utan sammanhang", konstaterade dåvarande Oxford University-forskaren och LipNet-utvecklaren, Yannis Assael. i 2016, med hänvisning till Fishers tidigare studier. Dessa homofem är hemligheten till Dålig läppläsningframgång.

Det som är vild är att Bad Lip Reading i allmänhet fungerar på vilket talat språk som helst, oavsett om det är det tonhöjd-accent som engelska eller tonal som vietnamesiska. "Språk gör skillnad, särskilt de med unika ljud som inte är vanliga på andra språk," sa Campbell-West. "Varje språk har syntax- och uttalsregler som kommer att påverka hur det tolkas. I stort sett är metoderna för att förstå desamma.”

"Tonala språk är intressanta eftersom de använder samma ord med olika ton (som musikalisk tonhöjd) förändringar för att förmedla betydelse," fortsatte han. "Intuitivt skulle detta innebära en utmaning för läppläsning, men forskning visar att det fortfarande är möjligt att tolka tal på det här sättet. En del av anledningen är att förändring av ton kräver fysiologiska förändringar som kan manifestera sig visuellt. Läppläsning görs också över tid, så sammanhanget med tidigare visemes, ord och fraser kan hjälpa till att förstå.”

"Det spelar roll när det gäller hur bra dina kunskaper i språket är eftersom du i grunden begränsar uppsättningen av oklarheter som du kan söka efter," Adrian KC Lee, ScD, Professor och ordförande för Speech and Hearing Science Department, Speech and Hearing Sciences vid University of Washington, berättade för Engadget. "Säg, 'kallt; och 'håll', eller hur? Om du bara sitter framför en spegel kan du inte se skillnad. Så ur en fysisk synvinkel är det omöjligt, men om jag håller i något kontra att prata om vädret, så vet du, utifrån sammanhanget, redan.”

Förutom det allmänna sammanhanget för den större omvandlingen, kommer mycket av det som människor förmedlar när de talar fram icke-verbalt. "Kommunikation är vanligtvis lättare när du kan se personen och höra dem," sa Campbell-West, "men den senaste tidens spridning av videosamtal har visat oss alla att det inte bara handlar om att se personen där det finns mycket mer nyans. Det finns mycket mer potential för att bygga intelligenta automatiserade system för att förstå mänsklig kommunikation än vad som för närvarande är möjligt.”

Saknar en skog för träden, språkligt

Medan mänskliga och maskinella läppläsare har samma allmänna slutmål, skiljer sig syftena med deras individuella processer mycket. Som ett team av forskare från Irans universitet för vetenskap och teknik argumenterade 2021, "Under de senaste åren har flera metoder föreslagits för en person att läppavläsa, men det finns en viktig skillnad mellan dessa metoder och läppavläsningsmetoderna som föreslagits i AI. Syftet med de föreslagna metoderna för läppavläsning med maskinen är att omvandla visuell information till ord... Men huvudsyftet med läppläsning av människor är att förstå betydelsen av tal och inte att förstå varje enskilt talord."

Kort sagt, "människor är i allmänhet lata och litar på sammanhang eftersom vi har mycket förkunskaper," förklarade Lee. Och det är den dissonansen i processen - den språkliga motsvarigheten till att sakna en skog för träden - som utgör en så unik utmaning för målet att automatisera läppläsning.

"Ett stort hinder i studiet av läppavläsning är avsaknaden av en standard och praktisk databas", sa Hao. "Storleken och kvaliteten på databasen avgör träningseffekten av denna modell, och en perfekt databas kommer också att främja upptäckten och lösningen av fler och mer komplexa och svåra problem i läppavläsningsuppgifter." Andra hinder kan inkludera miljöfaktorer som dålig belysning och shiftbakgrunder som kan förvirra maskinseendesystem, liksom avvikelser på grund av talarens hudton, rotationsvinkeln på huvudet (som shifts den betraktade vinkeln på munnen) och den mörka närvaron av rynkor och skägg.

Som Assael noterar, "Maskinläppenläsning är svårt eftersom det kräver att man extraherar spatiotemporala egenskaper från videon (eftersom både position och rörelse är viktiga)." Men som Mingfeng Hao från Xinjiang University förklarade under 2020-talet En undersökning om läppavläsningsteknik, "handlingsigenkänning, som hör till videoklassificering, kan klassificeras genom en enda bild." Så, "medan läppläsning ofta behöver extrahera funktionerna relaterade till talinnehållet från en enda bild och analysera tidsförhållandet mellan hela bildsekvensen för att sluta sig till innehållet." Det är ett hinder som kräver både naturlig språkbehandling och maskinseende. att komma över.

Akronym Soppa

Idag finns taligenkänning i tre varianter, beroende på ingångskällan. Det vi pratar om idag faller under Visual Speech Recognition (VSR) forskning - det vill säga att endast använda visuella medel för att förstå vad som förmedlas. Omvänt finns det Automatiskt taligenkänning (ASR) som helt förlitar sig på ljud, dvs. "Hey Siri," och Audiovisuell automatisk taligenkänning (AV-ASR), som inkluderar både ljud och visuella signaler i sina gissningar.

"Forskning av automatisk taligenkänning (ASR) är extremt mogen och den nuvarande toppmoderna är oigenkännlig jämfört med vad som var möjligt när forskningen startade," sa Campbell-West. "Visuell taligenkänning (VSR) är fortfarande i de relativt tidiga stadierna av exploatering och systemen kommer att fortsätta att mogna." Liopas SRAVI app, som gör det möjligt för sjukhuspatienter att kommunicera oavsett om de aktivt kan verbalisera, förlitar sig på den senare metoden. "Detta kan använda båda typerna av information för att hjälpa till att övervinna bristerna hos den andra," sade han. "I framtiden kommer det absolut att finnas system som använder ytterligare ledtrådar för att stödja förståelsen."

"Det finns flera skillnader mellan VSR-implementeringar," fortsatte Campbell-West. ”Ur ett tekniskt perspektiv är arkitekturen för hur modellerna byggs olika... Deep-learning problem kan närma sig från två olika vinklar. Den första letar efter bästa möjliga arkitektur, den andra använder en stor mängd data för att täcka så mycket variation som möjligt. Båda metoderna är viktiga och kan kombineras.”

I början av VSR-forskningen, datauppsättningar som AV-brev måste handmärkas och kategoriseras, en arbetskrävande begränsning som kraftigt begränsade mängden tillgänglig data för att träna maskininlärningsmodeller. Som sådan fokuserade den initiala forskningen först på de absoluta grunderna – identifiering på alfabet och nummernivå – innan den så småningom gick vidare till identifiering på ord- och frasnivå, där meningsnivå är dagens toppmoderna som försöker förstå mänskligt tal i mer naturliga miljöer och situationer.

Under de senaste åren har uppkomsten av mer avancerade tekniker för djupinlärning, som tränar modeller på i huvudsak internet i stort, tillsammans med den massiva expansionen av sociala och visuella medier som publiceras online, gjort det möjligt för forskare att generera mycket större datauppsättningar, som Oxford-BBC läppläsningssatser 2 (LRS2), som bygger på tusentals talade rader från olika BBC-program. LRS3-TED hämtade 150,000 XNUMX meningar från olika TED-program medan databasen LSVSR (Large-Scale Visual Speech Recognition), en av de största som för närvarande finns, erbjuder 140,000 XNUMX timmar ljudsegment med 2,934,899 127,000 XNUMX taluttalanden och över XNUMX XNUMX ord.

Och det är inte bara engelska: Liknande dataset finns för ett antal språk som t.ex HIT-AVDB-II, som är baserad på en uppsättning kinesiska dikter, eller IV2, en fransk databas bestående av 300 personer som säger samma 15 fraser. Liknande uppsättningar finns också för ryska, spanska och tjeckiska applikationer.

Ser framåt

VSR:s framtid kan sluta likna ASR:s förflutna, säger Campbell-West, "Det finns många hinder för adoption av VSR, som det fanns för ASR under dess utveckling under de senaste decennierna." Integritet är en stor, naturligtvis. Även om de yngre generationerna är mindre hämmade med att dokumentera sina liv på nätet, sa Campbell-West, "folk är med rätta mer medvetna om integritet nu än de var tidigare. Människor kan tolerera en mikrofon medan de inte tolererar en kamera."

Oavsett, Campbell-West är fortfarande exalterad över VSR:s potentiella framtida applikationer, såsom högfientlig automatisk bildtextning. "Jag tänker mig ett undertextningssystem i realtid så att du kan få live undertexter i dina glasögon när du pratar med någon," sa Campbell-West. "För alla som är hörselskadade kan detta vara en livsförändrande applikation, men även för allmän användning i bullriga miljöer kan detta vara användbart."

"Det finns omständigheter där buller gör ASR mycket svårt men röststyrning är fördelaktigt, som i en bil," fortsatte han. "VSR kan hjälpa dessa system att bli bättre och säkrare för föraren och passagerarna."

Å andra sidan, Lee, vars labb vid UW har undersökt hjärnan-datorgränssnittsteknologier mycket, ser bärbar textvisning mer som ett "stopp"-mått tills BCI-tekniken mognar ytterligare. "Vi vill inte nödvändigtvis sälja BCI till den punkten där "Okej, vi ska kommunicera hjärna till hjärna utan att ens prata högt", sa Lee. "Om ett decennium eller så kommer du säkert att se biologiska signaler som utnyttjas i hörapparater. Så lite som att [enheten] ser var dina ögon tittar kanske kan ge den en ledtråd om var den ska fokusera lyssnandet."

"Jag tvekar att verkligen säga 'oh yeah, vi kommer att få hjärnkontrollerade hörapparater", medgav Lee. "Jag tror att det är genomförbart, men du vet, det kommer att ta tid."

Alla produkter som rekommenderas av Engadget väljs ut av vår redaktion, oberoende av vårt moderbolag. Några av våra berättelser innehåller affiliate-länkar. Om du köper något via någon av dessa länkar kan vi tjäna en affiliate-kommission. Alla priser är korrekta vid publiceringstillfället.

Källa