AI er allerede bedre til mundaflæsning, som vi er

They Skal ikke blive gammel, en dokumentar fra 2018 om britiske og newzealandske soldaters liv og forhåbninger, der har levet gennem Første Verdenskrig fra anerkendte Lord of the Rings instruktør Peter Jackson, fik moderniseret sine hundrede-plus år gamle tavse optagelser gennem både farvelægning og optagelse af ny lyd til tidligere ikke-eksisterende dialog. For at få en idé om, hvad folkene i arkivoptagelserne sagde, hyrede Jackson et team af retsmedicinske læbelæsere til at gætte deres optagne ytringer. Efter sigende, "læbelæserne var så præcise, at de endda var i stand til at bestemme dialekten og accenten af ​​de mennesker, der talte."

"Disse fyre levede ikke i en sort-hvid, tavs verden, og denne film handler ikke om krigen; det handler om soldatens erfaring med at kæmpe krigen,” fortalte Jackson Daglig Sentinel i 2018. "Jeg ville gerne have, at publikum så tæt på som muligt, hvad soldaterne så, og hvordan de så det og hørte det."

Det er noget af den sproglige bedrift, da en undersøgelse fra 2009 viste, at de fleste mennesker kun kan læse læber med omkring 20 procents nøjagtighed og CDC'erne Høretab hos børn Forældrevejledning vurderer, at "en god talelæser måske kun kan se 4 til 5 ord i en sætning på 12 ord." Tilsvarende en undersøgelse fra 2011 fra University of Oklahoma så kun omkring 10 procent nøjagtighed hos sine testpersoner.

"Enhver person, der opnåede en CUNY læbelæsning score på 30 procent korrekt betragtes som en outlier, hvilket giver dem en T-score på næsten 80 tre gange standardafvigelsen fra gennemsnittet. En læbeaflæsningsgenkendelsesnøjagtighedsscore på 45 procent korrekt placerer en individuel 5 standardafvigelser over gennemsnittet." undersøgelsen fra 2011 afsluttet. "Disse resultater kvantificerer den iboende vanskelighed ved kun visuel sætningsgenkendelse."

For mennesker er læbelæsning meget som at slå i Major Leagues - få det konsekvent rigtigt, selv bare tre gange ud af ti, og du vil være blandt de bedste, der nogensinde har spillet spillet. For moderne maskinlæringssystemer er læbeaflæsning mere som at spille Go - bare runde efter runde med at slå op på kødsækkene, der skabte og slaverede dig - med nutidens avancerede systemer, der præsterer godt over 95 procent ordnøjagtighed på sætningsniveau. Og efterhånden som de fortsætter med at forbedre sig, kunne vi det soon se en dag, hvor opgaver fra lydløs filmbehandling og lydløs diktering i offentligheden til biometrisk identifikation håndteres af AI-systemer.

Kontekst betyder noget

Nu skulle man tro, at mennesker ville være bedre til mundaflæsning nu, da vi officielt har praktiseret teknikken siden den spanske benediktinermunk Pedro Ponce de Leóns dage, som er krediteret med banebrydende ideen i begyndelsen af ​​det 16. århundrede.

det er en statue

Wikipedia / Public Domain

"Vi opfatter normalt tale som det, vi hører, men den hørbare del af tale er kun en del af det," Dr. Fabian Campbell-West, CTO for udvikler af læbelæsningsapps, Liopa, fortalte Engadget via e-mail. ”Som vi opfatter det, kan en persons tale opdeles i visuelle og auditive enheder. De visuelle enheder, kaldet visemer, ses som læbebevægelser. De hørbare enheder, kaldet fonemer, høres som lydbølger."

"Når vi kommunikerer med hinanden ansigt til ansigt, foretrækkes ofte, fordi vi er følsomme over for både visuel og auditiv information," fortsatte han. "Der er dog cirka tre gange så mange fonemer som visemer. Med andre ord indeholder læbebevægelser alene ikke så meget information som den hørbare del af talen."

"De fleste læbeaflæsningsaktiveringer, udover læberne og nogle gange tungen og tænderne, er latente og svære at gøre klart uden kontekst," bemærkede den daværende Oxford University-forsker og LipNet-udvikler, Yannis Assael. i 2016, med henvisning til Fishers tidligere undersøgelser. Disse homofem er hemmeligheden bag Dårlig læbelæsningsucces.

Det vilde er, at Bad Lip Reading generelt fungerer på ethvert talesprog, uanset om det er det tonehøjde-accent gerne engelsk eller tonal ligesom vietnamesisk. "Sprog gør en forskel, især dem med unikke lyde, der ikke er almindelige på andre sprog," sagde Campbell-West. "Hvert sprog har syntaks og udtaleregler, der vil påvirke, hvordan det fortolkes. I store træk er metoderne til at forstå de samme.”

"Tonale sprog er interessante, fordi de bruger det samme ord med forskellige toneændringer (som musikalsk tonehøjde) for at formidle betydning," fortsatte han. "Intuitivt ville dette være en udfordring for læbelæsning, men forskning viser, at det stadig er muligt at fortolke tale på denne måde. En del af årsagen er, at ændring af tone kræver fysiologiske ændringer, der kan manifestere sig visuelt. Læbelæsning foregår også over tid, så konteksten af ​​tidligere visemer, ord og sætninger kan hjælpe med forståelsen.”

"Det betyder noget med hensyn til, hvor godt dit kendskab til sproget er, fordi du dybest set begrænser det sæt af uklarheder, som du kan søge efter," Adrian KC Lee, ScD, Professor og formand for Speech and Hearing Sciences Department, Speech and Hearing Sciences ved University of Washington, fortalte Engadget. "Sig, 'koldt; og 'hold' ikke? Hvis du bare sidder foran et spejl, kan du ikke rigtig kende forskel. Så set fra et fysisk synspunkt er det umuligt, men hvis jeg holder noget i modsætning til at tale om vejret, ved du, af sammenhængen, allerede det.”

Ud over den generelle kontekst af den større konvertering, kommer meget af det, folk formidler, når de taler, non-verbalt frem. "Kommunikation er normalt nemmere, når du både kan se personen og høre dem," sagde Campbell-West, "men den seneste spredning af videoopkald har vist os alle, at det ikke kun handler om at se personen, der er meget mere nuance. Der er meget mere potentiale for at bygge intelligente automatiserede systemer til at forstå menneskelig kommunikation, end hvad der er muligt i øjeblikket."

Savner en Skov til Træerne, Sprogligt

Mens menneskelige og maskinelle læbelæsere har det samme generelle slutmål, er målene for deres individuelle processer meget forskellige. Som et team af forskere fra Iran University of Science and Technology argumenterede i 2021: "I løbet af de seneste år er der blevet foreslået adskillige metoder for en person til at læbeaflæse, men der er en vigtig forskel mellem disse metoder og læbeaflæsningsmetoderne foreslået i AI. Formålet med de foreslåede metoder til læbeaflæsning ved hjælp af maskinen er at konvertere visuel information til ord... Men hovedformålet med læbelæsning af mennesker er at forstå betydningen af ​​tale og ikke at forstå hvert eneste taleord."

Kort sagt, "mennesker er generelt dovne og stoler på kontekst, fordi vi har en masse forudgående viden," forklarede Lee. Og det er denne dissonans i processen - den sproglige ækvivalent af at mangle en skov for træerne - der udgør en så unik udfordring for målet om at automatisere læbeaflæsning.

"En stor hindring i studiet af læbelæsning er manglen på en standard og praktisk database," sagde Hao. "Størrelsen og kvaliteten af ​​databasen bestemmer træningseffekten af ​​denne model, og en perfekt database vil også fremme opdagelsen og løsningen af ​​flere og mere komplekse og vanskelige problemer i læbeaflæsningsopgaver." Andre forhindringer kan omfatte miljøfaktorer som dårlig belysning og shiftbaggrunde, der kan forvirre maskinsynssystemer, ligesom afvigelser på grund af højttalerens hudfarve, rotationsvinklen af ​​deres hoved (som shifts den betragtede vinkel på munden) og den slørende tilstedeværelse af rynker og skæg.

Som Assael bemærker, "Maskinlæbelæsning er vanskelig, fordi det kræver at udtrække spatiotemporale træk fra videoen (da både position og bevægelse er vigtige)." Men som Mingfeng Hao fra Xinjiang University forklarer i 2020'erne En undersøgelse om læbeaflæsningsteknologi, "handlingsgenkendelse, som hører til videoklassificering, kan klassificeres gennem et enkelt billede." Så, "mens læbelæsning ofte er nødt til at udtrække funktionerne relateret til taleindholdet fra et enkelt billede og analysere tidsforholdet mellem hele billedsekvensen for at udlede indholdet." Det er en hindring, der kræver både naturlig sprogbehandling og maskinsyn. at overvinde.

Akronym Suppe

I dag findes talegenkendelse i tre varianter, afhængigt af inputkilden. Det, vi taler om i dag, falder ind under Visual Speech Recognition (VSR) forskning - det vil sige kun at bruge visuelle midler til at forstå, hvad der bliver formidlet. Omvendt er der Automatisk talegenkendelse (ASR), som udelukkende er afhængig af lyd, dvs. "Hey Siri," og Audiovisuel automatisk talegenkendelse (AV-ASR), som inkorporerer både lyd- og visuelle signaler i sine gæt.

"Forskning i automatisk talegenkendelse (ASR) er ekstremt modent, og den nuværende state-of-art er uigenkendelig sammenlignet med, hvad der var muligt, da forskningen startede," sagde Campbell-West. "Visuel talegenkendelse (VSR) er stadig på de relativt tidlige stadier af udnyttelse, og systemerne vil fortsætte med at modnes." Liopa's SRAVI app, som gør hospitalspatienter i stand til at kommunikere, uanset om de aktivt kan verbalisere, bygger på sidstnævnte metode. "Dette kan bruge begge informationsformer til at hjælpe med at overvinde den andens mangler," sagde han. "I fremtiden vil der absolut være systemer, der bruger yderligere signaler til at understøtte forståelse."

"Der er flere forskelle mellem VSR-implementeringer," fortsatte Campbell-West. "Fra et teknisk perspektiv er arkitekturen af, hvordan modellerne er bygget, forskellig ... Dyblæringsproblemer kan angribes fra to forskellige vinkler. Den første leder efter den bedst mulige arkitektur, den anden bruger en stor mængde data for at dække så meget variation som muligt. Begge tilgange er vigtige og kan kombineres.”

I VSR-forskningens tidlige dage kunne datasæt som AV-breve skulle håndmærkes og kategoriseres, en arbejdskrævende begrænsning, der i høj grad begrænsede mængden af ​​tilgængelige data til træning af maskinlæringsmodeller. Som sådan fokuserede den indledende forskning først på det absolutte grundlæggende - alfabet- og talniveau-identifikation - før til sidst gik videre til ord- og sætningsniveau-identifikation, hvor sætningsniveau er nutidens state-of-the-art, som søger at forstå menneskelig tale i mere naturlige omgivelser og situationer.

I de senere år har fremkomsten af ​​mere avancerede deep learning-teknikker, som træner modeller på i det væsentlige internettet som helhed, sammen med den massive udvidelse af sociale og visuelle medier, der er lagt ud på nettet, gjort det muligt for forskere at generere langt større datasæt, som f.eks. Oxford-BBC Læbelæsningssætninger 2 (LRS2), som er baseret på tusindvis af talte linjer fra forskellige BBC-programmer. LRS3-TED hentede 150,000 sætninger fra forskellige TED-programmer, mens LSVSR-databasen (Large-Scale Visual Speech Recognition), blandt de største i øjeblikket, tilbyder 140,000 timers lydsegmenter med 2,934,899 taleudsagn og over 127,000 ord.

Og det er ikke kun engelsk: Lignende datasæt findes for en række sprog som f.eks HIT-AVDB-II, som er baseret på et sæt kinesiske digte, eller IV2, en fransk database bestående af 300 personer, der siger de samme 15 sætninger. Lignende sæt findes også til russisk, spansk og tjekkisk sprog.

Looking Ahead

VSR's fremtid kan ende med at ligne ASR's fortid, siger Campbell-West, "Der er mange barrierer for adoption af VSR, som der var for ASR under dets udvikling gennem de sidste par årtier." Privatliv er selvfølgelig en stor en. Selvom de yngre generationer er mindre hæmmet med at dokumentere deres liv på nettet, sagde Campbell-West, "folk er med rette mere opmærksomme på privatlivets fred nu, end de var før. Folk kan tolerere en mikrofon, mens de ikke tolererer et kamera."

Uanset hvad er Campbell-West fortsat begejstret for VSR's potentielle fremtidige applikationer, såsom high-fidelity automatiseret billedtekst. "Jeg forestiller mig et realtidsundertekstsystem, så du kan få live undertekster i dine briller, når du taler med nogen," sagde Campbell-West. "For alle, der er hørehæmmede, kan dette være en livsændrende applikation, men selv til generel brug i støjende omgivelser kan dette være nyttigt."

"Der er omstændigheder, hvor støj gør ASR meget vanskelig, men stemmestyring er fordelagtig, såsom i en bil," fortsatte han. "VSR kunne hjælpe disse systemer med at blive bedre og sikrere for føreren og passagererne."

På den anden side ser Lee, hvis laboratorium på UW har undersøgt Brain-Computer Interface-teknologier i vid udstrækning, visning af bærbare tekster mere som et "stopgab"-mål, indtil BCI-teknologien modnes yderligere. "Vi ønsker ikke nødvendigvis at sælge BCI til det punkt, hvor "Okay, vi vil kommunikere hjerne-til-hjerne uden overhovedet at tale højt," sagde Lee. "Om et årti eller deromkring vil du helt sikkert opdage biologiske signaler, der bliver udnyttet i høreapparater. Så lidt som at [enheden] ser, hvor dine øjne kigger, kan måske give den et fingerpeg om, hvor den skal fokusere på at lytte."

"Jeg tøver med virkelig at sige 'åh ja, vi får hjernekontrollerede høreapparater," indrømmede Lee. "Jeg tror, ​​det kan lade sig gøre, men du ved, det vil tage tid."

Alle produkter anbefalet af Engadget er udvalgt af vores redaktion, uafhængigt af vores moderselskab. Nogle af vores historier inkluderer affiliate links. Hvis du køber noget via et af disse links, kan vi optjene en affiliate-kommission. Alle priser er korrekte på udgivelsestidspunktet.

Kilde