AI je že boljši pri branju z ustnic kot mi

Thej, ne bo ostarel, dokumentarni film iz leta 2018 o življenjih in težnjah britanskih in novozelandskih vojakov, ki so preživeli prvo svetovno vojno priznanega Lord of the Rings režiserja Petra Jacksona je svoje več kot sto let stare neme posnetke posodobil tako z barvanjem kot s snemanjem novega zvoka za prej neobstoječa dialoga. Da bi dobil predstavo o tem, kaj govorijo ljudje na arhivskem posnetku, je Jackson najel ekipo forenzičnih bralcev z ustnic, da bi ugibali njihove posnete izjave. Po poročanju, »bralci z ustnic so bili tako natančni, da so lahko celo določili narečje in naglas ljudi, ki so govorili.«

»Ti tipi niso živeli v črno-belem, tihem svetu in ta film ne govori o vojni; gre za vojakovo izkušnjo v vojni,« je Jackson povedal za Dnevni Sentinel leta 2018. »Želel sem, da občinstvo čim bolj natančno vidi, kaj so vojaki videli, kako so to videli in slišali.«

To je pravi jezikovni podvig, glede na to, da je študija iz leta 2009 pokazala, da večina ljudi zna brati samo z ustnic s približno 20-odstotno natančnostjo in CDC Izguba sluha pri otrocih Priročnik za starše ocenjuje, da »dober bralec govora lahko vidi samo 4 do 5 besed v stavku z 12 besedami«. Podobno, študija Univerze v Oklahomi iz leta 2011 pri svojih testirancih opazil le okoli 10-odstotno natančnost.

»Vsak posameznik, ki je dosegel a CUNY rezultat branja z ustnic 30-odstotni pravilni se šteje za izstopajočo vrednost, kar jim daje T-rezultat skoraj 80, trikratni standardni odklon od povprečja. Rezultat natančnosti prepoznavanja branja z ustnic, ki je 45 odstotkov pravilen, postavlja posameznika 5 standardnih odstopanj nad povprečje,« je zaključila študija iz leta 2011. "Ti rezultati kvantificirajo inherentne težave pri samo vizualnem prepoznavanju stavkov."

Za ljudi je branje z ustnic podobno udarjanju v višjih ligah – dosledno pravilno naredite, tudi samo trikrat od desetih, in boste med najboljšimi, ki so kdaj igrali igro. Za sodobne sisteme strojnega učenja je branje z ustnic bolj podobno igranju igre Go – samo krog za krogom premlevanja mesnih vreč, ki so vas ustvarile in zasužnjile – z današnjimi najsodobnejšimi sistemi, ki dosegajo dobre rezultate. več kot 95-odstotna točnost besed na ravni stavka. In ker se še naprej izboljšujejo, bi lahko tudi mi soon doživite dan, ko naloge od obdelave nemih filmov in tihega narekovanja v javnosti do biometrične identifikacije opravljajo sistemi umetne inteligence.

Kontekst je pomemben

Človek bi si mislil, da bi bili ljudje že boljši pri branju z ustnic, glede na to, da to tehniko uradno izvajamo že od časov španskega benediktinskega meniha Pedra Ponceja de Leóna, ki mu pripisujejo pionir zamisel v začetku 16. stoletja.

to je kip

Wikipedia / javna last

»Običajno mislimo na govor kot na tisto, kar slišimo, vendar je slišni del govora le del tega,« dr. Fabian Campbell-West, tehnični direktor razvijalca aplikacije za branje z ustnic, Liopa, je povedal Engadget po e-pošti. »Človekov govor lahko, kot ga dojemamo, razdelimo na vidne in slušne enote. Vizualne enote, imenovane viseme, so vidne kot gibi ustnic. Slišne enote, imenovane fonemi, slišimo kot zvočne valove.«

»Ko med seboj komuniciramo iz oči v oči, je pogosto bolj zaželeno, ker smo občutljivi tako na vizualne kot slušne informacije,« je nadaljeval. »Vendar je fonemov približno trikrat toliko kot visemov. Z drugimi besedami, samo gibanje ustnic ne vsebuje toliko informacij kot slišni del govora.«

"Večina aktiviranj branja iz ustnic, poleg ustnic in včasih jezika in zob, je latentnih in jih je težko razločiti brez konteksta," je ugotovil Yannis Assael, takratni raziskovalec z Oxfordske univerze in razvijalec LipNet. v 2016, ki navaja Fisherjeve prejšnje študije. te homofemi so skrivnost za Slabo branje z ustnicuspeh.

Nenavadno je, da bo slabo branje z ustnic na splošno delovalo v katerem koli govorjenem jeziku, pa naj bo ta višinski naglas kot angleščina oz tonalne kot vietnamski. "Jezik je pomemben, zlasti tisti z edinstvenimi zvoki, ki niso pogosti v drugih jezikih," je dejal Campbell-West. »Vsak jezik ima sintakso in pravila izgovorjave, ki bodo vplivala na njegovo razlago. Na splošno so metode za razumevanje enake.«

»Tonski jeziki so zanimivi, ker uporabljajo isto besedo z različnimi spremembami tona (na primer glasbene višine) za prenos pomena,« je nadaljeval. »Intuitivno bi to predstavljalo izziv za branje z ustnic, vendar raziskave kažejo, da je govor še vedno mogoče interpretirati na ta način. Del razloga je, da spreminjanje tona zahteva fiziološke spremembe, ki se lahko manifestirajo vizualno. Branje z ustnic se izvaja tudi sčasoma, zato lahko kontekst prejšnjih visemov, besed in fraz pomaga pri razumevanju.«

»Pomembno je, kako dobro je vaše znanje jezika, ker v bistvu omejujete nabor dvoumnosti, ki jih lahko iščete,« Adrian KC Lee, ScD, Profesor in predsednik oddelka za govorne in slušne vede, govorne in slušne vede na Univerzi v Washingtonu, je povedal za Engadget. »Reci, 'mraz; in "drži", kajne? Če samo sediš pred ogledalom, ne moreš opaziti razlike. Torej s fizičnega vidika je to nemogoče, toda če nekaj držim in ne govorim o vremenu, ti glede na kontekst že veš.«

Poleg splošnega konteksta večjega spreobrnjenja se veliko tega, kar ljudje sporočajo, ko govorijo, pojavi neverbalno. »Komunikacija je običajno lažja, ko lahko osebo vidite in tudi slišite,« je dejal Campbell-West, »vendar nam je nedavno širjenje video klicev vsem pokazalo, da ne gre samo za to, da osebo vidite, ampak je veliko več odtenkov. Obstaja veliko več možnosti za izgradnjo inteligentnih avtomatiziranih sistemov za razumevanje človeške komunikacije, kot je trenutno mogoče.«

Pogrešanje gozda za drevesa, jezikovno

Medtem ko imajo človeški in strojni bralniki z ustnic enak splošni končni cilj, se cilji njihovih posameznih procesov zelo razlikujejo. Kot ekipa raziskovalcev iz Iran Univerza za znanost in tehnologijo je leta 2021 trdil: »V preteklih letih je bilo predlaganih več metod za branje z ustnic, vendar obstaja pomembna razlika med temi metodami in metodami branja z ustnic, predlaganimi v AI. Namen predlaganih metod za branje z ustnic s strani stroja je pretvorba vizualnih informacij v besede ... Vendar pa je glavni namen branja z ustnic pri ljudeh razumeti pomen govora in ne razumeti vsake posamezne besede govora.«

Skratka, "ljudje smo na splošno leni in se zanašamo na kontekst, ker imamo veliko predznanja," je pojasnil Lee. In prav ta disonanca v procesu – jezikovni ekvivalent manjkajočega gozda namesto dreves – predstavlja tako edinstven izziv za cilj avtomatizacije branja z ustnic.

"Velika ovira pri preučevanju branja iz ust je pomanjkanje standardne in praktične baze podatkov," je dejal Hao. "Velikost in kakovost baze podatkov določata učinek usposabljanja tega modela, popolna baza podatkov pa bo tudi spodbujala odkrivanje in reševanje vse bolj zapletenih in težkih problemov pri nalogah branja ustnic." Druge ovire lahko vključujejo okoljske dejavnike, kot je slaba osvetlitev in shiftnih ozadij, ki lahko zmedejo sisteme strojnega vida, kot lahko odstopanja zaradi tona kože govorca, kota vrtenja njegove glave (ki shifts gledani kot ust) in zakrita prisotnost gub in brad.

Kot ugotavlja Assael, je "strojno branje iz ust težko, ker zahteva ekstrahiranje prostorsko-časovnih značilnosti iz videa (ker sta pomembna tako položaj kot gibanje)." Vendar, kot pojasnjuje Mingfeng Hao z univerze Xinjiang leta 2020 Anketa o tehnologiji branja z ustnic, »prepoznavanje dejanj, ki sodi v video klasifikacijo, je mogoče razvrstiti prek ene same slike.« Torej, »medtem ko mora branje iz ustnic pogosto izluščiti funkcije, povezane z govorno vsebino, iz ene same slike in analizirati časovno razmerje med celotnim zaporedjem slik, da bi lahko sklepali o vsebini.« To je ovira, ki zahteva tako obdelavo naravnega jezika kot zmožnosti strojnega vida. premagati.

Kratica Juha

Danes je prepoznavanje govora na voljo v treh različicah, odvisno od vhodnega vira. To, o čemer govorimo danes, spada pod raziskavo vizualnega prepoznavanja govora (VSR) — to je uporaba samo vizualnih sredstev za razumevanje tega, kar se prenaša. Nasprotno, obstaja Samodejno prepoznavanje govora (ASR), ki se v celoti opira na zvok, npr. »Hey Siri,« in Avdiovizualno avtomatizirano prepoznavanje govora (AV-ASR), ki v svoja ugibanja vključuje zvočne in vizualne znake.

"Raziskave avtomatskega prepoznavanja govora (ASR) so izjemno zrele in trenutno stanje tehnike je neprepoznavno v primerjavi s tistim, kar je bilo mogoče ob začetku raziskave," je dejal Campbell-West. "Vizualno prepoznavanje govora (VSR) je še vedno v relativno zgodnjih fazah izkoriščanja in sistemi bodo še naprej zoreli." Liopina Aplikacija SRAVI, ki bolnišničnim bolnikom omogoča komunikacijo ne glede na to, ali znajo aktivno verbalizirati, sloni na slednji metodologiji. "To lahko uporabi oba načina informacij za pomoč pri premagovanju pomanjkljivosti drugega," je dejal. "V prihodnosti bodo absolutno obstajali sistemi, ki bodo uporabljali dodatne znake za podporo razumevanju."

"Med implementacijami VSR je več razlik," je nadaljeval Campbell-West. »S tehničnega vidika je arhitektura, kako so zgrajeni modeli, drugačna ... Problemov poglobljenega učenja je mogoče obravnavati z dveh različnih zornih kotov. Prvi išče najboljšo možno arhitekturo, drugi uporablja veliko količino podatkov, da pokrije čim več variacij. Oba pristopa sta pomembna in ju je mogoče kombinirati.«

V zgodnjih dneh raziskav VSR so nabori podatkov, kot so AVLetters jih je bilo treba ročno označiti in kategorizirati, kar je bila delovno intenzivna omejitev, ki je močno omejila količino podatkov, ki so na voljo za usposabljanje modelov strojnega učenja. Kot taka se je začetna raziskava najprej osredotočila na absolutne osnove – identifikacijo na ravni abecede in številk – preden je sčasoma napredovala na identifikacijo na ravni besede in besedne zveze, pri čemer je raven stavka današnje stanje tehnike, ki si prizadeva razumeti človeški govor v bolj naravnih okoljih in situacijah.

V zadnjih letih je vzpon naprednejših tehnik globokega učenja, ki usposabljajo modele v bistvu na internetu na splošno, skupaj z veliko širitvijo družbenih in vizualnih medijev, objavljenih na spletu, raziskovalcem omogočil ustvarjanje veliko večjih naborov podatkov, kot je Oxford-BBC Branje stavkov z ustnic 2 (LRS2), ki temelji na tisočih izgovorjenih vrsticah iz različnih programov BBC. LRS3-TED je zbral 150,000 stavkov iz različnih programov TED, medtem ko baza podatkov LSVSR (Large-Scale Visual Speech Recognition) med največjimi trenutno obstoječimi ponudbami 140,000 ur zvočnih segmentov z 2,934,899 govornimi izjavami in več kot 127,000 besedami.

In ne gre samo za angleščino: podobni nabori podatkov obstajajo za številne jezike, kot je npr HIT-AVDB-II, ki temelji na nizu kitajskih pesmi ali IV2, francoski zbirki podatkov, sestavljeni iz 300 ljudi, ki izgovarjajo istih 15 fraz. Podobni kompleti obstajajo tudi za aplikacije v ruskem, španskem in češkem jeziku.

Looking Ahead

Prihodnost VSR bi lahko bila zelo podobna preteklosti ASR, pravi Campbell-West, "Obstaja veliko ovir za sprejetje VSR, kot je bilo za ASR med njegovim razvojem v zadnjih nekaj desetletjih." Zasebnost je seveda velika stvar. Čeprav so mlajše generacije manj ovirane pri dokumentiranju svojih življenj na spletu, je dejal Campbell-West, »se ljudje zdaj upravičeno bolj zavedajo zasebnosti kot prej. Ljudje morda tolerirajo mikrofon, medtem ko ne tolerirajo kamere.«

Ne glede na to je Campbell-West še vedno navdušen nad možnimi prihodnjimi aplikacijami VSR, kot je avtomatsko ustvarjanje podnapisov visoke ločljivosti. "Predvidevam sistem podnaslavljanja v realnem času, tako da lahko v svojih očalih dobite podnapise v živo, ko se z nekom pogovarjate," je dejal Campbell-West. "Za vsakogar, ki je naglušen, bi to lahko bila aplikacija, ki bi mu spremenila življenje, vendar bi lahko bila koristna tudi za splošno uporabo v hrupnem okolju."

"V nekaterih okoliščinah hrup zelo oteži ASR, vendar je glasovno upravljanje prednostno, na primer v avtomobilu," je nadaljeval. "VSR bi lahko pomagal, da bi ti sistemi postali boljši in varnejši za voznika in potnike."

Po drugi strani pa Lee, čigar laboratorij na UW je obsežno raziskoval tehnologije vmesnika možganov in računalnika, vidi nosljive zaslone z besedilom bolj kot "vmesni" ukrep, dokler tehnologija BCI ne dozori. »BCI ne želimo nujno prodajati do te točke, ko: 'V redu, izvedli bomo komunikacijo med možgani, ne da bi sploh govorili na glas,'« je dejal Lee. »Čez kakšno desetletje boste zagotovo našli biološke signale, ki se uporabljajo v slušnih aparatih. Če [naprava] vidi, kam gledajo vaše oči, ji lahko da namig o tem, kam naj osredotoči poslušanje.«

»Oklevam, da bi res rekel 'o ja, dobili bomo slušne aparate, ki jih nadzorujejo možgani,' je priznal Lee. "Mislim, da je izvedljivo, a veš, da bo trajalo nekaj časa."

Vse izdelke, ki jih priporoča Engadget, izbere naša uredniška ekipa, neodvisna od naše matične družbe. Nekatere naše zgodbe vključujejo pridružene povezave. Če nekaj kupite prek ene od teh povezav, lahko zaslužimo partnersko provizijo. Vse cene veljajo v času objave.

vir