Tekoäly on jo parempi huulilta lukemisessa kuin me

Thei Ei tule vanhaksi, 2018 dokumenttielokuva brittiläisten ja uusiseelantilaisten sotilaiden elämästä ja pyrkimyksistä, jotka elivät ensimmäisen maailmansodan aikana ylistetyistä Lord of the Rings ohjaaja Peter Jackson, modernisoi yli sata vuotta vanhaa äänetöntä materiaaliaan sekä värityksellä että tallentamalla uutta ääntä aiemmin olematonta dialogia varten. Saadakseen käsityksen siitä, mitä arkistomateriaalissa esiintyneet ihmiset sanoivat, Jackson palkkasi joukon rikosteknisiä huultenlukijoita arvaamaan heidän tallennettuja lausuntojaan. kuulemma, "huultenlukijat olivat niin tarkkoja, että he pystyivät jopa määrittämään puhuvien ihmisten murteen ja aksentin."

”Nämä jätkät eivät eläneet mustavalkoisessa, hiljaisessa maailmassa, eikä tämä elokuva ole sodasta; kyse on sotilaan kokemuksesta sodan taistelussa”, Jackson kertoi Päivittäinen Sentinel "Halusin yleisön näkevän mahdollisimman läheltä, mitä sotilaat näkivät ja miten he sen näkivät ja kuulivat."

Se on melkoinen kielellinen saavutus, kun otetaan huomioon, että vuoden 2009 tutkimuksessa havaittiin, että useimmat ihmiset voivat lukea vain huulilta noin 20 prosentin tarkkuudella ja CDC:t Lasten kuulovammaisten vanhempien opas arvioi, että "hyvä puheenlukija voi nähdä vain 4-5 sanaa 12 sanan lauseessa". Samoin, vuoden 2011 tutkimus Oklahoman yliopistosta näki vain noin 10 prosentin tarkkuuden koehenkilöissään.

"Jokainen henkilö, joka on saavuttanut a CUNY huultenlukupisteet 30 prosentin oikeaa pidetään poikkeavana arvona, mikä antaa heille T-pisteen, joka on lähes 80 kolminkertainen keskihajonta verrattuna. 45 prosentin oikea huulten lukemisen tarkkuus asettaa yksittäisen 5 keskihajonnan keskiarvon yläpuolelle. vuoden 2011 tutkimus päättyi. "Nämä tulokset osoittavat vain visuaalisen lauseen tunnistamisen luontaisen vaikeuden."

Ihmisille huulilta lukeminen on paljon kuin lyöntiä Major League -sarjoissa – saat sen jatkuvasti oikein, jopa vain kolme kertaa kymmenestä, ja olet kaikkien aikojen parhaiden pelaajien joukossa. Nykyaikaisissa koneoppimisjärjestelmissä huulilta lukeminen on enemmän kuin Go-pelaamista – vain kierroksen toisensa jälkeen lyömällä sinua louhineiden ja orjuuttaneiden pussien kimppuun – nykypäivän huipputekniset järjestelmät menestyvät hyvin. yli 95 prosentin lausetason sanatarkkuus. Ja kun he parantavat jatkuvasti, voimme soon Näe päivä, jolloin tekoälyjärjestelmät hoitavat tehtäviä mykkäelokuvan käsittelystä ja äänettömästä sanelusta julkisesti biometriseen tunnistamiseen.

Konteksti ratkaisee

Nyt voisi luulla, että ihmiset osaisivat lukea huulilta paremmin, koska olemme virallisesti harjoittaneet tätä tekniikkaa espanjalaisen benediktiinimunkin Pedro Ponce de Leónin ajoista lähtien. edelläkävijänä 16-luvun alussa.

se on patsas

Wikipedia / Public Domain

"Ajattelemme puhetta yleensä kuulemamme puheena, mutta puheen kuuluva osa on vain osa sitä", tohtori Fabian Campbell-West, huultenlukusovelluskehittäjän teknologiajohtaja, Liopa, kertoi Engadgetille sähköpostitse. ”Ymmärryksessämme ihmisen puhe voidaan jakaa visuaalisiin ja auditiivisiin yksiköihin. Visuaaliset yksiköt, joita kutsutaan visemeiksi, nähdään huulten liikkeinä. Kuultavat yksiköt, joita kutsutaan foneemiksi, kuullaan ääniaaltoina."

"Kun kommunikoimme toistensa kanssa kasvokkain, on usein parempi, koska olemme herkkiä sekä visuaaliselle että kuulolle tiedolle", hän jatkoi. "Foneemeja on kuitenkin noin kolme kertaa enemmän kuin viseemiä. Toisin sanoen huulten liikkeet eivät yksin sisällä niin paljon tietoa kuin puheen kuultava osa."

"Useimmat huultenlukutoiminnot huulten ja joskus kielen ja hampaiden lisäksi ovat piileviä ja niitä on vaikea erottaa ilman kontekstia", totesi silloinen Oxfordin yliopiston tutkija ja LipNetin kehittäjä Yannis Assael. vuonna 2016, lainaten Fisherin aikaisempia tutkimuksia. Nämä homofeemeja ovat salaisuus Huono huulten lukeminenmenestys.

Villi on se, että Bad Lip Reading toimii yleensä millä tahansa puhutulla kielellä, olipa se sitten kyseessä sävelkorostus kuten englanti tai tonaalinen kuten vietnamilaiset. "Kielellä on merkitystä, varsinkin sellaisilla, joilla on ainutlaatuiset äänet, jotka eivät ole yleisiä muilla kielillä", Campbell-West sanoi. "Jokaisella kielellä on syntaksi- ja ääntämissäännöt, jotka vaikuttavat sen tulkintaan. Yleisesti ottaen ymmärtämismenetelmät ovat samat."

"Tonaaliset kielet ovat mielenkiintoisia, koska ne käyttävät samaa sanaa eri sävymuutoksilla (kuten musiikin korkeudella) merkityksen välittämiseksi", hän jatkoi. ”Intuitiivisesti tämä olisi haaste huulilta lukemiselle, mutta tutkimukset osoittavat, että puhetta on edelleen mahdollista tulkita tällä tavalla. Osa syynä on se, että sävyn muuttuminen vaatii fysiologisia muutoksia, jotka voivat ilmetä visuaalisesti. Huulten lukeminen tapahtuu myös ajan myötä, joten aikaisempien viseemien, sanojen ja lauseiden konteksti voi auttaa ymmärtämisessä."

"Sillä on merkitystä, kuinka hyvä kielitaitosi on, koska periaatteessa rajoitat etsimiesi epäselvyyksien joukkoa", Adrian KC Lee, ScD Professori ja puhe- ja kuulotieteiden osaston puheenjohtaja, puhe- ja kuulotieteet Washingtonin yliopistossa, kertoi Engadget. "Sano: 'kylmä; ja "pidä", eikö? Jos istut vain peilin edessä, et todellakaan huomaa eroa. Joten fyysisestä näkökulmasta katsottuna se on mahdotonta, mutta jos pidän jotain käsistäni puhumisen sijaan säästä, tiedät jo kontekstin perusteella.

Suuremman kääntymyksen yleisen kontekstin lisäksi suuri osa siitä, mitä ihmiset puhuessaan välittävät, tulee esiin ei-verbaalisesti. "Viestintä on yleensä helpompaa, kun voit nähdä henkilön sekä kuulla hänet", Campbell-West sanoi, "mutta viimeaikainen videopuheluiden lisääntyminen on osoittanut meille kaikille, että kyse ei ole vain henkilön näkemisestä siellä on paljon enemmän vivahteita. Älykkäiden automatisoitujen järjestelmien rakentamiseen ihmisten viestinnän ymmärtämiseksi on paljon enemmän mahdollisuuksia kuin tällä hetkellä on mahdollista."

Puuttuu metsä puille, kielellisesti

Vaikka ihmisen ja koneen huultenlukijalla on sama yleinen päämäärä, niiden yksittäisten prosessien tavoitteet vaihtelevat suuresti. Tutkijaryhmänä Iranin tiede- ja teknologiayliopisto väitti vuonna 2021: "Viime vuosien aikana ihmisille on ehdotettu useita menetelmiä huulilta lukemiseen, mutta näiden menetelmien ja tekoälyssä ehdotettujen huulten lukumenetelmien välillä on tärkeä ero. Ehdotettujen koneen huulilta lukemisen menetelmien tarkoituksena on muuntaa visuaalinen tieto sanoiksi... Ihmisten huulilta lukemisen päätarkoitus on kuitenkin ymmärtää puheen merkitys, ei jokaista puheen sanaa."

Lyhyesti sanottuna "ihmiset ovat yleensä laiskoja ja luottavat kontekstiin, koska meillä on paljon aiempaa tietoa", Lee selitti. Ja juuri tuo prosessissa oleva dissonanssi – kielellinen vastine metsän puuttumiselle puille – on ainutlaatuinen haaste huulilta lukemisen automatisoinnin tavoitteelle.

"Suuri este huulilta lukemisen tutkimuksessa on standardin ja käytännöllisen tietokannan puute", sanoi Hao. "Tietokannan koko ja laatu määräävät tämän mallin koulutusvaikutuksen, ja täydellinen tietokanta edistää myös yhä monimutkaisempien ja vaikeampien ongelmien löytämistä ja ratkaisemista huultenlukutehtävissä." Muita esteitä voivat olla ympäristötekijät, kuten huono valaistus ja shifttaustat, jotka voivat sekoittaa konenäköjärjestelmiä, samoin kuin puhujan ihonväristä johtuvat vaihtelut, pään kiertokulma (joka shifts suun katselukulma) sekä ryppyjen ja parran hämärtymistä.

Kuten Assael huomauttaa, "koneellinen huulten lukeminen on vaikeaa, koska se vaatii spatiotemporaalisten piirteiden erottamista videosta (koska sekä sijainti että liike ovat tärkeitä)." Kuitenkin, kuten Mingfeng Hao Xinjiangin yliopistosta selittää 2020-luvulla Tutkimus huultenlukuteknologiasta, "videon luokitukseen kuuluva toiminnan tunnistus voidaan luokitella yhden kuvan kautta." Niinpä "huulilukemisen täytyy usein poimia puhesisältöön liittyvät ominaisuudet yhdestä kuvasta ja analysoida koko kuvasarjan välistä aikasuhdetta sisällön päättelemiseksi." Se on este, joka vaatii sekä luonnollisen kielen käsittelyä että konenäkökykyä. voittaa.

Lyhenne Soup

Nykyään puheentunnistusta on saatavilla kolmella eri tavalla syöttölähteestä riippuen. Se, mistä tänään puhumme, kuuluu Visual Speech Recognition (VSR) -tutkimukseen – eli käytetään vain visuaalisia keinoja ymmärtääkseen, mitä välitetään. Päinvastoin, siellä on Automaattinen puheentunnistus (ASR), joka perustuu täysin ääneen, eli "Hei Siri" ja Audiovisuaalinen automaattinen puheentunnistus (AV-ASR), joka sisällyttää arvauksiinsa sekä ääni- että visuaalisia vihjeitä.

"Automaattisen puheentunnistuksen (ASR) tutkimus on äärimmäisen kypsää, ja nykyistä tekniikkaa ei voida tunnistaa verrattuna siihen, mikä oli mahdollista tutkimuksen alkaessa", Campbell-West sanoi. "Visuaalinen puheentunnistus (VSR) on vielä suhteellisen varhaisessa hyödyntämisvaiheessa ja järjestelmät kypsyvät edelleen." Liopan SRAVI-sovellus, jonka avulla sairaalapotilaat voivat kommunikoida riippumatta siitä, voivatko he aktiivisesti puhua, perustuu jälkimmäiseen menetelmään. "Tämä voi käyttää molempia tietomuotoja auttaakseen voittamaan toisen puutteet", hän sanoi. "Tulevaisuudessa tulee ehdottomasti olemaan järjestelmiä, jotka käyttävät lisävihjeitä ymmärtämisen tukemiseen."

"VSR-toteutuksissa on useita eroja", Campbell-West jatkoi. ”Teknisesti tarkasteltuna mallien arkkitehtuuri on erilainen… Syväoppimisongelmia voidaan lähestyä kahdesta eri näkökulmasta. Ensimmäinen etsii parasta mahdollista arkkitehtuuria, toinen käyttää suurta datamäärää kattaakseen mahdollisimman paljon vaihtelua. Molemmat lähestymistavat ovat tärkeitä ja niitä voidaan yhdistää."

VSR-tutkimuksen alkuaikoina tietojoukot, kuten AVL-kirjaimet piti merkitä käsin ja luokitella, työvaltainen rajoitus, joka rajoitti voimakkaasti koneoppimismallien koulutukseen käytettävissä olevan datan määrää. Sellaisenaan alkuperäinen tutkimus keskittyi ensin ehdottomiin perusasioihin – aakkos- ja numerotason tunnistamiseen – ennen kuin eteni lopulta sana- ja lausetason tunnistamiseen, jolloin lausetaso on nykypäivän huipputekniikka, joka pyrkii ymmärtämään ihmisen puhetta. luonnollisemmissa olosuhteissa ja tilanteissa.

Viime vuosina kehittyneempien syväoppimistekniikoiden nousu, jotka harjoittavat malleja pääasiassa Internetissä yleisesti, sekä verkkoon lähetettävän sosiaalisen ja visuaalisen median valtava laajeneminen ovat auttaneet tutkijoita luomaan paljon suurempia tietojoukkoja, kuten Oxford-BBC huulten lukulauseet 2 (LRS2), joka perustuu tuhansiin puhuttuihin linjoihin eri BBC-ohjelmista. LRS3-TED poimi 150,000 XNUMX lausetta eri TED-ohjelmista, kun taas LSVSR (Large-Scale Visual Speech Recognition) -tietokanta, yksi suurimmista tällä hetkellä olemassa olevista, tarjoaa 140,000 XNUMX tuntia äänisegmenttejä 2,934,899 127,000 XNUMX puhelauseella ja yli XNUMX XNUMX sanalla.

Eikä se ole vain englanti: Samanlaisia ​​tietojoukkoja on olemassa useille kielille, kuten HIT-AVDB-II, joka perustuu kiinalaisten runojen joukkoon, tai IV2, ranskalainen tietokanta, joka koostuu 300 ihmisestä, jotka sanovat samat 15 lausetta. Samanlaisia ​​sarjoja on olemassa myös venäjän, espanjan ja tšekinkielisille sovelluksille.

Katse tulevaisuuteen

VSR:n tulevaisuus saattaa päätyä näyttämään paljon ASR:n menneisyydestä, Campbell-West sanoo. "VSR:n omaksumiselle on monia esteitä, kuten ASR:llä oli sen kehityksen aikana viime vuosikymmeninä." Yksityisyys on tietysti iso asia. Vaikka nuoremmat sukupolvet eivät ole niin estyneet dokumentoimaan elämäänsä verkossa, Campbell-West sanoi: "Ihmiset ovat oikeutetusti tietoisempia yksityisyydestä nyt kuin ennen. Ihmiset saattavat sietää mikrofonia, mutta eivät siedä kameraa."

Siitä huolimatta Campbell-West on edelleen innoissaan VSR:n mahdollisista tulevaisuuden sovelluksista, kuten korkean tarkkuuden automaattisesta tekstityksestä. "Katsoin reaaliaikaista tekstitysjärjestelmää, jotta saat suorat tekstitykset silmälaseihisi, kun puhut jollekulle", Campbell-West sanoi. "Kaikille huonokuuloisille tämä voi olla elämää muuttava sovellus, mutta jopa yleisessä käytössä meluisissa ympäristöissä siitä voi olla hyötyä."

"On tilanteita, joissa melu tekee ASR:stä erittäin vaikeaa, mutta ääniohjaus on edullinen, kuten autossa", hän jatkoi. "VSR voisi auttaa näistä järjestelmistä muuttumaan paremmiksi ja turvallisemmiksi kuljettajalle ja matkustajille."

Toisaalta Lee, jonka UW:n laboratorio on tutkinut Brain-Computer Interface -teknologiaa laajasti, näkee puettavat tekstinäytöt enemmän "pysäytysvälinä", kunnes BCI-tekniikka kehittyy edelleen. "Emme välttämättä halua myydä BCI:tä siihen pisteeseen, että" Okei, teemme aivoista aivoihin -viestintää edes puhumatta ääneen', Lee sanoi. ”Noin vuosikymmenen kuluttua kuulet varmasti biologisia signaaleja hyödyntävän kuulolaitteita. Niin vähän kuin [laitteen] näkeminen, mihin silmäsi katsovat, voi antaa sille vihjeen siitä, mihin kuuntelu keskittyy."

"Epäröin todella sanoa" joo, saamme aivoohjattuja kuulolaitteita", Lee myönsi. "Luulen, että se on toteutettavissa, mutta tiedäthän, se vie aikaa."

Toimitustiimimme valitsee kaikki Engadgetin suosittelemat tuotteet emoyhtiöstämme riippumatta. Jotkut tarinoistamme sisältävät affiliate-linkkejä. Jos ostat jotain näiden linkkien kautta, voimme ansaita kumppanipalkkion. Kaikki hinnat ovat oikein julkaisuhetkellä.

lähde