Mas magaling na si AI sa lip reading na tayo

They Shall Not Grow Old, isang dokumentaryo noong 2018 tungkol sa buhay at adhikain ng mga sundalong British at New Zealand na nabubuhay sa World War I mula sa kinikilalang Panginoon ng Ring ang direktor na si Peter Jackson, ay na-moderno ang daang-plus-year-old na silent footage sa pamamagitan ng colorization at pagre-record ng bagong audio para sa dating hindi umiiral na dialog. Upang makakuha ng ideya kung ano ang sinasabi ng mga tao sa archival footage, kumuha si Jackson ng isang pangkat ng mga forensic lip reader para hulaan ang kanilang mga naitala na mga pagbigkas. Iniulat, "napakatumpak ng mga lip reader na natukoy pa nga nila ang diyalekto at impit ng mga taong nagsasalita."

"Ang mga bloke na ito ay hindi nabuhay sa isang itim at puti, tahimik na mundo, at ang pelikulang ito ay hindi tungkol sa digmaan; ito ay tungkol sa karanasan ng sundalo sa pakikipaglaban sa digmaan,” Jackson told the Pang-araw-araw na Sentinel noong 2018. “Nais kong makita ng madla, hangga't maaari, kung ano ang nakita ng mga sundalo, at kung paano nila ito nakita, at narinig.”

Iyon ay lubos na linguistic feat na ibinigay na ang isang 2009 pag-aaral ay natagpuan na karamihan sa mga tao ay maaari lamang basahin ang mga labi na may humigit-kumulang 20 porsiyentong katumpakan at ang CDC's Nawalan ng Pandinig sa Mga Bata Gabay ng Magulang tinatantya na, "ang isang mahusay na mambabasa ng pagsasalita ay maaaring makakita lamang ng 4 hanggang 5 salita sa isang 12-salitang pangungusap." Katulad nito, isang pag-aaral noong 2011 mula sa Unibersidad ng Oklahoma nakakita lamang ng humigit-kumulang 10 porsiyentong katumpakan sa mga paksang pagsubok nito.

“Ang sinumang indibidwal na nakamit a CUNY lip-reading score ng 30 porsiyentong tama ay itinuturing na isang outlier, na nagbibigay sa kanila ng T-score na halos 80 tatlong beses ang karaniwang paglihis mula sa mean. Ang isang lip-reading recognition accuracy score na 45 porsiyentong tama ay naglalagay sa isang indibidwal na 5 standard deviations sa itaas ng mean," natapos ang pag-aaral noong 2011. "Ang mga resultang ito ay binibilang ang likas na kahirapan sa visual-only sentence recognition."

Para sa mga tao, ang pagbabasa ng labi ay katulad ng paghampas sa Major Leagues — palagiang ginagawa itong tama kahit tatlong beses lang sa sampu at ikaw ay magiging isa sa mga pinakamahusay na maglaro sa laro. Para sa mga modernong machine learning system, ang pagbabasa ng labi ay mas katulad ng paglalaro ng Go — paikot-ikot lang ng pagbugbog sa mga meatsack na lumikha at umalipin sa iyo — kasama ang mga makabagong sistema ngayon na mahusay na nakakamit higit sa 95 porsiyentong katumpakan ng salita sa antas ng pangungusap. At habang patuloy silang umuunlad, kaya namin soon tingnan ang isang araw kung saan ang mga gawain mula sa silent-movie processing at silent dictation sa publiko hanggang sa biometric identification ay pinangangasiwaan ng AI system.

Mahalaga ang Konteksto

Ngayon, iisipin ng isang tao na ang mga tao ay magiging mas mahusay sa pagbabasa ng labi sa ngayon dahil opisyal na naming sinasanay ang pamamaraan mula pa noong panahon ng Spanish Benedictine monghe, si Pedro Ponce de León, na kinikilala sa pangunguna sa ideya noong unang bahagi ng ika-16 na siglo.

ito ay isang rebulto

Wikipedia / Pampublikong Domain

"Karaniwan naming iniisip ang pagsasalita bilang kung ano ang naririnig namin, ngunit ang naririnig na bahagi ng pananalita ay bahagi lamang nito," Dr. Fabian Campbell-West, CTO ng lip reading app developer, Liopa, sinabi sa Engadget sa pamamagitan ng email. "Sa pag-unawa natin, ang pagsasalita ng isang tao ay maaaring hatiin sa mga visual at auditory unit. Ang mga visual unit, na tinatawag na visemes, ay nakikita bilang paggalaw ng labi. Ang naririnig na mga yunit, na tinatawag na mga ponema, ay naririnig bilang mga sound wave.”

"Kapag nakikipag-usap kami sa isa't isa nang harapan ay madalas na mas gusto dahil kami ay sensitibo sa parehong visual at auditory na impormasyon," patuloy niya. "Gayunpaman, may humigit-kumulang tatlong beses na mas maraming ponema kaysa sa mga visemes. Sa madaling salita, ang paggalaw ng labi lamang ay hindi naglalaman ng maraming impormasyon gaya ng naririnig na bahagi ng pananalita."

"Karamihan sa mga lipreading actuations, bukod sa mga labi at kung minsan ay dila at ngipin, ay nakatago at mahirap i-disambiguate nang walang konteksto," sabi ng researcher at LipNet developer noon ng Oxford University na si Yannis Assael. sa 2016, binanggit ang mga naunang pag-aaral ni Fisher. Ang mga ito homophemes ay ang sikreto sa Bad Lip Readingtagumpay.

Ang nakakainis ay ang Bad Lip Reading ay karaniwang gagana sa anumang sinasalitang wika, maging ito man pitch-accent parang English o ng tinig parang Vietnamese. "Nakagagawa ng pagkakaiba ang wika, lalo na ang mga may natatanging tunog na hindi karaniwan sa ibang mga wika," sabi ni Campbell-West. "Ang bawat wika ay may mga tuntunin sa syntax at pagbigkas na makakaapekto sa kung paano ito binibigyang kahulugan. Sa pangkalahatan, ang mga pamamaraan para sa pag-unawa ay pareho."

"Ang mga wikang tonal ay kawili-wili dahil ginagamit nila ang parehong salita na may iba't ibang tono (tulad ng musical pitch) na mga pagbabago upang ihatid ang kahulugan," patuloy niya. "Intuitively ito ay magpapakita ng isang hamon para sa pagbabasa ng labi, gayunpaman ang pananaliksik ay nagpapakita na posible pa ring bigyang-kahulugan ang pananalita sa ganitong paraan. Bahagi ng dahilan ay ang pagbabago ng tono ay nangangailangan ng mga pagbabago sa pisyolohikal na maaaring makita sa paningin. Ang pagbabasa ng labi ay ginagawa din sa paglipas ng panahon, kaya ang konteksto ng mga nakaraang bisyo, salita at parirala ay makakatulong sa pag-unawa."

"Mahalaga ito kung gaano kahusay ang iyong kaalaman sa wika dahil nililimitahan mo ang hanay ng mga kalabuan na maaari mong hanapin," Adrian KC Lee, ScD, Propesor at Tagapangulo ng Speech and Hearing Sciences Department, Speech and Hearing Sciences sa University of Washington, sinabi kay Engadget. “Sabihin, 'malamig; at 'hawakan,' tama ba? Kung uupo ka lang sa harap ng salamin, hindi mo talaga masasabi ang pagkakaiba. So from a physical point of view, it is impossible, but if I'm holding something versus talking about the weather, you, by the context, alam mo na.”

Bilang karagdagan sa pangkalahatang konteksto ng mas malaking conversion, karamihan sa ipinahihiwatig ng mga tao kapag nagsasalita sila ay hindi pasalita. “Karaniwang mas madali ang komunikasyon kapag nakikita mo ang tao pati na rin ang naririnig mo,” sabi ni Campbell-West, “ngunit ang kamakailang paglaganap ng mga video call ay nagpakita sa amin ng lahat na hindi lamang ito tungkol sa pagtingin sa taong mayroong higit na kakaiba. Mayroong mas maraming potensyal para sa pagbuo ng mga intelligent na automated system para sa pag-unawa sa komunikasyon ng tao kaysa sa kasalukuyang posible."

Nawawala ang isang Kagubatan para sa mga Puno, ayon sa wika

Habang ang mga human at machine lip reader ay may parehong pangkalahatang layunin, ang mga layunin ng kanilang mga indibidwal na proseso ay malaki ang pagkakaiba. Bilang pangkat ng mga mananaliksik mula sa Unibersidad ng Agham at Teknolohiya ng Iran Nagtalo noong 2021, "Sa nakalipas na mga taon, ilang mga pamamaraan ang iminungkahi para sa isang tao na magbasa ng labi, ngunit mayroong isang mahalagang pagkakaiba sa pagitan ng mga pamamaraang ito at ang mga pamamaraan ng pagbabasa ng labi na iminungkahi sa AI. Ang layunin ng mga iminungkahing pamamaraan para sa lip-reading ng makina ay upang i-convert ang visual na impormasyon sa mga salita... Gayunpaman, ang pangunahing layunin ng lip-reading ng mga tao ay upang maunawaan ang kahulugan ng pananalita at hindi upang maunawaan ang bawat solong salita ng pananalita."

Sa madaling sabi, "ang mga tao ay karaniwang tamad at umaasa sa konteksto dahil marami tayong naunang kaalaman," paliwanag ni Lee. At ang dissonance na iyon sa proseso — ang katumbas sa wika ng nawawalang kagubatan para sa mga puno — na nagpapakita ng kakaibang hamon sa layunin ng pag-automate ng pagbabasa ng labi.

"Ang isang malaking balakid sa pag-aaral ng lipreading ay ang kakulangan ng isang pamantayan at praktikal na database," sabi ni Hao. "Ang laki at kalidad ng database ay tumutukoy sa epekto ng pagsasanay ng modelong ito, at ang perpektong database ay magsusulong din ng pagtuklas at solusyon ng mas kumplikado at mahihirap na problema sa mga gawain sa lipreading." Maaaring kabilang sa iba pang mga hadlang ang mga salik sa kapaligiran tulad ng mahinang pag-iilaw at shiftmga background na maaaring malito ang mga system ng machine vision, pati na rin ang mga pagkakaiba-iba dahil sa kulay ng balat ng nagsasalita, ang rotational angle ng kanilang ulo (na shifts ang tinitingnang anggulo ng bibig) at ang nakakubli na presensya ng mga wrinkles at balbas.

Gaya ng sinabi ni Assael, "Mahirap ang machine lipreading dahil nangangailangan ito ng pag-extract ng mga spatiotemporal na feature mula sa video (dahil ang parehong posisyon at paggalaw ay mahalaga)." Gayunpaman, tulad ng ipinaliwanag ni Mingfeng Hao ng Xinjiang University noong 2020's Isang Survey sa Lip Reading Technology, "Ang pagkilala sa aksyon, na kabilang sa pag-uuri ng video, ay maaaring uriin sa pamamagitan ng isang larawan." Kaya, "habang ang lipreading ay madalas na kailangang kunin ang mga tampok na nauugnay sa nilalaman ng pagsasalita mula sa isang larawan at pag-aralan ang ugnayan ng oras sa pagitan ng buong pagkakasunud-sunod ng mga larawan upang mahinuha ang nilalaman." Ito ay isang balakid na nangangailangan ng parehong natural na pagproseso ng wika at mga kakayahan ng machine vision upang pagtagumpayan.

Acronym na Sopas

Ngayon, ang speech recognition ay may tatlong flavor, depende sa input source. Ang pinag-uusapan natin ngayon ay nasa ilalim ng pananaliksik sa Visual Speech Recognition (VSR) — ibig sabihin, ang paggamit lamang ng mga visual na paraan upang maunawaan kung ano ang ipinaparating. Sa kabaligtaran, mayroon Awtomatikong Pagkilala sa Pagsasalita (ASR) na ganap na umaasa sa audio, ibig sabihin, "Hey Siri," at Audio-Visual Automated Speech Recognition (AV-ASR), na nagsasama ng parehong audio at visual na mga pahiwatig sa mga hula nito.

"Ang pananaliksik sa awtomatikong pagkilala sa pagsasalita (ASR) ay lubos na mature at ang kasalukuyang state-of-the-art ay hindi nakikilala kumpara sa kung ano ang posible noong nagsimula ang pananaliksik," sabi ni Campbell-West. "Ang visual speech recognition (VSR) ay nasa medyo maagang yugto pa rin ng pagsasamantala at ang mga sistema ay patuloy na magiging mature." kay Liopa SRAVI app, na nagbibigay-daan sa mga pasyente ng ospital na makipag-usap hindi alintana kung maaari silang aktibong magsalita, ay umaasa sa huling pamamaraan. "Maaari nitong gamitin ang parehong paraan ng impormasyon upang makatulong na malampasan ang mga pagkukulang ng iba," sabi niya. "Sa hinaharap ay talagang magkakaroon ng mga sistema na gumagamit ng mga karagdagang pahiwatig upang suportahan ang pag-unawa."

"Mayroong ilang mga pagkakaiba sa pagitan ng mga pagpapatupad ng VSR," patuloy ni Campbell-West. “Mula sa teknikal na pananaw, iba ang arkitektura kung paano itinayo ang mga modelo … Ang mga problema sa malalim na pagkatuto ay maaaring lapitan mula sa dalawang magkaibang anggulo. Ang una ay naghahanap ng pinakamahusay na posibleng arkitektura, ang pangalawa ay gumagamit ng malaking halaga ng data upang masakop ang mas maraming pagkakaiba-iba hangga't maaari. Ang parehong mga diskarte ay mahalaga at maaaring pagsamahin.

Sa mga unang araw ng pananaliksik sa VSR, tulad ng mga dataset Mga AVLetter ay kailangang may label at nakategorya, isang limitasyon sa paggawa na mahigpit na naghihigpit sa dami ng data na magagamit para sa pagsasanay ng mga modelo ng machine learning. Dahil dito, ang paunang pananaliksik ay nakatuon muna sa ganap na mga pangunahing kaalaman — alpabeto at pagkakakilanlan sa antas ng numero — bago tuluyang sumulong sa pagkakakilanlan sa antas ng salita at parirala, na ang antas ng pangungusap ay ang makabagong-sining ngayon na naglalayong maunawaan ang pagsasalita ng tao sa mas natural na mga setting at sitwasyon.

Sa nakalipas na mga taon, ang pagtaas ng mas advanced na deep learning techniques, na nagsasanay ng mga modelo sa internet sa kabuuan, kasama ang malawakang pagpapalawak ng social at visual media na nai-post online, ay nagbigay-daan sa mga mananaliksik na makabuo ng mas malalaking dataset, tulad ng Oxford-BBC Lip Reading Pangungusap 2 (LRS2), na batay sa libu-libong pasalitang linya mula sa iba't ibang programa ng BBC. Nakakuha ang LRS3-TED ng 150,000 pangungusap mula sa iba't ibang programa ng TED habang ang database ng LSVSR (Large-Scale Visual Speech Recognition), kabilang sa pinakamalaking kasalukuyang umiiral ay nag-aalok 140,000 oras ng mga segment ng audio na may 2,934,899 speech statement at mahigit 127,000 salita.

At hindi lang ito English: May mga katulad na dataset para sa ilang mga wika gaya ng HIT-AVDB-II, na batay sa isang hanay ng mga tulang Tsino, o IV2, isang database ng Pranses na binubuo ng 300 tao na nagsasabi ng parehong 15 parirala. Umiiral din ang mga katulad na set para sa mga application sa Russian, Spanish at Czech-language.

Naghahanap Nauna pa

Ang kinabukasan ng VSR ay maaaring maging katulad ng nakaraan ng ASR, sabi ni Campbell-West, "Maraming hadlang para sa pagpapatibay ng VSR, tulad ng nangyari para sa ASR sa panahon ng pag-unlad nito sa nakalipas na ilang dekada." Ang privacy ay isang malaking isa, siyempre. Bagama't ang mga nakababatang henerasyon ay hindi gaanong nahahadlangan sa pagdodokumento ng kanilang buhay sa linya, sinabi ni Campbell-West, "ang mga tao ay mas may kamalayan sa privacy ngayon kaysa noon. Maaaring tiisin ng mga tao ang isang mikropono habang hindi kinukunsinti ang isang camera."

Anuman, ang Campbell-West ay nananatiling nasasabik tungkol sa mga potensyal na aplikasyon ng VSR sa hinaharap, tulad ng high-fidelity na awtomatikong captioning. "Inaisip ko ang isang real-time na sistema ng subtitling upang makakuha ka ng mga live na subtitle sa iyong mga salamin kapag nakikipag-usap sa isang tao," sabi ni Campbell-West. "Para sa sinumang mahirap pandinig ito ay maaaring isang application na nagbabago ng buhay, ngunit kahit na para sa pangkalahatang paggamit sa maingay na kapaligiran maaari itong maging kapaki-pakinabang."

"May mga pagkakataon kung saan ang ingay ay nagpapahirap sa ASR ngunit ang kontrol ng boses ay kapaki-pakinabang, tulad ng sa isang kotse," patuloy niya. "Maaaring makatulong ang VSR sa mga system na ito na maging mas mahusay at mas ligtas para sa driver at mga pasahero."

Sa kabilang banda, si Lee, na ang lab sa UW ay nagsaliksik nang husto sa mga teknolohiya ng Brain-Computer Interface, ay higit na nakikita ang mga naisusuot na text display bilang isang "stopgap" na sukat hanggang sa mas mature ang BCI tech. "Hindi naman namin gustong ibenta ang BCI sa puntong iyon kung saan, 'Okay, gagawa kami ng brain-to-brain communication nang hindi man lang nagsasalita nang malakas,'" sabi ni Lee. “Sa isang dekada o higit pa, makakahanap ka ng mga biological signal na ginagamit sa mga hearing aid, sigurado. Kahit gaano [ng device] na nakikita kung saan tumitingin ang iyong mga mata ay maaaring makapagbigay ito ng clue kung saan itutuon ang pakikinig."

"Nag-aalangan akong sabihin na 'oh yeah, kukuha kami ng mga hearing aid na kontrolado ng utak," pagsang-ayon ni Lee. "Sa tingin ko ito ay magagawa, ngunit alam mo, ito ay magtatagal."

Ang lahat ng mga produktong inirerekomenda ng Engadget ay pinili ng aming pangkat ng editoryal, na independyente sa aming pangunahing kumpanya. Ang ilan sa aming mga kwento ay kinabibilangan ng mga link na kaakibat. Kung bumili ka ng isang bagay sa pamamagitan ng isa sa mga link na ito, maaari kaming makakuha ng isang affiliate na komisyon. Ang lahat ng mga presyo ay tama sa oras ng pag-publish.

pinagmulan