ІІ ужо лепш чытае з вуснаў, чым мы

Tэй, не старэць, дакументальны фільм 2018 года пра жыццё і памкненні брытанскіх і новазеландскіх салдат падчас Першай сусветнай вайны ад вядомага Уладар кольцаў рэжысёр Пітэр Джэксан мадэрнізаваў нямыя кадры сто з лішнім гадоў за кошт размалёўкі і запісу новага аўдыя для раней неіснуючых дыялогаў. Каб атрымаць уяўленне пра тое, што гавораць людзі, адлюстраваныя на архіўных кадрах, Джэксан наняў каманду судовых экспертаў, якія счытваюць губы, каб даць ацэнку іх запісаных выказванняў. па паведамленнях, «чытальнікі з вуснаў былі настолькі дакладнымі, што нават змаглі вызначыць дыялект і акцэнт людзей, якія гавораць».

«Гэтыя хлопцы жылі не ў чорна-белым маўклівым свеце, і гэты фільм не пра вайну; гэта пра досвед салдата ў вайне», - сказаў Джэксан Штодня Вартавы у 2018 г. «Я хацеў, каб аўдыторыя ўбачыла як мага бліжэй тое, што бачылі салдаты, як яны гэта бачылі і чулі».

Гэта даволі лінгвістычны подзвіг, улічваючы, што даследаванне 2009 года паказала, што большасць людзей могуць чытаць толькі па вуснах з дакладнасцю каля 20 працэнтаў і CDC Даведнік для бацькоў па страце слыху ў дзяцей паводле ацэнак, «добры чытач можа ўбачыць толькі 4-5 слоў у сказе з 12 слоў». Сапраўды гэтак жа даследаванне 2011 года, праведзенае Універсітэтам Аклахомы бачыў толькі каля 10 працэнтаў дакладнасці ў падыспытных.

«Любы чалавек, які дасягнуў a Ацэнка чытання з вуснаў CUNY of 30 percent correct is considered an outlier, giving them a T-score of nearly 80 three times the standard deviation from the mean. A lip-reading recognition accuracy score of 45 percent correct places an individual 5 standard deviations above the mean,” даследаванне 2011 заключыў. «Гэтыя вынікі колькасна вызначаюць неад'емныя цяжкасці ў візуальным распазнаванні прапаноў».

Для людзей чытанне па вуснах падобна на адбіванне ў Вышэйшай лізе - нязменна рабіце гэта правільна нават у трох выпадках з дзесяці, і вы станеце адным з лепшых, якія калі-небудзь гулялі ў гэтую гульню. Для сучасных сістэм машыннага навучання чытанне па вуснах больш падобна на гульню ў го - проста раунд за раундам збівання мясных мяшкоў, якія стварылі і заняволілі вас - з сучаснымі сучаснымі сістэмамі, якія добра працуюць больш за 95 працэнтаў дакладнасці слоў на ўзроўні прапановы. І калі яны працягваюць удасканальвацца, мы маглі б soon убачыць дзень, калі задачы ад апрацоўкі нямога кіно і ціхай дыктоўкі ў грамадскіх месцах да біяметрычнай ідэнтыфікацыі апрацоўваюцца сістэмамі штучнага інтэлекту.

Кантэкст мае значэнне

Цяпер можна падумаць, што людзі ўжо лепш умеюць чытаць па вуснах, улічваючы, што мы афіцыйна практыкуем гэтую тэхніку з часоў іспанскага манаха-бенедыктынца Пэдра Понсэ дэ Леона, якому прыпісваюць першапраходцам гэтай ідэі ў пачатку 16 ст.

гэта статуя

Вікіпедыя / Грамадскі набытак

«Звычайна мы думаем пра гаворка як пра тое, што мы чуем, але чутная частка мовы - гэта толькі яе частка», - доктар Фабіян Кэмпбэл-Уэст, тэхнічны дырэктар распрацоўшчыка прыкладання для чытання з вуснаў, Ліопа, паведаміў Engadget па электроннай пошце. «Маўленне чалавека ў нашым разуменні можна падзяліць на зрокавую і слыхавую адзінкі. Глядзельныя адзінкі, званыя вісемамі, разглядаюцца як рухі вуснаў. Гукавыя адзінкі, званыя фанемамі, чуюцца як гукавыя хвалі».

«Калі мы маем зносіны адзін з адным тварам да твару, часта аддаюць перавагу таму, што мы адчувальныя да глядзельнай і слыхавой інфармацыі», - працягнуў ён. «Аднак фанем прыкладна ў тры разы больш, чым візем. Іншымі словамі, самі па сабе рухі вуснаў нясуць столькі інфармацыі, колькі гукавая частка мовы».

«Большасць дзеянняў, якія чытаюць вусны, акрамя вуснаў, а часам і языка і зубоў, з'яўляюцца схаванымі і іх цяжка размежаваць без кантэксту», - адзначыў Яніс Асаэль, даследчык Оксфардскага універсітэта і распрацоўшчык LipNet. у 2016, спасылаючыся на больш раннія даследаванні Фішэра. Гэтыя амафемы з'яўляюцца сакрэтам Дрэннае чытанне па вуснахПоспех.

Дзіўна тое, што "Дрэннае чытанне па вуснах" звычайна працуе на любой гутарковай мове, няхай гэта будзе вышыня-акцэнт як англійская або танальны як в'етнамцы. «Мова сапраўды мае значэнне, асабліва тыя з унікальнымі гукамі, якія не распаўсюджаны ў іншых мовах», — сказала Кэмпбэл-Уэст. «У кожнай мовы ёсць правілы сінтаксісу і вымаўлення, якія будуць уплываць на яе інтэрпрэтацыю. Шырока кажучы, метады разумення аднолькавыя».

«Танальныя мовы цікавыя, таму што яны выкарыстоўваюць адно і тое ж слова з рознымі зменамі тону (напрыклад, музычнай вышыні), каб перадаць сэнс», — працягнуў ён. «Інтуітыўна гэта ўяўляе сабой праблему для чытання з вуснаў, аднак даследаванні паказваюць, што ўсё яшчэ магчыма інтэрпрэтаваць гаворка такім чынам. Адной з прычын з'яўляецца тое, што змена тону патрабуе фізіялагічных змен, якія могуць выяўляцца візуальна. Чытанне па вуснах таксама адбываецца з цягам часу, таму кантэкст папярэдніх вісем, слоў і фраз можа дапамагчы з разуменнем».

«Гэта мае значэнне з пункту гледжання таго, наколькі добрыя вашы веды мовы, таму што вы ў асноўным абмяжоўваеце набор неадназначнасцяў, якія вы можаце шукаць», - Адрыян К. С. Лі, ScD, Прафесар і старшыня кафедры маўленчых і слыхавых навук Вашынгтонскага ўніверсітэта, распавёў Engadget. «Скажыце," холадна; і "трымаць", так? Калі вы проста сядзіце перад люстэркам, вы не можаце адрозніць. Так што з фізічнага пункту гледжання гэта немагчыма, але калі я нешта трымаю, а не кажу пра надвор'е, вы, зыходзячы з кантэксту, ужо ведаеце».

У дадатак да агульнага кантэксту большага пераўтварэння, многае з таго, што людзі перадаюць, калі яны кажуць, сустракаецца невербальна. «Камунікацыя звычайна прасцей, калі вы можаце бачыць чалавека, а таксама чуць яго, - сказаў Кэмпбэл-Уэст, - але нядаўняе распаўсюджванне відэазванкоў паказала ўсім нам, што справа не толькі ў тым, каб убачыць чалавека, ёсць значна больш нюансаў. Існуе нашмат большы патэнцыял для стварэння інтэлектуальных аўтаматызаваных сістэм для разумення чалавечых зносін, чым тое, што магчыма ў цяперашні час».

Не хапае лесу за дрэвамі, лінгвістычна

У той час як чалавечыя і машынныя счытвальнікі з вуснаў маюць аднолькавую агульную канчатковую мэту, мэты іх індывідуальных працэсаў значна адрозніваюцца. Як каманда даследчыкаў з Іранскі універсітэт навукі і тэхналогій argued in 2021, “Over the past years, several methods have been proposed for a person to lip-read, but there is an important difference between these methods and the lip-reading methods suggested in AI. The purpose of the proposed methods for lip-reading by the machine is to convert visual information into words… However, the main purpose of lip-reading by humans is to understand the meaning of speech and not to understand every single word of speech.”

Карацей кажучы, "людзі, як правіла, лянівыя і спадзяюцца на кантэкст, таму што ў нас ёсць шмат папярэдніх ведаў", - растлумачыў Лі. І менавіта гэты дысананс у працэсе — моўны эквівалент адсутнасці лесу замест дрэў — стварае такую ​​унікальную праблему для мэты аўтаматызацыі чытання з вуснаў.

«Асноўнай перашкодай у вывучэнні чытання па вуснах з'яўляецца адсутнасць стандартнай практычнай базы дадзеных», - сказаў Хао. «Памер і якасць базы дадзеных вызначаюць навучальны эфект гэтай мадэлі, а ідэальная база дадзеных таксама будзе садзейнічаць выяўленню і вырашэнню ўсё больш складаных і цяжкіх праблем у задачах чытання па вуснах». Іншыя перашкоды могуць ўключаць фактары навакольнага асяроддзя, такія як дрэннае асвятленне і shiftфоны, якія могуць збянтэжыць сістэмы машыннага зроку, а таксама адхіленні з-за адцення скуры прамоўцы, кута павароту іх галавы (які shiftвугал рота) і непрыкметная наяўнасць маршчын і барады.

Як адзначае Ассаэль, «Машыннае чытанне па вуснах складанае, таму што яно патрабуе вылучэння прасторава-часавых функцый з відэа (паколькі важныя як становішча, так і рух)». Аднак, як тлумачыць Мінфэн Хао з Універсітэта Сіньцзяна ў 2020-х гг Апытанне аб тэхналогіі чытання з вуснаў, «распазнаванне дзеянняў, якое адносіцца да класіфікацыі відэа, можа быць класіфікавана па адной выяве». Такім чынам, «пры чытанні з вуснаў часта патрабуецца вылучыць функцыі, звязаныя са змесцівам маўлення, з аднаго відарыса і прааналізаваць часавыя адносіны паміж усёй паслядоўнасцю відарысаў, каб зрабіць выснову аб змесціве». Гэта перашкода, якая патрабуе як апрацоўкі натуральнай мовы, так і магчымасцей машыннага зроку. пераадолець.

Абрэвіятура суп

Сёння распазнаванне маўлення бывае трох варыянтаў у залежнасці ад крыніцы ўводу. Тое, пра што мы сёння гаворым, падпадае пад даследаванне візуальнага распазнання маўлення (VSR), гэта значыць выкарыстанне толькі візуальных сродкаў для разумення таго, што перадаецца. І наадварот, ёсць Automated Speech Recognition (ASR), які цалкам абапіраецца на гук, г.зн. «Hey Siri» і Аўдыявізуальнае аўтаматызаванае распазнаванне маўлення (AV-ASR), які ўключае ў свае здагадкі гукавыя і візуальныя падказкі.

«Даследаванні ў галіне аўтаматычнага распазнання маўлення (ASR) вельмі спелыя, і цяперашні стан мастацтва немагчыма пазнаць у параўнанні з тым, што было магчыма, калі даследаванне пачыналася», - сказаў Кэмпбэл-Уэст. «Візуальнае распазнаванне маўлення (VSR) усё яшчэ знаходзіцца на адносна ранніх стадыях эксплуатацыі, і сістэмы будуць працягваць развівацца». Ліопава Дадатак SRAVI, які дазваляе пацыентам бальніцы мець зносіны незалежна ад таго, ці могуць яны актыўна выказвацца, абапіраецца на апошнюю метадалогію. "Гэта можа выкарыстоўваць абодва спосабы інфармацыі, каб дапамагчы пераадолець недахопы іншага", - сказаў ён. «У будучыні абавязкова з'явяцца сістэмы, якія будуць выкарыстоўваць дадатковыя сігналы для падтрымкі разумення».

«Ёсць некалькі адрозненняў паміж рэалізацыямі VSR», - працягнуў Кэмпбэл-Уэст. «З тэхнічнага пункту гледжання архітэктура пабудовы мадэляў адрозніваецца ... Да праблем глыбокага навучання можна падысці з двух розных бакоў. Першы шукае найлепшую магчымую архітэктуру, другі выкарыстоўвае вялікую колькасць даных, каб ахапіць як мага больш варыяцый. Абодва падыходы важныя і іх можна спалучаць».

У першыя дні даследаванняў VSR, наборы дадзеных, як А.В.Пісьмы трэба было ўручную маркіраваць і класіфікаваць, працаёмкае абмежаванне, якое сур'ёзна абмяжоўвала колькасць даных, даступных для навучання мадэлям машыннага навучання. Такім чынам, першапачатковае даследаванне было засяроджана спачатку на абсалютных асновах — ідэнтыфікацыі на ўзроўні алфавіту і лічбаў — перш чым у рэшце рэшт перайсці да ідэнтыфікацыі на ўзроўні слоў і фраз, прычым узровень прапановы з'яўляецца сучасным сучасным сродкам, які імкнецца зразумець чалавечую гаворку у больш натуральных умовах і сітуацыях.

У апошнія гады рост больш дасканалых метадаў глыбокага навучання, якія навучаюць мадэлі ў асноўным у Інтэрнэце ў цэлым, разам з масавым пашырэннем сацыяльных і візуальных медыя, размешчаных у Інтэрнэце, дазволілі даследчыкам ствараць значна большыя наборы даных, напрыклад, Oxford-BBC Чытанне па вуснах сказы 2 (LRS2), які заснаваны на тысячах вусных радкоў з розных праграм BBC. LRS3-TED сабраў 150,000 XNUMX прапаноў з розных праграм TED, у той час як база дадзеных LSVSR (шырокамаштабнае візуальнае распазнаванне маўлення) з'яўляецца адной з найбуйнейшых існуючых прапаноў 140,000 XNUMX гадзін аўдыёсегментаў з 2,934,899 127,000 XNUMX маўленчымі выказваннямі і больш чым XNUMX XNUMX словамі.

І гэта не толькі англійская: падобныя наборы дадзеных існуюць для шэрагу моў, такіх як HIT-AVDB-II, які заснаваны на наборы кітайскіх вершаў, або IV2, французскай базе дадзеных, якая складаецца з 300 чалавек, якія прамаўляюць адны і тыя ж 15 фраз. Падобныя наборы існуюць таксама для рускамоўных, іспанамоўных і чэшскамоўных прыкладанняў.

Погляд у будучыню

Будучыня VSR можа выглядаць вельмі падобна на мінулае ASR, кажа Кэмпбэл-Уэст. «Існуе шмат перашкод для прыняцця VSR, як гэта было для ASR падчас яго развіцця на працягу апошніх некалькіх дзесяцігоддзяў». Канфідэнцыяльнасць, вядома, важная. Нягледзячы на ​​тое, што маладое пакаленне менш стрымліваецца з дакументаваннем свайго жыцця ў інтэрнэце, Кэмпбэл-Уэст сказаў, «людзі справядліва больш дасведчаныя аб канфідэнцыяльнасці цяпер, чым яны былі раней. Людзі могуць цярпець мікрафон і не цярпець камеру».

Нягледзячы на ​​гэта, Campbell-West застаецца ў захапленні ад патэнцыйных будучых прыкладанняў VSR, такіх як аўтаматызаваныя цітры высокай дакладнасці. «Я мяркую сістэму субтытраў у рэжыме рэальнага часу, каб вы маглі атрымліваць жывыя субтытры ў акулярах, калі размаўляеце з кімсьці», — сказаў Кэмпбэл-Уэст. «Для тых, хто дрэнна чуе, гэта дадатак можа змяніць жыццё, але нават для звычайнага выкарыстання ў шумным асяроддзі гэта можа быць карысным».

"Ёсць абставіны, калі шум вельмі ўскладняе ASR, але галасавое кіраванне з'яўляецца перавагай, напрыклад, у аўтамабілі", - працягнуў ён. «VSR можа дапамагчы гэтым сістэмам стаць лепш і бяспечней для кіроўцы і пасажыраў».

З іншага боку, Лі, чыя лабараторыя ў UW шырока даследавала тэхналогіі інтэрфейсу «мозг-кампутар», разглядае тэкставыя дысплеі, якія можна насіць, больш як «прамежкавую» меру, пакуль тэхналогія BCI не паспее. «Мы не абавязкова хочам прадаваць BCI да таго моманту, калі: «Добра, мы будзем мець зносіны ад мозгу да мозгу, нават не размаўляючы ўслых», — сказаў Лі. «Праз дзесяцігоддзе ці каля таго вы напэўна ўбачыце, што біялагічныя сігналы выкарыстоўваюцца ў слыхавых апаратах. Як мінімум [прылада] бачыць, куды глядзяць вашы вочы, можа даць яму падказку, дзе засяродзіцца на праслухоўванні».

«Я саромеюся сказаць: «О, так, мы атрымаем слыхавыя апараты з кіраваннем мозгам», — прызнаўся Лі. «Я думаю, што гэта выканальна, але вы ведаеце, гэта зойме час».

Усе прадукты, рэкамендаваныя Engadget, выбіраюцца нашай рэдакцыйнай групай незалежна ад нашай матчынай кампаніі. Некаторыя з нашых гісторый ўключаюць партнёрскія спасылкі. Калі вы купляеце што-небудзь па адной з гэтых спасылак, мы можам зарабіць партнёрскую камісію. Усе цэны сапраўдныя на момант публікацыі.

крыніца