AI қазірдің өзінде біз сияқты ерінмен оқуда жақсырақ

Tэй қартаймайды, Бірінші дүниежүзілік соғыс кезінде өмір сүрген британдық және жаңа зеландиялық сарбаздардың өмірі мен талпыныстары туралы 2018 жылғы деректі фильм. Властелин Режиссер Питер Джексон өзінің жүзден астам жыл бұрынғы дыбыссыз түсірілімдерін бояу және бұрын болмаған диалог үшін жаңа дыбыс жазу арқылы модернизациялады. Мұрағаттық кадрларда бейнеленген адамдардың не айтып жатқаны туралы түсінік алу үшін Джексон олардың жазылған сөздерін болжау үшін сот-медициналық оқырмандар тобын жалдады. хабарланады,, «Ерін оқырмандары соншалықты дәл болды, олар тіпті сөйлейтін адамдардың диалектісі мен акцентін анықтай алды».

«Бұл жігіттер ақ-қара, үнсіз әлемде өмір сүрген жоқ және бұл фильм соғыс туралы емес; Бұл солдаттың соғыстағы тәжірибесі туралы», - деді Джексон Күнделікті қарауыл 2018. «Мен аудиторияның солдаттардың не көргенін және оны қалай көргенін және естігенін мүмкіндігінше жақыннан көруін қаладым».

2009 жылы жүргізілген зерттеу адамдардың көпшілігі тек ерінді оқи алатынын анықтағанын ескерсек, бұл өте лингвистикалық ерлік. шамамен 20% дәлдікпен және CDC Балалардағы есту қабілетінің бұзылуы ата-аналарға арналған нұсқаулық «Жақсы сөйлеуді оқитын адам 4 сөзден тұратын сөйлемде 5-12 сөзді ғана көре алады» деп есептейді. Сол сияқты, Оклахома университетінің 2011 жылғы зерттеуі сынақ субъектілерінде шамамен 10% дәлдік көрді.

«Жетістікке жеткен кез келген адам CUNY ерінмен оқу ұпайы of 30 percent correct is considered an outlier, giving them a T-score of nearly 80 three times the standard deviation from the mean. A lip-reading recognition accuracy score of 45 percent correct places an individual 5 standard deviations above the mean,” 2011 жылғы зерттеу аяқталды. «Бұл нәтижелер тек көрнекі түрде сөйлемді танудағы тән қиындықтарды анықтайды».

Адамдар үшін ерін оқуы Үлкен лигалардағы соққыға ұқсайды - оны үнемі оннан үш рет қана дұрыс орындаңыз және сіз ойынды ойнаудың ең жақсыларының бірі боласыз. Заманауи машиналық оқыту жүйелері үшін еріннен оқу Go ойынын ойнауға ұқсайды — сізді жасаған және құлдыққа айналдырған ет қапшықтарын ұрып-соғудан кейін ғана - бүгінгі заманауи жүйелер жақсы жетістіктерге жетуде. сөйлем деңгейіндегі сөз дәлдігі 95 пайыздан астам. Және олар жақсартуды жалғастыра отырып, біз жасай аламыз soon Үнсіз фильмді өңдеу және көпшілік алдында дыбыссыз диктант жазудан биометриялық сәйкестендіруге дейінгі тапсырмалар AI жүйелерімен орындалатын күнді қараңыз.

Мәтінмәндік мәселелер

Енді біз бұл әдісті испандық Бенедикт монахы Педро Понсе де Леонның күндерінен бері қолданып келе жатқанымызды ескерсек, адамдар еріннен оқуды жақсырақ болар еді деп ойлауға болады. 16 ғасырдың басындағы идеяның бастаушысы.

бұл мүсін

Уикипедия / Қоғамдық домен

«Әдетте біз сөйлеуді естігеніміз деп есептейміз, бірақ сөйлеудің естілетін бөлігі оның бір бөлігі ғана», - деді доктор Фабиан Кэмпбелл-Вест, ерін оқу қолданбасын жасаушының техникалық директоры, Лиопа, деп хабарлады Engadget электрондық поштасы арқылы. «Біздің пайымдауымызша, адамның сөйлеуін көру және есту бірліктеріне бөлуге болады. Виземалар деп аталатын көрнекі бірлік ерін қозғалысы ретінде көрінеді. Фонемалар деп аталатын дыбыстық бірлік дыбыс толқындары ретінде естіледі».

«Біз бір-бірімізбен бетпе-бет сөйлескен кезде жиі артықшылық беріледі, өйткені біз көрнекі және есту ақпаратына сезімталбыз», - деп жалғастырды ол. «Алайда, фонемалар виземдерге қарағанда шамамен үш есе көп. Басқаша айтқанда, ерін қимылының өзі сөйлеудің естілетін бөлігі сияқты көп ақпаратты қамтымайды».

Оксфорд университетінің сол кездегі зерттеушісі және LipNet әзірлеушісі Яннис Ассаэль: «Еріннен, кейде тіл мен тістен басқа, еріну әрекеттерінің көпшілігі жасырын және контекстсіз ажырату қиын», - деп атап өтті. 2016 жылы, Фишердің бұрынғы зерттеулеріне сілтеме жасай отырып. Мыналар гомофемалар құпия болып табылады Еріннің нашар оқуысәттілік.

Жабайы нәрсе: «Жаман ерін оқуы» әдетте кез келген ауызекі тілде жұмыс істейді дыбыс екпіні ағылшын сияқты немесе үндестік вьетнамдықтар сияқты. Кэмпбелл-Вест: «Тіл, әсіресе басқа тілдерде жиі кездеспейтін ерекше дыбыстары бар дыбыстарды өзгертеді», - деді. «Әр тілде синтаксис пен айтылу ережелері бар, олар оны қалай түсіндіруге әсер етеді. Жалпы айтқанда, түсіну әдістері бірдей».

«Тональды тілдер қызықты, өйткені олар бір сөзді әртүрлі реңкпен (музыкалық биіктік сияқты) мағынаны беру үшін қолданады», - деп жалғастырды ол. «Интуитивті түрде бұл еріннен оқуға қиындық туғызады, бірақ зерттеулер сөйлеуді осылайша түсіндіруге болатынын көрсетеді. Себептердің бір бөлігі - тонустың өзгеруі визуалды түрде көрінетін физиологиялық өзгерістерді қажет етеді. Еріннен оқу да уақыт өте келе орындалады, сондықтан алдыңғы виземалардың, сөздердің және сөз тіркестерінің контексі түсінуге көмектеседі ».

«Тілді қаншалықты жақсы білетіндігіңіз маңызды, өйткені сіз іздеуге болатын екіұштылықтардың жиынтығын шектеп жатырсыз», - дейді Адриан К.К.Ли, ScD. Профессор және Вашингтон университетінің сөйлеу және есту ғылымдары кафедрасының меңгерушісі, сөйлеу және есту ғылымдары, - деді Engadget. «Суық; және «ұстаңыз», иә? Егер сіз жай ғана айна алдында отырсаңыз, сіз шынымен айырмашылықты айта алмайсыз. Физикалық тұрғыдан алғанда, бұл мүмкін емес, бірақ мен ауа-райы туралы сөйлесуге қарсы бірдеңені ұстанатын болсам, контекст бойынша сіз білесіз ».

Үлкен конверсияның жалпы контекстінен басқа, адамдар сөйлеген кезде жеткізетін нәрселердің көпшілігі вербалды емес түрде кездеседі. Кэмпбелл-Вест: «Әдетте, сіз адамды көріп, тыңдай алатын болсаңыз, қарым-қатынас оңайырақ болады», - деді Кэмпбелл-Вест, «бірақ соңғы кездегі бейнеқоңыраулардың көбеюі бізге бұл адамды көру ғана емес, көптеген нюанстар бар екенін көрсетті. Адамдардың қарым-қатынасын түсіну үшін интеллектуалды автоматтандырылған жүйелерді құрудың әлеуеті қазіргі уақытта мүмкін болғаннан әлдеқайда көп».

Ағаштар үшін орманды сағыну, тіл жағынан

Адам мен машинаның ерін оқырмандарының жалпы түпкі мақсаты бірдей болғанымен, олардың жеке процестерінің мақсаттары айтарлықтай ерекшеленеді. бастап зерттеушілер тобы ретінде Иран ғылым және технология университеті argued in 2021, “Over the past years, several methods have been proposed for a person to lip-read, but there is an important difference between these methods and the lip-reading methods suggested in AI. The purpose of the proposed methods for lip-reading by the machine is to convert visual information into words… However, the main purpose of lip-reading by humans is to understand the meaning of speech and not to understand every single word of speech.”

Қысқасы, «адамдар әдетте жалқау және контекстке сүйенеді, өйткені бізде көптеген алдын ала білім бар», - деп түсіндірді Ли. Дәл осы диссонанс - бұл ағаштар үшін орманды жоғалтудың лингвистикалық баламасы - ерін оқуын автоматтандыру мақсатына осындай ерекше қиындық тудырады.

«Липредингті зерттеудегі негізгі кедергі стандартты және практикалық деректер базасының болмауы», - деді Хао. «Дерекқордың көлемі мен сапасы осы модельдің жаттығу әсерін анықтайды, сонымен қатар тамаша деректер базасы липрединг тапсырмаларындағы барған сайын күрделі және қиын мәселелерді ашуға және шешуге ықпал етеді». Басқа кедергілер нашар жарықтандыру және сияқты қоршаған орта факторларын қамтуы мүмкін shiftҚұрылғының көру жүйелерін шатастыруы мүмкін фон, сондай-ақ спикердің тері реңіне, олардың басының айналу бұрышына байланысты ауытқулар (ол shifts ауыздың көрінетін бұрышы) және әжімдер мен сақалдардың көмескі болуы.

Ассаэль атап өткендей, «Машиналық липрединг қиын, өйткені ол бейнеден кеңістік-уақыт ерекшеліктерін алуды қажет етеді (өйткені позиция да, қозғалыс та маңызды). Алайда, Синьцзян университетінің қызметкері Минфэн Хао 2020 жылы түсіндіреді Еріннен оқу технологиясы бойынша сауалнама, "бейне классификациясына жататын әрекетті тану бір кескін арқылы жіктелуі мүмкін." Сонымен, «липрединг көбінесе бір суреттен сөйлеу мазмұнына қатысты мүмкіндіктерді шығарып, мазмұнды шығару үшін кескіндердің бүкіл тізбегі арасындағы уақыт қатынасын талдауды қажет етеді.» Бұл табиғи тілді өңдеуді де, машинаның көру мүмкіндіктерін де талап ететін кедергі. жеңу.

Акроним сорпасы

Бүгінгі күні сөзді тану кіріс көзіне байланысты үш түрлі болады. Бүгін біз айтып отырған нәрсе Visual Speech Recognition (VSR) зерттеуіне жатады, яғни жеткізілетін нәрсені түсіну үшін тек көрнекі құралдарды пайдалану. Керісінше, бар Автоматтандырылған сөйлеуді тану (ASR) ол толығымен дыбысқа сүйенеді, яғни «Hey Siri» және Аудио-визуалды автоматтандырылған сөзді тану (AV-ASR), ол болжамға дыбыстық және көрнекі белгілерді қосады.

Кэмпбелл-Вест: «Сөйлеуді автоматты түрде тану (ASR) бойынша зерттеулер өте жетілген және қазіргі заманғы жағдайды зерттеу басталған кезде мүмкін болғанмен салыстырғанда тануға болмайды», - деді. «Көрнекі сөйлеуді тану (VSR) әлі де пайдаланудың салыстырмалы түрде ерте сатысында және жүйелер жетілуін жалғастырады». Лиопаныкі SRAVI қолданбасы, бұл стационар пациенттеріне олардың белсенді түрде ауызша айта алатындығына қарамастан байланысуға мүмкіндік береді, соңғы әдістемеге сүйенеді. «Бұл басқалардың кемшіліктерін жоюға көмектесу үшін ақпараттың екі режимін де пайдалана алады», - деді ол. «Болашақта түсінуді қолдау үшін қосымша белгілерді қолданатын жүйелер міндетті түрде болады».

«VSR енгізу арасында бірнеше айырмашылықтар бар», - деп жалғастырды Кэмпбелл-Вест. «Техникалық тұрғыдан алғанда, модельдердің құрастырылу архитектурасы әртүрлі... Терең оқыту мәселелеріне екі түрлі бұрыштан қарауға болады. Біріншісі ең жақсы архитектураны іздейді, екіншісі мүмкіндігінше вариацияны қамту үшін деректердің үлкен көлемін пайдаланады. Екі тәсіл де маңызды және оларды біріктіруге болады».

VSR зерттеулерінің алғашқы күндерінде деректер жинақтары сияқты AVLetters қолмен белгіленуі және санатталуы керек болды, бұл машиналық оқыту үлгілерін оқыту үшін қол жетімді деректер көлемін қатты шектейтін еңбекті қажет ететін шектеу. Осылайша, бастапқы зерттеулер ең алдымен абсолютті негіздерге - алфавит пен сан деңгейін анықтауға - ақыр соңында сөз және фразалық сәйкестендіруге көшкенге дейін, сөйлем деңгейі адамның сөйлеуін түсінуге ұмтылатын бүгінгі заманауи заманауи деңгейге бағытталған. табиғи жағдайларда және жағдайларда.

Соңғы жылдары негізінен интернетте модельдерді оқытатын тереңірек оқытудың жетілдірілген әдістерінің өсуі, сонымен қатар желіде жарияланған әлеуметтік және визуалды медианың жаппай кеңеюі зерттеушілерге әлдеқайда үлкен деректер жинақтарын жасауға мүмкіндік берді. Оксфорд-ВВС еріннен оқу сөйлемдері 2 (LRS2), ол әртүрлі BBC бағдарламаларындағы мыңдаған ауызша сөздерге негізделген. LSVSR (Large-Scale Visual Speech Recognition) дерекқоры қазіргі уақытта бар ұсыныстардың ішінде LRS3-TED әртүрлі TED бағдарламаларынан 150,000 XNUMX сөйлемді жинады. 140,000 XNUMX сағаттық аудио сегменттер 2,934,899 127,000 XNUMX сөйлеу мәлімдемесі және XNUMX XNUMX-нан астам сөз.

Бұл жай ғана ағылшын тілі емес: Ұқсас деректер жинақтары бірқатар тілдер үшін бар, мысалы HIT-AVDB-II, ол қытай өлеңдерінің жиынтығына негізделген немесе IV2, бірдей 300 сөз тіркесін айтатын 15 адамнан тұратын француз дерекқоры. Ұқсас жинақтар орыс, испан және чех тілдеріндегі қолданбалар үшін де бар.

Алдын ала қарап

Кэмпбелл-Весттің айтуынша, VSR-тің болашағы ASR-нің өткеніне ұқсайды: «Соңғы бірнеше онжылдықта ASR дамуы кезінде болғандай, VSR-ді қабылдауда көптеген кедергілер бар». Құпиялылық, әрине, үлкен нәрсе. Кэмпбелл-Весттің айтуынша, жас ұрпақ өз өмірлерін желіде құжаттауға аз кедергі келтіреді: «Адамдар бұрынғыға қарағанда жеке өмір туралы көбірек біледі. Адамдар камераға шыдамай, микрофонға шыдауы мүмкін ».

Қалай болғанда да, Кэмпбелл-Вест жоғары дәлдіктегі автоматтандырылған субтитрлер сияқты VSR-тің болашақтағы әлеуетті қолданбаларына қуанады. Кэмпбелл-Вест: «Мен нақты уақыттағы субтитрлер жүйесін қарастырамын, осылайша сіз біреумен сөйлескен кезде көзілдірігіңізде тірі субтитрлерді ала аласыз», - деді. «Есту қабілеті нашар кез келген адам үшін бұл өмірді өзгертетін қолданба болуы мүмкін, бірақ тіпті шулы ортада жалпы пайдалану үшін бұл пайдалы болуы мүмкін».

«Шу ASR-ді қиындататын жағдайлар бар, бірақ дауыспен басқару тиімді, мысалы, автомобильде», - деп жалғастырды ол. «VSR бұл жүйелерді жүргізуші мен жолаушылар үшін жақсырақ және қауіпсіз етуге көмектесе алады».

Екінші жағынан, UW зертханасы Brain-Computer Interface технологияларын кеңінен зерттеген Ли, BCI технологиясы одан әрі жетілгенге дейін киілетін мәтіндік дисплейлерді «тоқтату» шарасы ретінде қарастырады. «Біз міндетті түрде BCI-ді «Жарайды, біз тіпті дауыстап сөйлеспей-ақ ми мен ми арасындағы байланыс жасаймыз» дегенге дейін сатқымыз келмейді», - деді Ли. «Он жылдан кейін сіз есту аппараттарында қолданылатын биологиялық сигналдарды табасыз. [Құрылғы] сіздің көзіңіздің қайда қарағанын көру сияқты, тыңдауға назар аударатын жер туралы түсінік беруі мүмкін».

«Мен «иә, біз миды басқаратын есту аппараттарын аламыз» деп айтудан тартынамын», - деп мойындады Ли. «Менің ойымша, бұл мүмкін, бірақ сіз білесіз, бұл уақытты алады».

Engadget ұсынған барлық өнімдерді бас компаниямызға тәуелсіз редакциялық топ таңдайды. Кейбір әңгімелерімізде серіктестік сілтемелері бар. Егер сіз осы сілтемелердің бірі арқылы бірдеңе сатып алсаңыз, біз серіктестік комиссиясын алуымыз мүмкін. Барлық бағалар жариялау кезінде дұрыс.

қайнар көз