Umělá inteligence už umí odezírat ze rtů lépe než my

Thej nezestárnu, dokument z roku 2018 o životech a aspiracích britských a novozélandských vojáků, kteří prožili první světovou válku od uznávaných Lord of the Rings režisér Peter Jackson, nechal zmodernizovat své více než sto let staré němé záběry jak kolorizací, tak nahráním nového zvuku pro dříve neexistující dialogy. Aby měl Jackson představu o tom, co říkají lidé na archivních záběrech, najal tým forenzních čtenářů rtů, aby odhadli jejich zaznamenané výroky. Údajně„čtenáři rtů byli tak přesní, že dokonce dokázali určit dialekt a přízvuk mluvících lidí.“

„Tito chlapi nežili v černobílém tichém světě a tento film není o válce; je to o zkušenostech vojáka s bojem ve válce,“ řekl Jackson Denní hlídka v roce 2018. „Chtěl jsem, aby diváci co nejblíže viděli, co vojáci viděli a jak to viděli a slyšeli.“

To je docela lingvistický výkon vzhledem k tomu, že studie z roku 2009 zjistila, že většina lidí umí pouze číst ze rtů s přesností kolem 20 procent a CDC Ztráta sluchu v dětské příručce pro rodiče odhaduje, že „dobrý čtenář řeči může vidět pouze 4 až 5 slov ve větě o 12 slovech“. Podobně, studie z roku 2011 z University of Oklahoma u svých testovaných subjektů viděl jen asi 10 procent přesnosti.

„Každý jedinec, který dosáhl a CUNY skóre odezírání ze rtů 30 procent správné je považováno za odlehlou hodnotu, což jim dává T-skóre téměř 80 trojnásobek standardní odchylky od průměru. Skóre přesnosti rozpoznání odezírání ze rtů 45 procent správně staví jednotlivce o 5 standardních odchylek nad průměr,“ studie z roku 2011 skončila. "Tyto výsledky kvantifikují inherentní potíže s vizuálním rozpoznáváním vět."

Pro lidi je odezírání hodně jako odpalování v Major Leagues – důsledně to dejte správně i jen třikrát z deseti a budete mezi nejlepšími, kteří kdy tuto hru hráli. Pro moderní systémy strojového učení je odečítání ze rtů spíše jako hraní Go – jen kolo za kolem mlácení do pytlů, které vás stvořily a zotročily – s dnešními nejmodernějšími systémy, které dosahují dobrých výsledků. přes 95 procent přesnosti slov na úrovni vět. A jak se stále zlepšují, mohli bychom soon podívejte se na den, kdy úkoly od zpracování tichého filmu a tichého diktování na veřejnosti až po biometrickou identifikaci řeší systémy umělé inteligence.

Záležitosti kontextu

Člověk by si teď myslel, že lidé už budou lepší v odezírání ze rtů vzhledem k tomu, že tuto techniku ​​oficiálně praktikujeme již od dob španělského benediktinského mnicha Pedra Ponce de Leóna, kterému se připisuje průkopníkem myšlenky na počátku 16. století.

je to socha

Wikipedie / Public Domain

"Obvykle uvažujeme o řeči jako o tom, co slyšíme, ale slyšitelná část řeči je pouze její částí," Dr. Fabian Campbell-West, technický ředitel vývojáře aplikace pro odečítání rtů, Liopa, řekl Engadget e-mailem. „Jak to vnímáme, řeč člověka se dá rozdělit na vizuální a sluchovou jednotku. Vizuální jednotky, nazývané visemy, jsou vnímány jako pohyby rtů. Slyšitelné jednotky, zvané fonémy, jsou slyšeny jako zvukové vlny.

„Když spolu komunikujeme tváří v tvář, je často preferováno, protože jsme citliví na vizuální i sluchové informace,“ pokračoval. „Avšak fonémů je přibližně třikrát více než visemů. Jinými slovy, pohyby rtů samy o sobě neobsahují tolik informací jako slyšitelná část řeči.“

„Většina aktivací odezírání ze rtů, kromě rtů a někdy jazyka a zubů, je latentních a je obtížné je bez kontextu vyjasnit,“ poznamenal tehdejší výzkumník z Oxfordské univerzity a vývojář LipNet Yannis Assael. v 2016s odkazem na dřívější Fisherovy studie. Tyto homofémy jsou tajemstvím Špatné čtení rtůúspěch.

Divoké je, že Bad Lip Reading bude obecně fungovat v jakémkoli mluveném jazyce, ať už je to ono pitch-accent jako angličtina popř tónový jako Vietnamci. "Jazyk dělá rozdíl, zvláště ty s jedinečnými zvuky, které nejsou běžné v jiných jazycích," řekl Campbell-West. „Každý jazyk má pravidla syntaxe a výslovnosti, která ovlivní způsob jeho interpretace. Obecně řečeno, metody porozumění jsou stejné.“

"Tónové jazyky jsou zajímavé, protože používají stejné slovo s různými změnami tónu (jako je výška tónu) k vyjádření významu," pokračoval. „Intuitivně by to představovalo výzvu pro odečítání ze rtů, ale výzkum ukazuje, že je stále možné interpretovat řeč tímto způsobem. Částečným důvodem je, že změna tónu vyžaduje fyziologické změny, které se mohou projevit vizuálně. Odečítání ze rtů se také provádí v průběhu času, takže kontext předchozích visem, slov a frází může pomoci s porozuměním.“

„Záleží na tom, jak dobrá je vaše znalost jazyka, protože v podstatě omezujete množinu nejednoznačností, které můžete hledat,“ Adrian KC Lee, ScD, Profesor a vedoucí katedry řeči a sluchu, vědy o řeči a sluchu na University of Washington, řekl Engadget. "Řekni, 'zima; a 'držet', že? Pokud jen sedíte před zrcadlem, nepoznáte rozdíl. Takže z fyzikálního hlediska je to nemožné, ale pokud něco držím a mluvím o počasí, vy podle kontextu už víte.“

Kromě obecného kontextu větší konverze se mnoho z toho, co lidé sdělují, když mluví, objevuje neverbálně. „Komunikace je obvykle snazší, když toho člověka můžete vidět i slyšet,“ řekl Campbell-West, „ale nedávný nárůst videohovorů nám všem ukázal, že nejde jen o to, vidět osobu, která má mnohem více nuancí. Existuje mnohem větší potenciál pro budování inteligentních automatizovaných systémů pro pochopení lidské komunikace, než je v současnosti možné.“

Lingvisticky chybí les pro stromy

Zatímco lidské a strojové čtečky rtů mají stejný obecný konečný cíl, cíle jejich jednotlivých procesů se značně liší. Jako tým výzkumníků z Íránská univerzita vědy a technologie argumentoval v roce 2021: „V posledních letech bylo navrženo několik metod, jak člověk odezírá, ale mezi těmito metodami a metodami odezírání ze rtů navrhovanými v AI je důležitý rozdíl. Účelem navrhovaných metod pro odečítání ze rtů pomocí stroje je převést vizuální informace na slova... Hlavním účelem odezírání ze rtů lidmi je však porozumět významu řeči a ne rozumět každému jednotlivému slovu řeči.“

Stručně řečeno, „lidé jsou obecně líní a spoléhají na kontext, protože máme mnoho předchozích znalostí,“ vysvětlil Lee. A právě tato disonance v procesu – lingvistický ekvivalent chybějícího lesa pro stromy – představuje tak jedinečnou výzvu pro cíl automatizace odečítání ze rtů.

„Hlavní překážkou ve studiu odezírání je nedostatek standardní a praktické databáze,“ řekl Hao. "Velikost a kvalita databáze určuje trénovací efekt tohoto modelu a dokonalá databáze také podpoří objevování a řešení stále složitějších a obtížnějších problémů v úlohách odezírání." Další překážky mohou zahrnovat faktory prostředí, jako je špatné osvětlení a shiftpozadí, která mohou zmást systémy strojového vidění, stejně jako odchylky v důsledku odstínu pleti mluvčího, úhlu natočení jeho hlavy (který shifts pozorovací úhel úst) a zatemňující přítomnost vrásek a vousů.

Jak poznamenává Assael, „strojové odezírání je obtížné, protože vyžaduje extrahování časoprostorových prvků z videa (protože poloha i pohyb jsou důležité).“ Nicméně, jak vysvětluje Mingfeng Hao z univerzity Xinjiang v roce 2020 Průzkum o technologii odečítání rtů, „rozpoznávání akcí, které patří do klasifikace videa, lze klasifikovat pomocí jednoho obrázku.“ Takže „zatímco odezírání často potřebuje extrahovat rysy související s obsahem řeči z jednoho obrázku a analyzovat časový vztah mezi celou sekvencí obrázků, aby bylo možné odvodit obsah.“ Je to překážka, která vyžaduje jak zpracování přirozeného jazyka, tak schopnosti strojového vidění. překonat.

Zkratka polévka

Dnes se rozpoznávání řeči dodává ve třech variantách v závislosti na vstupním zdroji. To, o čem dnes mluvíme, spadá do výzkumu vizuálního rozpoznávání řeči (VSR) – to znamená použití pouze vizuálních prostředků k pochopení toho, co je sdělováno. Naopak, existuje Automatické rozpoznávání řeči (ASR), který se zcela spoléhá na zvuk, tj. „Hey Siri“ a Audio-vizuální automatické rozpoznávání řeči (AV-ASR), který do svých odhadů zahrnuje jak zvukové, tak vizuální podněty.

"Výzkum automatického rozpoznávání řeči (ASR) je extrémně vyspělý a současný stav techniky je k nerozeznání ve srovnání s tím, co bylo možné, když výzkum začal," řekl Campbell-West. "Vizuální rozpoznávání řeči (VSR) je stále v relativně raných fázích využívání a systémy budou nadále dospívat." Liopa aplikace SRAVI, která umožňuje nemocničním pacientům komunikovat bez ohledu na to, zda mohou aktivně verbalizovat, sází na posledně jmenovanou metodologii. "To může využít oba způsoby informací, aby pomohly překonat nedostatky toho druhého," řekl. "V budoucnu budou existovat systémy, které budou používat další vodítka k podpoře porozumění."

„Mezi implementacemi VSR je několik rozdílů,“ pokračoval Campbell-West. „Z technického hlediska je architektura toho, jak jsou modely sestavovány, odlišná... K problémům hlubokého učení lze přistupovat ze dvou různých úhlů. První hledá nejlepší možnou architekturu, druhá využívá velké množství dat k pokrytí co největší variace. Oba přístupy jsou důležité a lze je kombinovat.“

V počátcích výzkumu VSR byly datové sady jako AVLetters musely být ručně označeny a kategorizovány, což je pracné omezení, které výrazně omezuje množství dat dostupných pro trénovací modely strojového učení. Počáteční výzkum se proto nejprve soustředil na absolutní základy – identifikaci na úrovni abecedy a čísel – a nakonec postoupil k identifikaci na úrovni slov a frází, přičemž dnešní stav techniky, který se snaží porozumět lidské řeči, je na úrovni vět. v přirozenějších podmínkách a situacích.

V posledních letech vzestup pokročilejších technik hlubokého učení, které trénují modely v podstatě na internetu obecně, spolu s masivním rozšířením sociálních a vizuálních médií zveřejňovaných online, umožnil výzkumníkům vytvářet mnohem větší soubory dat, jako je např. Oxford-BBC Věty odezírání 2 (LRS2), který je založen na tisících mluvených řádků z různých programů BBC. LRS3-TED shromáždil 150,000 XNUMX vět z různých programů TED, zatímco databáze LSVSR (Large-Scale Visual Speech Recognition), jedna z největších v současné době, nabízí 140,000 XNUMX hodin audio segmentů s 2,934,899 127,000 XNUMX řečovými výroky a více než XNUMX XNUMX slovy.

A není to jen angličtina: Podobné datové sady existují pro řadu jazyků jako např HIT-AVDB-II, který je založen na souboru čínských básní nebo IV2, francouzské databázi složené z 300 lidí říkajících stejných 15 frází. Podobné sady existují i ​​pro ruské, španělské a české aplikace.

Pohled do budoucna

Budoucnost VSR by mohla vypadat podobně jako minulost ASR, říká Campbell-West, "Existuje mnoho překážek pro přijetí VSR, stejně jako u ASR během jeho vývoje v posledních několika desetiletích." Soukromí je samozřejmě důležité. Ačkoli mladší generace jsou méně inhibovány dokumentováním svých životů na internetu, Campbell-West řekl: „Lidé si nyní právem více uvědomují soukromí než předtím. Lidé mohou tolerovat mikrofon, zatímco netolerují kameru."

Bez ohledu na to zůstává Campbell-West nadšený potenciálními budoucími aplikacemi VSR, jako jsou vysoce přesné automatické titulky. „Předpokládám systém titulků v reálném čase, abyste mohli mít živé titulky ve svých brýlích, když s někým mluvíte,“ řekl Campbell-West. "Pro každého, kdo špatně slyší, to může být aplikace, která změní život, ale i pro obecné použití v hlučném prostředí to může být užitečné."

„Jsou okolnosti, kdy hluk velmi ztěžuje ASR, ale hlasové ovládání je výhodné, například v autě,“ pokračoval. "VSR by mohl pomoci těmto systémům stát se lepšími a bezpečnějšími pro řidiče a cestující."

Na druhou stranu, Lee, jehož laboratoř v UW rozsáhle zkoumala technologie Brain-Computer Interface, vidí nositelné textové displeje spíše jako „přerušovací“ opatření, dokud technologie BCI dále nedospěje. "Nechceme nutně prodávat BCI do té míry, že 'Dobře, budeme komunikovat mezi mozky a mozky, aniž bychom mluvili nahlas'," řekl Lee. "Zhruba za deset let určitě zjistíte, že biologické signály jsou využívány ve sluchadlech." Tak málo, jak [zařízení] vidí, kam se vaše oči dívají, může poskytnout vodítko, kam se zaměřit na poslech.“

"Vážím si opravdu říct 'ach ano, dostaneme mozkem ovládaná sluchadla," připustil Lee. "Myslím, že je to proveditelné, ale víš, bude to chvíli trvat."

Všechny produkty doporučené Engadget vybírá náš redakční tým, nezávislý na naší mateřské společnosti. Některé z našich příběhů obsahují přidružené odkazy. Pokud si něco koupíte prostřednictvím některého z těchto odkazů, můžeme získat provizi přidružené společnosti. Všechny ceny jsou správné v době zveřejnění.

Zdroj