AI jest już lepsze w czytaniu z ruchu warg niż my

Thej nie zestarzeje się, film dokumentalny z 2018 roku o życiu i aspiracjach brytyjskich i nowozelandzkich żołnierzy, którzy przeżyli I wojnę światową, od Władca Pierścieni reżyser Peter Jackson, zmodernizował swój ponad stuletni, niemy materiał filmowy, zarówno poprzez kolorowanie, jak i nagrywanie nowego dźwięku dla wcześniej nieistniejących dialogów. Aby zorientować się, co mówią ludzie z archiwalnego materiału filmowego, Jackson zatrudnił zespół kryminalistycznych czytelników warg, aby zgadywać ich nagrane wypowiedzi. Podobno, „czytelnicy z ust byli tak dokładni, że byli w stanie nawet określić dialekt i akcent osób mówiących”.

„Ci faceci nie żyli w czarno-białym, milczącym świecie, a ten film nie jest o wojnie; chodzi o doświadczenie żołnierza w czasie wojny” – powiedział Jackson Dzienny Strażnik w 2018 r. „Chciałem, aby publiczność zobaczyła jak najbliżej tego, co widzieli żołnierze i jak to widzieli i jak to słyszeli”.

To nie lada wyczyn językowy, biorąc pod uwagę, że badanie z 2009 r. wykazało, że większość ludzi potrafi czytać tylko z ruchu warg z dokładnością około 20 procent i CDC Ubytek słuchu u dzieci Przewodnik dla rodziców Szacuje, że „dobry czytelnik mowy może zobaczyć tylko 4 do 5 słów w 12-wyrazowym zdaniu”. Podobnie, badanie 2011 z University of Oklahoma dostrzegł tylko około 10 procent dokładności w swoich testowanych obiektach.

„Każda osoba, która osiągnęła CUNY wynik czytania z ust 30% poprawności jest uważane za wartość odstającą, co daje im wynik T prawie 80, trzykrotność odchylenia standardowego od średniej. Wynik dokładności rozpoznawania ruchu warg wynoszący 45% oznacza, że ​​indywidualne 5 odchyleń standardowych jest powyżej średniej” zakończenie badania z 2011 r.. „Wyniki te określają ilościowo nieodłączną trudność w rozpoznawaniu zdań tylko wizualnych”.

Dla ludzi czytanie z ruchu warg jest bardzo podobne do mrugnięcia w głównych ligach — konsekwentnie rób to dobrze, nawet trzy razy na dziesięć, a będziesz jednym z najlepszych, którzy kiedykolwiek zagrali w tę grę. W przypadku nowoczesnych systemów uczenia maszynowego czytanie z ruchu warg jest bardziej jak granie w Go — runda po rundzie bicia w worki, które cię stworzyły i zniewoliły — przy czym dzisiejsze najnowocześniejsze systemy osiągają dobre wyniki ponad 95 procent dokładności słów na poziomie zdania. A ponieważ nadal się poprawiają, moglibyśmy soon zobacz dzień, w którym zadania od przetwarzania niemego filmu i cichego dyktowania w miejscach publicznych po identyfikację biometryczną są obsługiwane przez systemy sztucznej inteligencji.

Kontekst ma znaczenie

Można by pomyśleć, że ludzie byliby lepsi w czytaniu z ruchu warg, biorąc pod uwagę, że oficjalnie praktykujemy tę technikę od czasów hiszpańskiego mnicha benedyktyńskiego, Pedro Ponce de León, któremu przypisuje się pionier tej idei na początku XVI wieku.

to jest posąg

Wikipedia / Domena publiczna

„Zazwyczaj myślimy o mowie jako o tym, co słyszymy, ale słyszalna część mowy jest tylko jej częścią” – dr Fabian Campbell-West, CTO dewelopera aplikacji do czytania z ruchu warg, Lopa, powiedział Engadget przez e-mail. „Jak to postrzegamy, mowę osoby można podzielić na jednostki wzrokowe i słuchowe. Wizualne jednostki, zwane visemami, są postrzegane jako ruchy warg. Jednostki słyszalne, zwane fonemami, są słyszane jako fale dźwiękowe”.

„Kiedy komunikujemy się ze sobą twarzą w twarz, często preferujemy, ponieważ jesteśmy wrażliwi zarówno na informacje wizualne, jak i słuchowe” – kontynuował. „Jednakże jest około trzy razy więcej fonemów niż visemów. Innymi słowy, same ruchy warg nie zawierają tylu informacji, co słyszalna część mowy”.

„Większość czynności czytania z ruchu warg, poza ustami, a czasami językiem i zębami, jest utajona i trudna do odróżnienia bez kontekstu” – zauważył ówczesny badacz z Oxford University i twórca LipNet, Yannis Assael. w 2016, powołując się na wcześniejsze badania Fishera. Te homofemy są sekretem Złe czytanie z ustsukces.

Dziwne jest to, że Bad Lip Reading ogólnie działa w każdym języku mówionym, czy to akcent tonowy jak angielski lub tonalny jak wietnamski. „Język robi różnicę, zwłaszcza te z unikalnymi dźwiękami, które nie są powszechne w innych językach” – powiedział Campbell-West. „Każdy język ma zasady składni i wymowy, które wpłyną na sposób jego interpretacji. Ogólnie rzecz biorąc, metody rozumienia są takie same”.

„Języki tonalne są interesujące, ponieważ używają tego samego słowa z innym tonem (takim jak tonacja muzyczna) w celu przekazania znaczenia” – kontynuował. „Intuicyjnie byłoby to wyzwaniem dla czytania z ruchu warg, jednak badania pokazują, że nadal można w ten sposób interpretować mowę. Jednym z powodów jest to, że zmiana tonu wymaga zmian fizjologicznych, które mogą objawiać się wizualnie. Czytanie z ust również odbywa się z biegiem czasu, więc kontekst poprzednich visemów, słów i zwrotów może pomóc w zrozumieniu”.

„Ważne jest, jak dobra jest Twoja znajomość języka, ponieważ zasadniczo ograniczasz zestaw niejasności, których możesz szukać”, Adrian KC Lee, ScD, Profesor i kierownik Katedry Nauk o Mowie i Słuchu, Nauki o Mowie i Słuchu na Uniwersytecie Waszyngtońskim, powiedział Engadget. „Powiedz „zimno; i „przytrzymaj”, prawda? Jeśli po prostu usiądziesz przed lustrem, nie dostrzeżesz różnicy. Więc z fizycznego punktu widzenia jest to niemożliwe, ale jeśli coś trzymam, a nie rozmawiam o pogodzie, z kontekstu już wiesz”.

Oprócz ogólnego kontekstu większego nawrócenia, wiele z tego, co ludzie przekazują, gdy mówią, pojawia się w sposób niewerbalny. „Porozumiewanie się jest zwykle łatwiejsze, gdy można zobaczyć daną osobę, a nie tylko ją usłyszeć”, powiedział Campbell-West, „ale niedawne rozpowszechnienie rozmów wideo pokazało nam wszystkim, że nie chodzi tylko o zobaczenie osoby, w której jest dużo więcej niuansów. Istnieje znacznie większy potencjał budowania inteligentnych zautomatyzowanych systemów do rozumienia komunikacji międzyludzkiej, niż jest to obecnie możliwe”.

Brakuje lasu dla drzew, językowo

Chociaż czytniki wargowe dla ludzi i maszyn mają ten sam ogólny cel końcowy, cele ich poszczególnych procesów znacznie się różnią. Jako zespół naukowców z Uniwersytet Nauki i Technologii w Iranie argumentował w 2021 r.: „W ciągu ostatnich lat zaproponowano kilka metod czytania z ruchu warg, ale istnieje istotna różnica między tymi metodami a metodami czytania z ruchu warg sugerowanymi w sztucznej inteligencji. Celem proponowanych metod czytania z ruchu warg przez maszynę jest zamiana informacji wizualnych na słowa… Jednak głównym celem czytania z ruchu warg przez ludzi jest zrozumienie znaczenia mowy, a nie rozumienie każdego pojedynczego słowa”.

Krótko mówiąc, „ludzie są na ogół leniwi i polegają na kontekście, ponieważ mamy dużo wcześniejszej wiedzy” – wyjaśnił Lee. I to właśnie ten dysonans w procesie — językowy odpowiednik braku lasu za drzewami — stanowi tak wyjątkowe wyzwanie dla celu, jakim jest automatyzacja czytania z ruchu warg.

„Główną przeszkodą w badaniu czytania z ruchu warg jest brak standardowej i praktycznej bazy danych” – powiedział Hao. „Rozmiar i jakość bazy danych determinują efekt treningowy tego modelu, a doskonała baza danych będzie również sprzyjać odkrywaniu i rozwiązywaniu coraz bardziej złożonych i trudnych problemów w zadaniach czytania z ruchu warg”. Inne przeszkody mogą obejmować czynniki środowiskowe, takie jak słabe oświetlenie i shifttła, które mogą mylić systemy widzenia maszynowego, podobnie jak odchylenia wynikające z odcienia skóry osoby mówiącej, kąta obrotu głowy (co shifts oglądany kąt ust) oraz zasłaniającą obecność zmarszczek i brody.

Jak zauważa Assael: „Czytanie maszynowe z ruchu warg jest trudne, ponieważ wymaga wyodrębnienia z filmu cech czasoprzestrzennych (ponieważ zarówno pozycja, jak i ruch są ważne).” Jednak, jak wyjaśnia Mingfeng Hao z Uniwersytetu Xinjiang w latach 2020 Ankieta dotycząca technologii czytania z ust, „rozpoznawanie akcji, które należy do klasyfikacji wideo, można sklasyfikować za pomocą jednego obrazu”. Tak więc „podczas gdy czytanie z ruchu warg często wymaga wyodrębnienia cech związanych z treścią mowy z pojedynczego obrazu i przeanalizowania relacji czasowych między całą sekwencją obrazów, aby wywnioskować treść”. Jest to przeszkoda, która wymaga zarówno przetwarzania języka naturalnego, jak i możliwości widzenia maszynowego przezwyciężyć.

Zupa Akronim

Obecnie rozpoznawanie mowy jest dostępne w trzech wersjach, w zależności od źródła wejściowego. To, o czym dzisiaj mówimy, wchodzi w zakres badań nad wizualnym rozpoznawaniem mowy (VSR) — to znaczy przy użyciu wyłącznie środków wizualnych, aby zrozumieć, co jest przekazywane. I odwrotnie, jest Automatyczne rozpoznawanie mowy (ASR), który opiera się całkowicie na dźwięku, tj. „Hej Siri” i Audiowizualne automatyczne rozpoznawanie mowy (AV-ASR), który uwzględnia w swoich domysłach sygnały dźwiękowe i wizualne.

„Badania nad automatycznym rozpoznawaniem mowy (ASR) są niezwykle dojrzałe, a obecny stan wiedzy jest nierozpoznawalny w porównaniu z tym, co było możliwe na początku badań” – powiedział Campbell-West. „Wizualne rozpoznawanie mowy (VSR) jest wciąż na stosunkowo wczesnym etapie eksploatacji, a systemy będą nadal dojrzewać”. Liopa Aplikacja SRAVI, który umożliwia pacjentom szpitalnym komunikację niezależnie od tego, czy potrafią aktywnie werbalizować, opiera się na tej drugiej metodologii. „Może to wykorzystywać oba tryby informacji, aby pomóc przezwyciężyć braki drugiego” – powiedział. „W przyszłości absolutnie będą systemy, które będą wykorzystywać dodatkowe wskazówki, aby wspierać zrozumienie”.

„Istnieje kilka różnic między wdrożeniami VSR” – kontynuował Campbell-West. „Z technicznego punktu widzenia architektura budowy modeli jest inna… Do problemów głębokiego uczenia się można podejść z dwóch różnych punktów widzenia. Pierwsza z nich to poszukiwanie najlepszej możliwej architektury, druga to wykorzystanie dużej ilości danych w celu pokrycia jak największej zmienności. Oba podejścia są ważne i można je łączyć”.

Na początku badań VSR zbiory danych takie jak AVListy musiały być ręcznie oznaczane i klasyfikowane, co było pracochłonnym ograniczeniem, które poważnie ograniczało ilość danych dostępnych do trenowania modeli uczenia maszynowego. W związku z tym wstępne badania koncentrowały się najpierw na absolutnych podstawach — identyfikacji na poziomie alfabetu i liczb — zanim ostatecznie przeszły do ​​identyfikacji na poziomie słów i fraz, przy czym poziom zdań jest dzisiejszym najnowocześniejszym rozwiązaniem, które stara się zrozumieć ludzką mowę w bardziej naturalnych warunkach i sytuacjach.

W ostatnich latach rozwój bardziej zaawansowanych technik głębokiego uczenia, które szkolą modele zasadniczo w Internecie, wraz z masową ekspansją mediów społecznościowych i wizualnych publikowanych online, umożliwiły naukowcom generowanie znacznie większych zbiorów danych, takich jak Oxford-BBC Zdania do czytania z ust 2 (LRS2), który opiera się na tysiącach wypowiedzianych linii z różnych programów BBC. LRS3-TED zebrał 150,000 XNUMX zdań z różnych programów TED, podczas gdy baza danych LSVSR (Large-Scale Visual Speech Recognition) jest jedną z największych obecnie istniejących ofert 140,000 XNUMX godzin segmentów audio z 2,934,899 127,000 XNUMX wypowiedziami i ponad XNUMX XNUMX słów.

I to nie tylko angielski: podobne zbiory danych istnieją dla wielu języków, takich jak HIT-AVDB-II, który jest oparty na zestawie chińskich wierszy, lub IV2, francuska baza danych składająca się z 300 osób wypowiadających te same 15 fraz. Podobne zestawy istnieją również dla aplikacji w języku rosyjskim, hiszpańskim i czeskim.

Patrząc w przyszłość

Przyszłość VSR może wyglądać bardzo podobnie do przeszłości ASR, mówi Campbell-West: „Istnieje wiele barier dla przyjęcia VSR, podobnie jak ASR podczas jego rozwoju w ciągu ostatnich kilku dekad”. Oczywiście prywatność jest bardzo ważna. Chociaż młodsze pokolenia są mniej skrępowane dokumentowaniem swojego życia w Internecie, Campbell-West powiedział: „ludzie są słusznie teraz bardziej świadomi prywatności niż byli wcześniej. Ludzie mogą tolerować mikrofon, a nie tolerować kamery”.

Niezależnie od tego, Campbell-West jest podekscytowany potencjalnymi przyszłymi zastosowaniami VSR, takimi jak automatyczne napisy o wysokiej wierności. „Wyobrażam sobie system napisów w czasie rzeczywistym, dzięki któremu można uzyskać napisy na żywo w okularach podczas rozmowy z kimś” – powiedział Campbell-West. „Dla każdego niedosłyszącego może to być aplikacja zmieniająca życie, ale nawet w przypadku ogólnego użytku w hałaśliwym otoczeniu może to być przydatne”.

„Są okoliczności, w których hałas bardzo utrudnia ASR, ale sterowanie głosowe jest korzystne, na przykład w samochodzie” – kontynuował. „VSR może pomóc tym systemom stać się lepszymi i bezpieczniejszymi dla kierowcy i pasażerów”.

Z drugiej strony Lee, którego laboratorium na UW intensywnie badało technologie interfejsu Brain-Computer, uważa, że ​​​​tekst do noszenia jest bardziej „prowizoryczny”, dopóki technologia BCI nie dojrzeje. „Niekoniecznie chcemy sprzedawać BCI do tego momentu, w którym: „Ok, będziemy prowadzić komunikację między mózgiem, nawet nie rozmawiając na głos” – powiedział Lee. „Za mniej więcej dekadę z pewnością zauważysz, że sygnały biologiczne są wykorzystywane w aparatach słuchowych. Wystarczy, że [urządzenie] zobaczy, gdzie patrzą twoje oczy, może dać mu wskazówkę, na czym skupić się na słuchaniu”.

„Waham się, czy naprawdę powiedzieć „o tak, dostaniemy aparaty słuchowe sterowane mózgiem” – przyznał Lee. „Myślę, że to wykonalne, ale wiesz, to zajmie trochę czasu”.

Wszystkie produkty polecane przez Engadget są wybierane przez naszą redakcję, niezależną od naszej macierzystej firmy. Niektóre z naszych historii zawierają linki afiliacyjne. Jeśli kupisz coś przez jeden z tych linków, możemy otrzymać prowizję partnerską. Wszystkie ceny są aktualne w momencie publikacji.

Źródło