AI вече е по-добър в четенето по устните от нас

Tхей няма да остарее, документален филм от 2018 г. за живота и стремежите на британските и новозеландските войници, преживели Първата световна война от известния Властелинът на пръстените режисьорът Питър Джаксън е модернизирал безшумните си кадри на повече от сто години чрез оцветяване и запис на нов звук за несъществуващ преди това диалог. За да добие представа какво казват хората, представени в архивните кадри, Джаксън нае екип от съдебни четци по устни, за да предположат техните записани изказвания. Според сведенията, „четците по устните бяха толкова точни, че дори успяха да определят диалекта и акцента на хората, които говорят.“

„Тези типове не са живели в черно-бял, мълчалив свят и този филм не е за войната; става дума за опита на войника във войната,” каза Джаксън на Daily Sentinel през 2018 г. „Исках публиката да види възможно най-отблизо какво са видели войниците и как са го видели и чули.“

Това е доста лингвистично постижение, като се има предвид, че проучване от 2009 г. установи, че повечето хора могат да четат само по устните с около 20 процента точност и CDC Загуба на слуха при деца Ръководство за родители изчислява, че „добрият четец на реч може да види само 4 до 5 думи в изречение от 12 думи“. По същия начин, проучване от 2011 г. на Университета на Оклахома видя само около 10 процента точност при своите тестови субекти.

„Всеки индивид, който е постигнал a Резултат за четене по устните на CUNY от 30 процента правилни се счита за отклонение, което им дава T-резултат от почти 80 три пъти стандартното отклонение от средната стойност. Резултатът за точност на разпознаване при четене по устните от 45 процента правилен поставя индивида с 5 стандартни отклонения над средната стойност,” заключава проучването от 2011 г. „Тези резултати определят количествено присъщата трудност при разпознаването само на визуални изречения.“

За хората четенето по устни е много като удар в големите лиги - последователно го правете правилно дори само три пъти от десет и ще бъдете сред най-добрите, които някога са играли играта. За съвременните системи за машинно обучение, четенето по устни е по-скоро като игра на Go - просто кръг след кръг от побой върху торбите с месо, които са ви създали и поробили - с днешните най-съвременни системи, които постигат добри резултати над 95 процента точност на думите на ниво изречение. И тъй като те продължават да се подобряват, ние бихме могли soon вижте ден, в който задачи от обработка на нями филми и тихо диктовка на обществени места до биометрична идентификация се обработват от AI системи.

Контекстът има значение

Човек би си помислил, че хората вече биха били по-добри в четенето по устните, като се има предвид, че официално практикуваме техниката от дните на испанския бенедиктински монах Педро Понсе де Леон, на когото се приписва пионер на идеята в началото на 16 век.

това е статуя

Уикипедия / обществено достояние

„Обикновено мислим за речта като за това, което чуваме, но чуваемата част от речта е само част от нея,“ д-р Фабиан Кембъл-Уест, технически директор на разработчика на приложения за четене по устни, Лиопа, каза Engadget по имейл. „Както я възприемаме, речта на човек може да бъде разделена на зрителни и слухови единици. Визуалните единици, наречени висеми, се виждат като движения на устните. Звуковите единици, наречени фонеми, се чуват като звукови вълни.

„Когато общуваме помежду си лице в лице, често се предпочита, защото сме чувствителни както към визуална, така и към звукова информация“, продължи той. „Има обаче приблизително три пъти повече фонеми от виземите. С други думи, движенията на устните сами по себе си не съдържат толкова информация, колкото звуковата част на речта.

„Повечето задействания при четене на устните, освен устните и понякога езика и зъбите, са латентни и трудни за разграничаване без контекст“, отбеляза тогавашният изследовател от Оксфордския университет и разработчик на LipNet, Янис Асаел в 2016, цитирайки по-ранни проучвания на Фишър. Тези хомофеми са тайната на Лошо четене на устниуспех на.

Странното е, че лошото четене на устните обикновено работи на всеки говорим език, независимо дали е такъв височина-акцент като английски или тонален като виетнамски. „Езикът наистина има значение, особено тези с уникални звуци, които не са често срещани в други езици“, каза Кембъл-Уест. „Всеки език има правила за синтаксис и произношение, които ще повлияят на начина, по който се тълкува. Най-общо казано, методите за разбиране са едни и същи.

„Тоналните езици са интересни, защото използват една и съща дума с различни промени в тона (като музикална височина), за да предадат значение“, продължи той. „Интуитивно това би представлявало предизвикателство за четене по устните, но изследванията показват, че все още е възможно да се интерпретира речта по този начин. Част от причината е, че промяната на тона изисква физиологични промени, които могат да се проявят визуално. Четенето по устните също се извършва с течение на времето, така че контекстът на предишни виземи, думи и фрази може да помогне с разбирането.“

„Има значение от гледна точка на това колко добри са вашите познания по езика, защото вие основно ограничавате набора от неясноти, които можете да търсите,“ Adrian KC Lee, ScD, Професор и председател на катедрата по говорни и слухови науки, говорни и слухови науки във Вашингтонския университет, каза Engadget. „Кажете „студено; и "задръж", нали? Ако просто седите пред огледалото, не можете да правите разлика. Така че от физическа гледна точка е невъзможно, но ако държа нещо срещу това да говоря за времето, вие, според контекста, вече знаете.

В допълнение към общия контекст на по-голямото преобразуване, голяма част от това, което хората предават, когато говорят, се среща невербално. „Общуването обикновено е по-лесно, когато можете да видите човека, както и да го чуете“, каза Кембъл-Уест, „но скорошното разпространение на видео разговори ни показа на всички, че не става дума само за това да видите човека, има много повече нюанси. Има много повече потенциал за изграждане на интелигентни автоматизирани системи за разбиране на човешката комуникация от това, което е възможно в момента.“

Липсва гора за дърветата, лингвистично

Докато човешките и машинните четци по устни имат една и съща обща крайна цел, целите на техните отделни процеси се различават значително. Като екип от изследователи от Ирански университет за наука и технологии аргументира през 2021 г., „През последните години бяха предложени няколко метода за четене по устните на човек, но има важна разлика между тези методи и методите за четене по устните, предложени в AI. Целта на предложените методи за четене по устните от машината е да преобразуват визуалната информация в думи... Основната цел на четенето по устните от хората обаче е да разберат значението на речта, а не да разберат всяка една дума от речта.“

Накратко, „хората обикновено са мързеливи и разчитат на контекста, защото имаме много предварителни знания“, обясни Лий. И именно този дисонанс в процеса – езиковият еквивалент на липсата на гора вместо дърветата – представлява такова уникално предизвикателство пред целта за автоматизиране на четенето по устните.

„Основна пречка в изследването на четенето по устните е липсата на стандартна и практична база данни“, каза Хао. „Размерът и качеството на базата данни определят тренировъчния ефект на този модел, а перфектната база данни също ще насърчи откриването и решаването на все по-сложни и трудни проблеми при задачите за четене на устни.“ Други пречки могат да включват фактори на околната среда като лошо осветление и shiftфонове, които могат да объркат системите за машинно зрение, както и разлики, дължащи се на тена на кожата на говорещия, ъгъла на въртене на главата му (който shifts наблюдавания ъгъл на устата) и скритото присъствие на бръчки и бради.

Както отбелязва Assael, „Машинното четене на устни е трудно, защото изисква извличане на пространствено-времеви характеристики от видеото (тъй като и позицията, и движението са важни).“ Въпреки това, както Mingfeng Hao от университета в Синдзян обяснява през 2020 г Проучване на технологията за четене по устните, „разпознаването на действие, което принадлежи към видео класификацията, може да бъде класифицирано чрез едно изображение.“ Така че, „докато четенето по устните често трябва да извлече характеристиките, свързани със съдържанието на речта, от едно изображение и да анализира времевата връзка между цялата последователност от изображения, за да направи извод за съдържанието.“ Това е пречка, която изисква както обработка на естествен език, така и възможности за машинно зрение да се преодолеят.

Акроним Супа

Днес разпознаването на реч се предлага в три варианта в зависимост от входния източник. Това, за което говорим днес, попада в изследванията за визуално разпознаване на реч (VSR) — тоест използване само на визуални средства за разбиране на това, което се предава. Обратно, има Автоматично разпознаване на реч (ASR), който разчита изцяло на аудио, т.е. „Hey Siri“ и Аудио-визуално автоматизирано разпознаване на реч (AV-ASR), който включва както аудио, така и визуални знаци в своите предположения.

„Изследването на автоматичното разпознаване на реч (ASR) е изключително зряло и текущото състояние на техниката е неразпознаваемо в сравнение с това, което беше възможно, когато изследването започна“, каза Кембъл-Уест. „Визуалното разпознаване на реч (VSR) все още е в сравнително ранен етап на експлоатация и системите ще продължат да се развиват.“ на Лиопа Приложение SRAVI, което позволява на болничните пациенти да общуват независимо дали могат активно да вербализират, разчита на последната методология. „Това може да използва и двата вида информация, за да помогне за преодоляване на недостатъците на другия“, каза той. „В бъдеще определено ще има системи, които използват допълнителни сигнали за подпомагане на разбирането.“

„Има няколко разлики между реализациите на VSR“, продължи Кембъл-Уест. „От техническа гледна точка архитектурата на начина, по който са изградени моделите, е различна... Към проблемите на дълбокото обучение може да се подходи от два различни ъгъла. Първият търси възможно най-добрата архитектура, вторият използва голямо количество данни, за да покрие възможно най-много вариации. И двата подхода са важни и могат да се комбинират.”

В ранните дни на изследването на VSR набори от данни като AVLetters трябваше да бъдат ръчно етикетирани и категоризирани, трудоемко ограничение, което силно ограничаваше количеството налични данни за обучение на модели за машинно обучение. Като такива, първоначалните изследвания се фокусираха първо върху абсолютните основи — азбука и идентификация на ниво цифри — преди в крайна сметка да преминат към идентификация на ниво дума и фраза, като нивото на изречение е днешното състояние на изкуството, което се стреми да разбере човешката реч в по-естествени условия и ситуации.

През последните години възходът на по-напредналите техники за задълбочено обучение, които обучават модели по същество в интернет като цяло, заедно с масовото разширяване на социалните и визуални медии, публикувани онлайн, позволиха на изследователите да генерират много по-големи набори от данни, като Oxford-BBC Четене на изречения по устни 2 (LRS2), който се основава на хиляди устни реплики от различни програми на BBC. LRS3-TED събра 150,000 XNUMX изречения от различни програми на TED, докато базата данни LSVSR (Large-Scale Visual Speech Recognition) е сред най-големите съществуващи в момента предложения 140,000 XNUMX часа аудио сегменти с 2,934,899 127,000 XNUMX речеви израза и над XNUMX XNUMX думи.

И това не е само английски: Подобни набори от данни съществуват за редица езици, като напр HIT-AVDB-II, който се основава на набор от китайски стихотворения или IV2, френска база данни, съставена от 300 души, казващи едни и същи 15 фрази. Подобни комплекти съществуват и за приложения на руски, испански и чешки език.

Поглед напред

Бъдещето на VSR може да изглежда много подобно на миналото на ASR, казва Кембъл-Уест, „Има много бариери пред приемането на VSR, както имаше за ASR по време на неговото развитие през последните няколко десетилетия.“ Поверителността е голяма, разбира се. Въпреки че по-младите поколения са по-малко възпрепятствани да документират живота си онлайн, каза Кембъл-Уест, „хората с право са по-наясно с неприкосновеността на личния живот сега, отколкото преди. Хората може да толерират микрофон, но да не толерират камера.

Независимо от това, Campbell-West остава развълнуван от потенциалните бъдещи приложения на VSR, като висококачествени автоматизирани надписи. „Предвиждам система за субтитри в реално време, така че да можете да получавате субтитри на живо в очилата си, когато говорите с някого“, каза Кембъл-Уест. „За всеки с увреден слух това може да бъде приложение, променящо живота, но дори и за обща употреба в шумна среда това може да бъде полезно.“

„Има обстоятелства, при които шумът прави ASR много труден, но гласовият контрол е от предимство, като например в кола“, продължи той. „VSR може да помогне на тези системи да станат по-добри и по-безопасни за водача и пътниците.“

От друга страна, Лий, чиято лаборатория в UW е проучвала широко технологиите за интерфейс мозък-компютър, вижда носимите текстови дисплеи по-скоро като „временна“ мярка, докато BCI технологията не узрее. „Не искаме непременно да продаваме BCI до този момент, когато „Добре, ще осъществяваме комуникация между мозъка, без дори да говорим на глас“, каза Лий. „След около десетилетие със сигурност ще откриете, че биологичните сигнали се използват в слуховите апарати. Толкова малко, че [устройството] вижда накъде гледат очите ви, може да е в състояние да му даде представа къде да фокусира слушането.“

„Колебя се да кажа наистина „о, да, ще получим слухови апарати, контролирани от мозъка“, призна Лий. „Мисля, че е изпълнимо, но знаете, че ще отнеме време.“

Всички продукти, препоръчани от Engadget, са избрани от нашия редакционен екип, независимо от нашата компания майка. Някои от нашите истории включват партньорски връзки. Ако купите нещо чрез една от тези връзки, може да спечелим партньорска комисионна. Всички цени са верни към момента на публикуване.

източник