ИИ уже лучше читает по губам, чем мы

Tэй не старею, документальный фильм 2018 года о жизни и стремлениях британских и новозеландских солдат, переживших Первую мировую войну, от известного Властелин колец Режиссер Питер Джексон модернизировал немые кадры более чем столетней давности за счет раскрашивания и записи нового звука для ранее не существовавших диалогов. Чтобы получить представление о том, что говорили люди, изображенные на архивных кадрах, Джексон нанял команду криминалистов для чтения по губам, чтобы они угадывали их записанные высказывания. по сообщениям, «читатели по губам были настолько точны, что даже могли определить диалект и акцент говорящих людей».

«Эти парни не жили в черно-белом немом мире, и этот фильм не о войне; речь идет об опыте солдат, сражающихся на войне», — сказал Джексон журналистам. Ежедневный страж в 2018 году. «Я хотел, чтобы зрители как можно ближе увидели, что видели солдаты, и как они это видели и слышали».

Это настоящий лингвистический подвиг, учитывая, что исследование 2009 года показало, что большинство людей могут читать только по губам. с точностью около 20 процентов и CDC Потеря слуха у детей Руководство для родителей оценивает, что «хороший читатель может увидеть только 4-5 слов в предложении из 12 слов». Сходным образом, исследование 2011 года, проведенное Университетом Оклахомы. увидел только около 10 процентов точности в своих испытуемых.

«Любой человек, добившийся Оценка CUNY по чтению по губам 30 процентов правильных ответов считаются выбросом, что дает им T-балл почти 80, в три раза превышающий стандартное отклонение от среднего. Показатель точности распознавания чтения по губам, составляющий 45%, соответствует среднему показателю на 5 стандартных отклонений». исследование 2011 года завершилось. «Эти результаты количественно определяют трудности, присущие распознаванию предложений только визуально».

Для людей чтение по губам во многом похоже на игру в Высшей лиге — постоянно выполняйте это правильно даже три раза из десяти, и вы станете одним из лучших, когда-либо игравших в эту игру. Для современных систем машинного обучения чтение по губам больше похоже на игру в го — просто раунд за раундом избиения мясных мешков, которые создали и поработили вас — с современными современными системами, достигающими хороших результатов. более 95 процентов точности слов на уровне предложения. И поскольку они продолжают улучшаться, мы могли бы soon увидеть день, когда задачи от обработки немого кино и безмолвной диктовки на публике до биометрической идентификации выполняются системами ИИ.

Контекст имеет значение

Можно было бы подумать, что к настоящему времени люди будут лучше читать по губам, учитывая, что мы официально практикуем эту технику со времен испанского бенедиктинского монаха Педро Понсе де Леона, которому приписывают новаторская идея в начале 16 века.

это статуя

Википедия / общественное достояние

«Обычно мы думаем о речи как о том, что слышим, но слышимая часть речи — это только ее часть», — д-р Фабиан Кэмпбелл-Уэст, технический директор разработчика приложения для чтения по губам, Лиопа, сообщил Engadget по электронной почте. «В нашем восприятии речь человека можно разделить на зрительную и слуховую единицы. Зрительные единицы, называемые виземами, воспринимаются как движения губ. Звуковые единицы, называемые фонемами, воспринимаются как звуковые волны».

«Когда мы общаемся друг с другом лицом к лицу, часто предпочтительнее, потому что мы чувствительны как к визуальной, так и к слуховой информации», — продолжил он. «Однако фонем примерно в три раза больше, чем визем. Другими словами, движения губ сами по себе не содержат столько информации, сколько слышимая часть речи».

«Большинство действий при чтении по губам, за исключением губ, а иногда и языка и зубов, латентны, и их трудно устранить без контекста», — отметил тогдашний исследователь из Оксфордского университета и разработчик LipNet Яннис Ассаэль. в 2016 году, ссылаясь на более ранние исследования Фишера. Эти гомофемы являются секретом Плохое чтение по губамУспех

Что дико, так это то, что Плохое чтение по губам обычно работает на любом разговорном языке, будь то тональный акцент как английский или тональный как вьетнамский. «Язык действительно имеет значение, особенно тот, у которого уникальные звуки, не встречающиеся в других языках», — сказал Кэмпбелл-Уэст. «У каждого языка есть правила синтаксиса и произношения, которые влияют на его интерпретацию. Вообще говоря, методы понимания одни и те же».

«Тональные языки интересны тем, что они используют одно и то же слово с разными тональными (например, музыкальными) изменениями для передачи смысла», — продолжил он. «Интуитивно это может представлять проблему для чтения по губам, однако исследования показывают, что таким образом все еще возможно интерпретировать речь. Частично причина в том, что изменение тона требует физиологических изменений, которые могут проявляться визуально. Чтение по губам также осуществляется с течением времени, поэтому контекст предыдущих визем, слов и фраз может помочь в понимании».

«Это важно с точки зрения того, насколько хорошо вы знаете язык, потому что вы в основном ограничиваете набор неоднозначностей, которые вы можете искать», — Адриан К.С. Ли, доктор наук, Профессор и заведующий кафедрой наук о речи и слухе, наук о речи и слухе Вашингтонского университета., — рассказал Engadget. «Скажи: «холодно; и «держать», верно? Если вы просто сидите перед зеркалом, вы не заметите разницы. Так что с физической точки зрения это невозможно, но если я что-то держу в руках, а не говорю о погоде, вы, по контексту, уже знаете».

В дополнение к общему контексту более широкой конверсии многое из того, что люди говорят, передается невербально. «Общение обычно упрощается, когда вы можете не только слышать человека, но и видеть его, — сказал Кэмпбелл-Уэст, — но недавнее распространение видеозвонков показало всем нам, что речь идет не только о том, чтобы видеть человека, есть гораздо больше нюансов. Существует гораздо больше возможностей для создания интеллектуальных автоматизированных систем для понимания человеческого общения, чем это возможно в настоящее время».

Не хватает леса за деревьями, лингвистически

В то время как люди и машины, читающие по губам, имеют одну и ту же конечную цель, цели их отдельных процессов сильно различаются. Как группа исследователей из Иранский университет науки и техники утверждал в 2021 году: «За последние годы человеку было предложено несколько методов чтения по губам, но между этими методами и методами чтения по губам, предложенными в ИИ, есть важное различие. Целью предлагаемых методов чтения по губам машиной является преобразование визуальной информации в слова... Однако основная цель чтения по губам людьми состоит в том, чтобы понимать смысл речи, а не понимать каждое отдельное слово речи».

Короче говоря, «люди, как правило, ленивы и полагаются на контекст, потому что у нас много предварительных знаний», — объяснил Ли. И именно этот диссонанс в процессе — лингвистический эквивалент того, что за деревьями не хватает леса — представляет такую ​​уникальную проблему для цели автоматизации чтения по губам.

«Основным препятствием в изучении чтения по губам является отсутствие стандартной и практичной базы данных», — сказал Хао. «Размер и качество базы данных определяют обучающий эффект этой модели, а идеальная база данных также будет способствовать обнаружению и решению все более сложных и трудных проблем в задачах чтения по губам». Другие препятствия могут включать факторы окружающей среды, такие как плохое освещение и shiftфон, который может сбить с толку системы машинного зрения, а также различия из-за тона кожи говорящего, угла поворота его головы (который shifts видимый угол рта) и маскирующие морщины и бороды.

Как отмечает Ассаэль, «машинное чтение по губам сложно, поскольку требует извлечения пространственно-временных характеристик из видео (поскольку важны и положение, и движение)». Однако, как объясняет Минфэн Хао из Синьцзянского университета в 2020-х гг. Обзор технологии чтения по губам, «распознавание действий, относящееся к классификации видео, можно классифицировать по одному изображению». Итак, «в то время как чтение по губам часто требует извлечения функций, связанных с речевым содержанием, из одного изображения и анализа временных отношений между всей последовательностью изображений, чтобы сделать вывод о содержании». Это препятствие, которое требует как обработки естественного языка, так и возможностей машинного зрения. преодолеть.

Акроним Суп

Сегодня распознавание речи существует в трех вариантах, в зависимости от источника ввода. То, о чем мы говорим сегодня, подпадает под исследование визуального распознавания речи (VSR), то есть использование только визуальных средств для понимания того, что передается. И наоборот, есть Автоматическое распознавание речи (ASR), который полностью зависит от звука, например «Привет, Siri» и Аудиовизуальное автоматическое распознавание речи (AV-ASR), который включает в свои догадки как звуковые, так и визуальные подсказки.

«Исследования в области автоматического распознавания речи (ASR) чрезвычайно зрелы, и нынешнее состояние техники неузнаваемо по сравнению с тем, что было возможно, когда исследование началось», — сказал Кэмпбелл-Уэст. «Визуальное распознавание речи (VSR) все еще находится на относительно ранних стадиях эксплуатации, и системы будут продолжать совершенствоваться». Лиопы Приложение СРАВИ, которая позволяет больным пациентам общаться независимо от того, могут ли они активно вербализировать, опирается на последнюю методологию. «Это может использовать оба режима информации, чтобы помочь преодолеть недостатки другого», — сказал он. «В будущем обязательно будут системы, которые используют дополнительные сигналы для поддержки понимания».

«Существует несколько различий между реализациями VSR, — продолжил Кэмпбелл-Уэст. «С технической точки зрения архитектура построения моделей отличается… К задачам глубокого обучения можно подходить с двух разных точек зрения. Первый ищет наилучшую возможную архитектуру, второй использует большой объем данных, чтобы охватить как можно больше вариантов. Оба подхода важны и могут быть объединены».

На заре исследований VSR такие наборы данных, как AVПисьма должны были быть помечены и классифицированы вручную, что является трудоемким ограничением, которое серьезно ограничивает объем данных, доступных для обучения моделей машинного обучения. Таким образом, первоначальные исследования были сосредоточены сначала на абсолютных основах — идентификации на уровне алфавита и чисел — прежде чем в конечном итоге перейти к идентификации на уровне слов и фраз, при этом уровень предложений является сегодняшним уровнем техники, который стремится понимать человеческую речь. в более естественных условиях и ситуациях.

В последние годы появление более продвинутых методов глубокого обучения, которые обучают модели в основном в Интернете в целом, наряду с массовым распространением социальных и визуальных медиа, размещенных в Интернете, позволило исследователям создавать гораздо большие наборы данных, такие как Oxford-BBC предложения для чтения по губам 2 (LRS2), который основан на тысячах разговорных строк из различных программ BBC. LRS3-TED собрал 150,000 XNUMX предложений из различных программ TED, в то время как база данных LSVSR (крупномасштабное визуальное распознавание речи), одна из крупнейших в настоящее время, предлагает 140,000 XNUMX часов аудиосегментов с 2,934,899 127,000 XNUMX речевыми высказываниями и более XNUMX XNUMX слов.

И это не только английский: аналогичные наборы данных существуют для ряда языков, таких как ХИТ-АВДБ-II, который основан на наборе китайских стихов или IV2, французской базе данных, состоящей из 300 человек, произносящих одни и те же 15 фраз. Аналогичные наборы существуют и для русских, испанских и чешских приложений.

Взгляд в будущее

Кэмпбелл-Уэст говорит, что будущее VSR может оказаться очень похожим на прошлое ASR: «Существует много препятствий для принятия VSR, как и для ASR во время его разработки в течение последних нескольких десятилетий». Конфиденциальность, конечно, важна. Кэмпбелл-Уэст отмечает, что, хотя молодое поколение менее стеснено документированием своей жизни в сети, «люди по праву больше осведомлены о конфиденциальности, чем раньше. Люди могут терпеть микрофон, но не терпеть камеру».

Тем не менее, Кэмпбелл-Уэст по-прежнему в восторге от потенциальных будущих приложений VSR, таких как высокоточные автоматические субтитры. «Я предполагаю систему субтитров в реальном времени, чтобы вы могли получать живые субтитры в своих очках, когда разговариваете с кем-то», — сказал Кэмпбелл-Уэст. «Для слабослышащих это приложение может изменить жизнь, но даже для общего использования в шумной среде это может быть полезно».

«Бывают ситуации, когда шум очень затрудняет ASR, но голосовое управление выгодно, например, в автомобиле», — продолжил он. «VSR может помочь этим системам стать лучше и безопаснее для водителя и пассажиров».

С другой стороны, Ли, чья лаборатория в UW тщательно исследовала технологии интерфейса мозг-компьютер, считает носимые текстовые дисплеи скорее временной мерой, пока технология BCI не станет более зрелой. «Мы не обязательно хотим продавать BCI до такой степени, что «Хорошо, мы собираемся осуществлять связь между мозгами, даже не разговаривая вслух», — сказал Ли. «Примерно через десять лет вы наверняка обнаружите, что биологические сигналы используются в слуховых аппаратах. Даже если [устройство] увидит, куда смотрят ваши глаза, оно сможет подсказать, на чем сосредоточить внимание при прослушивании».

«Я не решаюсь сказать: «О да, мы получим слуховые аппараты, управляемые мозгом», — признал Ли. «Я думаю, что это выполнимо, но вы знаете, это займет время».

Все продукты, рекомендованные Engadget, выбираются нашей редакционной группой независимо от нашей материнской компании. Некоторые из наших историй содержат партнерские ссылки. Если вы покупаете что-то по одной из этих ссылок, мы можем получить партнерскую комиссию. Все цены актуальны на момент публикации.

Источник