La IA ya es mejor leyendo los labios que nosotros

They no envejecerá, un documental de 2018 sobre las vidas y aspiraciones de los soldados británicos y neozelandeses que vivieron la Primera Guerra Mundial del aclamado El Señor de los Anillos El director Peter Jackson, modernizó su metraje mudo de más de cien años mediante la coloración y la grabación de un nuevo audio para diálogos que antes no existían. Para tener una idea de lo que decían las personas que aparecían en las imágenes de archivo, Jackson contrató a un equipo de lectores forenses de labios para estimar sus declaraciones grabadas. Según se informa, “los lectores de labios eran tan precisos que incluso podían determinar el dialecto y el acento de las personas que hablaban”.

“Estos tipos no vivían en un mundo silencioso en blanco y negro, y esta película no trata sobre la guerra; se trata de la experiencia del soldado peleando la guerra”, dijo Jackson al Centinela diaria en 2018. “Quería que la audiencia viera, lo más cerca posible, lo que vieron los soldados, y cómo lo vieron y escucharon”.

Esa es toda una hazaña lingüística dado que un estudio de 2009 encontró que la mayoría de las personas solo pueden leer los labios. con alrededor del 20 por ciento de precisión y los CDC Guía para padres sobre pérdida auditiva en niños estima que, "un buen lector de voz podría ser capaz de ver solo 4 o 5 palabras en una oración de 12 palabras". Similarmente, un estudio de 2011 de la Universidad de Oklahoma vio solo alrededor del 10 por ciento de precisión en sus sujetos de prueba.

“Cualquier individuo que haya logrado un Puntaje de lectura de labios CUNY del 30 por ciento correcto se considera un valor atípico, lo que les otorga una puntuación T de casi 80 tres veces la desviación estándar de la media. Un puntaje de precisión de reconocimiento de lectura de labios del 45 por ciento correcto coloca a un individuo 5 desviaciones estándar por encima de la media. el estudio de 2011 concluyó. "Estos resultados cuantifican la dificultad inherente en el reconocimiento de oraciones solo visual".

Para los humanos, leer los labios es muy parecido a batear en las Grandes Ligas: hazlo bien de manera consistente, incluso solo tres veces de cada diez, y estarás entre los mejores en jugar el juego. Para los sistemas modernos de aprendizaje automático, la lectura de labios es más como jugar Go, solo ronda tras ronda de golpear los sacos de carne que te crearon y esclavizaron, con los sistemas de vanguardia de hoy en día logrando buenos resultados. más del 95 por ciento de precisión de palabras a nivel de oración. Y a medida que continúan mejorando, podríamos soon vea un día en el que las tareas, desde el procesamiento de películas mudas y el dictado silencioso en público hasta la identificación biométrica, sean manejadas por sistemas de IA.

El contexto importa

Ahora, uno pensaría que los humanos serían mejores leyendo los labios dado que hemos estado practicando oficialmente la técnica desde los días del monje benedictino español, Pedro Ponce de León, a quien se le atribuye pionera en la idea a principios del siglo XVI.

es una estatua — Wikipedia / dominio público

"Por lo general, pensamos en el habla como lo que escuchamos, pero la parte audible del habla es solo una parte", Dr. Fabian Campbell-West, CTO del desarrollador de la aplicación de lectura de labios, liopa, le dijo a Engadget por correo electrónico. “Tal como lo percibimos, el habla de una persona se puede dividir en unidades visuales y auditivas. Las unidades visuales, llamadas visemas, se ven como movimientos de los labios. Las unidades audibles, llamadas fonemas, se escuchan como ondas de sonido”.

“Cuando nos comunicamos cara a cara, a menudo se prefiere porque somos sensibles a la información tanto visual como auditiva”, continuó. “Sin embargo, hay aproximadamente tres veces más fonemas que visemas. En otras palabras, los movimientos de los labios por sí solos no contienen tanta información como la parte audible del discurso”.

"La mayoría de las actuaciones de lectura de labios, además de los labios y, a veces, la lengua y los dientes, están latentes y son difíciles de desambiguar sin contexto", señaló el entonces investigador de la Universidad de Oxford y desarrollador de LipNet, Yannis Assael. en 2016, citando estudios anteriores de Fisher. Estas homofemas son el secreto de Mala lectura de labiosEl éxito de

Lo sorprendente es que Bad Lip Reading generalmente funcionará en cualquier idioma hablado, ya sea acento de tono como ingles o tonal como vietnamita. “El idioma sí marca la diferencia, especialmente aquellos con sonidos únicos que no son comunes en otros idiomas”, dijo Campbell-West. “Cada idioma tiene reglas de sintaxis y pronunciación que afectarán la forma en que se interpreta. En términos generales, los métodos de comprensión son los mismos”.

“Los lenguajes tonales son interesantes porque usan la misma palabra con diferentes cambios de tono (como el tono musical) para transmitir significado”, continuó. “Intuitivamente, esto representaría un desafío para la lectura de labios, sin embargo, la investigación muestra que todavía es posible interpretar el habla de esta manera. Parte de la razón es que cambiar el tono requiere cambios fisiológicos que pueden manifestarse visualmente. La lectura de labios también se realiza con el tiempo, por lo que el contexto de visemas, palabras y frases anteriores puede ayudar a comprender”.

“Importa en términos de qué tan bueno es su conocimiento del idioma porque básicamente está limitando el conjunto de ambigüedades que puede buscar”, Adrian KC Lee, ScD, Profesor y presidente del Departamento de Ciencias del Habla y la Audición, Ciencias del Habla y la Audición en la Universidad de Washington, le dijo a Engadget. “Di, 'frío; y 'espera', ¿verdad? Si simplemente te sientas frente a un espejo, realmente no puedes notar la diferencia. Entonces, desde un punto de vista físico, es imposible, pero si estoy sosteniendo algo en lugar de hablar sobre el clima, tú, por el contexto, ya lo sabes”.

Además del contexto general de la conversión más amplia, mucho de lo que las personas transmiten cuando hablan se transmite de manera no verbal. “La comunicación suele ser más fácil cuando puedes ver a la persona además de escucharla”, dijo Campbell-West, “pero la reciente proliferación de videollamadas nos ha demostrado que no se trata solo de ver a la persona, hay muchos más matices. Hay mucho más potencial para construir sistemas automatizados inteligentes para comprender la comunicación humana de lo que es posible actualmente”.

Falta un bosque para los árboles, lingüísticamente

Si bien los lectores de labios humanos y automáticos tienen el mismo objetivo final general, los objetivos de sus procesos individuales difieren mucho. como un equipo de investigadores de Universidad de Ciencia y Tecnología de Irán argumentó en 2021: “En los últimos años, se han propuesto varios métodos para que una persona lea los labios, pero existe una diferencia importante entre estos métodos y los métodos de lectura de labios sugeridos en AI. El propósito de los métodos propuestos para la lectura de labios por parte de la máquina es convertir la información visual en palabras… Sin embargo, el propósito principal de la lectura de labios por parte de los humanos es comprender el significado del habla y no entender cada palabra del habla”.

En resumen, "los humanos generalmente somos perezosos y dependemos del contexto porque tenemos mucho conocimiento previo", explicó Lee. Y es esa disonancia en proceso, el equivalente lingüístico de perder un bosque por los árboles, lo que presenta un desafío tan único para el objetivo de automatizar la lectura de labios.

“Un obstáculo importante en el estudio de la lectura de labios es la falta de una base de datos estándar y práctica”, dijo Hao. “El tamaño y la calidad de la base de datos determinan el efecto de entrenamiento de este modelo, y una base de datos perfecta también promoverá el descubrimiento y la solución de problemas cada vez más complejos y difíciles en las tareas de lectura de labios”. Otros obstáculos pueden incluir factores ambientales como mala iluminación y shifting fondos que pueden confundir los sistemas de visión artificial, al igual que las variaciones debidas al tono de piel del orador, el ángulo de rotación de su cabeza (que shifts el ángulo de visión de la boca) y la oscurecedora presencia de arrugas y barbas.

Como señala Assael, "la lectura de labios mecánica es difícil porque requiere extraer características espaciotemporales del video (ya que tanto la posición como el movimiento son importantes)". Sin embargo, como explica Mingfeng Hao de la Universidad de Xinjiang en 2020 Una encuesta sobre la tecnología de lectura de labios, “el reconocimiento de acciones, que pertenece a la clasificación de videos, se puede clasificar a través de una sola imagen”. Entonces, "mientras que la lectura de labios a menudo necesita extraer las características relacionadas con el contenido del habla de una sola imagen y analizar la relación de tiempo entre toda la secuencia de imágenes para inferir el contenido". Es un obstáculo que requiere tanto el procesamiento del lenguaje natural como las capacidades de visión artificial. para superar.

Sopa de siglas

Hoy en día, el reconocimiento de voz viene en tres sabores, dependiendo de la fuente de entrada. De lo que estamos hablando hoy se enmarca en la investigación del reconocimiento visual del habla (VSR), es decir, usar solo medios visuales para comprender lo que se transmite. Por el contrario, hay Reconocimiento de voz automatizado (ASR) que se basa completamente en audio, es decir, "Oye, Siri", y Reconocimiento de voz automatizado audiovisual (AV-ASR), que incorpora señales de audio y visuales en sus conjeturas.

“La investigación sobre el reconocimiento automático de voz (ASR) es extremadamente madura y el estado actual de la técnica es irreconocible en comparación con lo que era posible cuando comenzó la investigación”, dijo Campbell-West. “El reconocimiento de voz visual (VSR) aún se encuentra en las etapas relativamente tempranas de explotación y los sistemas continuarán madurando”. de Liopa Aplicación SRAVI, que permite a los pacientes del hospital comunicarse independientemente de si pueden verbalizar activamente, se basa en la última metodología. “Esto puede usar ambos modos de información para ayudar a superar las deficiencias del otro”, dijo. “En el futuro habrá absolutamente sistemas que utilicen señales adicionales para apoyar la comprensión”.

“Hay varias diferencias entre las implementaciones de VSR”, continuó Campbell-West. “Desde una perspectiva técnica, la arquitectura de cómo se construyen los modelos es diferente… Los problemas de aprendizaje profundo se pueden abordar desde dos ángulos diferentes. El primero busca la mejor arquitectura posible, el segundo utiliza una gran cantidad de datos para cubrir la mayor variación posible. Ambos enfoques son importantes y se pueden combinar”.

En los primeros días de la investigación VSR, conjuntos de datos como AVCartas tuvo que ser etiquetado y categorizado a mano, una limitación laboriosa que restringió severamente la cantidad de datos disponibles para entrenar modelos de aprendizaje automático. Como tal, la investigación inicial se centró primero en los conceptos básicos absolutos (identificación a nivel de número y alfabeto) antes de avanzar finalmente a la identificación a nivel de palabra y frase, siendo el nivel de oración el estado del arte actual que busca comprender el habla humana. en escenarios y situaciones más naturales.

En los últimos años, el surgimiento de técnicas de aprendizaje profundo más avanzadas, que entrenan modelos esencialmente en Internet en general, junto con la expansión masiva de los medios sociales y visuales publicados en línea, han permitido a los investigadores generar conjuntos de datos mucho más grandes, como el Oraciones de lectura de labios Oxford-BBC 2 (LRS2), que se basa en miles de líneas habladas de varios programas de la BBC. LRS3-TED obtuvo 150,000 XNUMX oraciones de varios programas TED, mientras que la base de datos LSVSR (Large-Scale Visual Speech Recognition), una de las más grandes que existen actualmente, ofrece 140,000 horas de segmentos de audio con 2,934,899 declaraciones de voz y más de 127,000 palabras.

Y no es solo inglés: existen conjuntos de datos similares para varios idiomas, como HIT-AVDB-II, que se basa en un conjunto de poemas chinos, o IV2, una base de datos en francés compuesta por 300 personas que dicen las mismas 15 frases. También existen conjuntos similares para aplicaciones en ruso, español y checo.

Mirando hacia el futuro

El futuro de VSR podría terminar pareciéndose mucho al pasado de ASR, dice Campbell-West, "Hay muchas barreras para la adopción de VSR, como las hubo para ASR durante su desarrollo en las últimas décadas". La privacidad es importante, por supuesto. Aunque las generaciones más jóvenes se sienten menos inhibidas a la hora de documentar sus vidas en línea, dijo Campbell-West, “la gente es, con razón, más consciente de la privacidad ahora que antes. Las personas pueden tolerar un micrófono pero no tolerar una cámara”.

Independientemente, Campbell-West sigue entusiasmado con las posibles aplicaciones futuras de VSR, como los subtítulos automatizados de alta fidelidad. “Preveo un sistema de subtítulos en tiempo real para que pueda obtener subtítulos en vivo en sus anteojos cuando hable con alguien”, dijo Campbell-West. “Para cualquier persona con dificultades auditivas, esta podría ser una aplicación que le cambie la vida, pero incluso para uso general en entornos ruidosos, podría ser útil”.

“Hay circunstancias en las que el ruido hace que ASR sea muy difícil, pero el control por voz es ventajoso, como en un automóvil”, continuó. “VSR podría ayudar a que estos sistemas sean mejores y más seguros para el conductor y los pasajeros”.

Por otro lado, Lee, cuyo laboratorio en la UW ha investigado extensamente las tecnologías de interfaz cerebro-computadora, considera que las pantallas de texto portátiles son más una medida provisional hasta que la tecnología BCI madure aún más. “No necesariamente queremos vender BCI hasta ese punto en el que, 'Está bien, vamos a tener una comunicación de cerebro a cerebro sin siquiera hablar en voz alta'”, dijo Lee. “Dentro de una década más o menos, seguramente encontrará que las señales biológicas se aprovechan en los audífonos. Tan solo [el dispositivo] viendo hacia dónde miran sus ojos puede darle una pista sobre dónde enfocar la escucha”.

“Dudo en decir realmente 'oh, sí, vamos a obtener audífonos controlados por el cerebro”, admitió Lee. “Creo que es factible, pero ya sabes, llevará tiempo”.

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a través de uno de estos enlaces, podemos ganar una comisión de afiliado. Todos los precios son correctos en el momento de la publicación.

Fuente

Publicación anterior

Publicación siguiente

La IA ya es mejor leyendo los labios que nosotros

Falta un bosque para los árboles, lingüísticamente

Software imprescindible en 2024

Categorías superiores

Últimas opiniones

El video teaser del Samsung Galaxy Z Flip 5, antes del evento Galaxy Unpacked, muestra un nuevo diseño de bisagra y opciones de color

Twitter está limitando la cantidad de DM que los usuarios no verificados pueden enviar

Mi teléfono Android favorito puede hacer cosas que mi iPhone 14 Pro Max no puede

ChatGPT para Android se lanzará la próxima semana y puede registrarse previamente ahora

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A con Google TV, altavoces de 20 W lanzados en India: Precio, especificaciones

Esta batería comestible podría impulsar el mundo del diagnóstico y la energía sostenible