'data2vec' de Meta es el siguiente paso hacia una red neuronal única para gobernarlos a todos

La carrera está en marcha para crear una red neuronal que pueda procesar múltiples tipos de datos, la noción de una inteligencia artificial más general que no discrimine sobre los tipos de datos, sino que pueda procesarlos todos dentro de la misma estructura básica.

El género de multimodalidad, como se llama a estas redes neuronales, está experimentando una gran actividad en la que diferentes datos, como imágenes, texto y audio de voz, se pasan a través del mismo algoritmo para producir una puntuación en diferentes pruebas, como reconocimiento de imágenes, comprensión del lenguaje natural o detección del habla.

Y estas redes ambidiestras están acumulando puntajes en las pruebas comparativas de IA. El último logro es lo que se llama 'data2vec', desarrollado por investigadores de la división de IA de Meta, matriz de Facebook, Instagram y WhatsApp. 

El punto, como escriben los científicos de Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu y Michael Auli, es acercarse a algo más parecido a la capacidad de aprendizaje general que la mente humana parece abarcar.

“Si bien las personas parecen aprender de manera similar, independientemente de cómo obtengan la información, ya sea usando la vista o el sonido, por ejemplo”, escriben los autores. en un blog, “actualmente hay grandes diferencias en la forma en que” las redes neuronales manejan diferentes tipos de datos como imágenes, voz, texto “y otras modalidades”.

"La idea central de este enfoque", declaran de data2vec, "es aprender de manera más general: la IA debería poder aprender a realizar muchas tareas diferentes, incluidas aquellas que son completamente desconocidas".

El CEO de Meta, Mark Zuckerberg, ofreció una cita sobre el trabajo, vinculándolo a un Metaverso futuro:

Avance emocionante: la investigación de Meta AI creó un sistema que aprende del habla, la visión y el texto sin necesidad de datos de entrenamiento etiquetados. Las personas experimentan el mundo a través de una combinación de vista, sonido y palabras, y sistemas como este algún día podrían entender el mundo de la manera en que lo hacemos nosotros. Eventualmente, todo esto se integrará en las gafas AR con un asistente de inteligencia artificial, por lo que, por ejemplo, podría ayudarlo a preparar la cena, notar si se olvida de un ingrediente, incitarlo a bajar el fuego o realizar tareas más complejas.

El nombre data2vec es un juego con el nombre de un programa para la "incrustación" de lenguaje desarrollado en Google en 2013 llamado "palabra2vec". Ese programa predijo cómo se agrupan las palabras, por lo que word2vec es representativo de una red neuronal diseñada para un tipo específico de datos, en ese caso texto. 

También: Abre las puertas de la bahía de cápsulas, por favor, HAL: la IA de Meta simula la lectura de labios

Sin embargo, en el caso de data2vec, Baevski y sus colegas están tomando una versión estándar de lo que se llama un Transformador, desarrollado por Ashish Vaswani y sus colegas. en Google en 2017 y extenderlo para ser utilizado para múltiples tipos de datos. 

La red neuronal Transformer se desarrolló originalmente para tareas de lenguaje, pero desde entonces se ha adaptado ampliamente para muchos tipos de datos. Baevski et al. muestran que el Transformador se puede usar para procesar múltiples tipos de datos sin ser alterados, y la red neuronal entrenada que resulta puede realizar múltiples tareas diferentes. 

En el documento formal, “data2vec: un marco general para el aprendizaje autosupervisado del habla, la visión y el lenguaje”, Baevski et al., entrenan el transformador para datos de imagen, formas de onda de audio de voz y representaciones de lenguaje de texto. 

Data2vec es "el primer algoritmo autosupervisado de alto rendimiento que funciona para múltiples modalidades, a saber, voz, visión y texto", escriben Baevski y su equipo en la publicación del blog.

El Transformador muy general se convierte en lo que se llama un entrenamiento previo que luego se puede aplicar a redes neuronales específicas para realizar tareas específicas. Por ejemplo, los autores usan data2vec como entrenamiento previo para equipar lo que se llama "ViT", el "transformador de visión", una red neuronal diseñada específicamente para tareas de visión que fue presentado el año pasado por Alexey Dosovitskiy y colegas en Google. 

meta-2022-data2vec-puntajes-en-vit-test.jpg

Meta muestra los puntajes más altos para la venerable competencia de reconocimiento de imágenes ImageNet.


Meta 2022

Cuando se utilizan en ViT para tratar de resolver la prueba estándar de reconocimiento de imágenes de ImageNet, sus resultados son los mejores, con una precisión del 84.1 %, mejor que la puntuación del 83.2 % recibida por un equipo de Microsoft que entrenó previamente ViT, dirigido por Hangbo Bao, el año pasado.

Y los mismos resultados de salida del transformador data2vec que son de última generación para el reconocimiento de voz y que son competitivos, si no los mejores, para el aprendizaje del lenguaje natural:

Los resultados experimentales muestran que data2vec es efectivo en las tres modalidades, estableciendo un nuevo estado del arte para ViT-B y ViT-L en ImageNet-1K, mejorando el mejor trabajo anterior en procesamiento de voz en reconocimiento de voz y funcionando a la par de RoBERTa en el punto de referencia de comprensión del lenguaje natural GLUE. 

El quid es que esto está sucediendo sin ninguna modificación de la red neuronal para que se trate de imágenes, y lo mismo para el habla y el texto. En cambio, cada tipo de entrada ingresa a la misma red y completa la misma tarea muy general. Esa tarea es la misma tarea que siempre usan las redes Transformer, conocida como "predicción enmascarada". 

También: Supermodelo de Google: DeepMind Perceiver es un paso en el camino hacia una máquina de IA que podría procesar cualquier cosa y todo

Sin embargo, la forma en que data2vec realiza la predicción enmascarada es un enfoque que se conoce como aprendizaje "autosupervisado". En un entorno autosupervisado, una red neuronal se entrena o desarrolla al tener que pasar por múltiples etapas. 

Primero, la red construye una representación de la probabilidad conjunta de entrada de datos, ya sean imágenes, voz o texto. Luego, una segunda versión de la red tiene algunos de esos elementos de datos de entrada "enmascarados", que no se revelan. Tiene que reconstruir la probabilidad conjunta que había construido la primera versión de la red, lo que lo obliga a crear cada vez mejores representaciones de los datos esencialmente llenando los espacios en blanco. 

meta-2022-data2vec-red-arquitectura.jpg

Una descripción general del enfoque data2vec.


Meta 2022

Las dos redes, la que tiene el patrón completo de la probabilidad conjunta y la que tiene la versión incompleta que está tratando de completar, se denominan, con bastante sensatez, "Profesor" y "Estudiante". La red del Estudiante trata de desarrollar su sentido de los datos, por así decirlo, reconstruyendo lo que el Profesor ya había logrado.

solicite ver el código de los modelos en Github.

¿Cómo está funcionando la red neuronal Profesor y Estudiante para tres tipos de datos muy diferentes? La clave es que el "objetivo" de la probabilidad conjunta, en los tres casos de datos, no es un tipo de datos de salida específico, como es el caso en las versiones de Transformer para un tipo de datos específico, como BERT de Google o GPT-3 de OpenAI. . 

Más bien, data2vec está agarrando un montón de capas de redes neuronales que son dentro la red neuronal, en algún lugar en el medio, que representa los datos antes de que se produzcan como salida final. 

Como escriben los autores, "una de las principales diferencias de nuestro método [...] además de realizar una predicción enmascarada, es el uso de objetivos que se basan en el promedio de múltiples capas de la red de profesores". Específicamente, "hacemos una regresión de múltiples representaciones de capas de redes neuronales en lugar de solo la capa superior", de modo que "data2vec predice las representaciones latentes de los datos de entrada".

Agregan: "Generalmente usamos la salida de la FFN [red de avance] antes de la última conexión residual en cada bloque como objetivo", donde un "bloque" es el equivalente de Transformador de una capa de red neuronal.

El punto es que cada tipo de datos que ingresa se convierte en el mismo desafío para la red del Estudiante de reconstruir algo dentro de la red neuronal que el Profesor había compuesto.

Este promedio es diferente de otros enfoques recientes para construir una red para analizar todos los datos. Por ejemplo, el verano pasado, la unidad DeepMind de Google ofreció lo que llama "Perceptor", su propia versión multimodal del Transformador. El entrenamiento de la red neuronal de Perceiver es el proceso más estándar de producir una salida que es la respuesta a una tarea supervisada y etiquetada como ImageNet. En el enfoque autosupervisado, data2vec no usa esas etiquetas, solo intenta reconstruir la representación interna de los datos en la red. 

Esfuerzos aún más ambiciosos yacen en las alas. Jeff Dean, jefe de los esfuerzos de inteligencia artificial de Google, en octubre se burló de "Pathways", lo que Dean afirma que es un "arquitectura de inteligencia artificial de próxima generación” para el procesamiento de datos multimodal.

Eso sí, el enfoque muy general de data2vec para una sola red neuronal para múltiples modalidades todavía tiene mucha información sobre los diferentes tipos de datos. La imagen, el habla y el texto se preparan mediante el preprocesamiento de los datos. De esa manera, el aspecto multimodal de la red todavía se basa en pistas sobre los datos, a lo que el equipo se refiere como "pequeños codificadores de entrada específicos de modalidad".

También: Google presenta 'Pathways', una IA de próxima generación que se puede entrenar para realizar múltiples tareas

“A pesar del régimen de aprendizaje unificado, todavía usamos estrategias de enmascaramiento y extractores de características específicas de la modalidad”, explican.

Por lo tanto, todavía no estamos en un mundo donde se entrena una red neuronal sin sentido alguno de los tipos de datos de entrada. Tampoco estamos en un momento en el que la red neuronal pueda construir una representación que combine todos los diferentes tipos de datos, de modo que la red neuronal esté aprendiendo cosas en combinación.

Ese hecho se aclara a partir de un intercambio entre ZDNet y los autores. ZDNet Se acercó a Baevski y al equipo y les preguntó: "¿Las representaciones latentes que sirven como objetivos son una codificación combinada de las tres modalidades en un paso de tiempo dado, o por lo general son solo una de las modalidades?"

Baevski y su equipo responden que es el último caso, y su reply Es interesante citar extensamente:

Las variables latentes no son una codificación combinada para las tres modalidades. Entrenamos modelos separados para cada modalidad pero el proceso a través del cual los modelos aprenden es idéntico. Esta es la principal innovación de nuestro proyecto ya que antes había grandes diferencias en cómo se entrenan los modelos en las distintas modalidades. Los neurocientíficos también creen que los humanos aprenden de manera similar sobre los sonidos y el mundo visual. Nuestro proyecto muestra que el aprendizaje autosupervisado también puede funcionar de la misma manera para diferentes modalidades.

Dadas las limitaciones específicas de la modalidad de data2vec, una red neuronal que realmente podría ser Una red para gobernarlos a todos sigue siendo la tecnología del futuro.

Fuente