El 'Gato' de DeepMind es mediocre, entonces, ¿por qué lo construyeron?

ZDNet
De Mayo 14
Compartir post

La red neuronal "Gato" de DeepMind sobresale en numerosas tareas, incluido el control de brazos robóticos que apilan bloques, juegos de Atari 2600 y subtítulos de imágenes.

Mente profunda

El mundo está acostumbrado a ver titulares sobre el último avance de las formas de aprendizaje profundo de inteligencia artificial. Sin embargo, el último logro de la división DeepMind de Google podría resumirse como "un programa de IA que hace un trabajo regular en muchas cosas".

Gato, como se llama el programa de DeepMind, se dio a conocer esta semana como un llamado programa multimodal, uno que puede jugar videojuegos, chatear, escribir composiciones, subtitular imágenes y controlar un brazo robótico que apila bloques. Es una red neuronal que puede trabajar con múltiples tipos de datos para realizar múltiples tipos de tareas.

“Con un solo conjunto de pesas, Gato puede participar en diálogos, subtitular imágenes, apilar bloques con un brazo robótico real, superar a los humanos en los juegos de Atari, navegar en entornos simulados en 3D, seguir instrucciones y más”, escribe el autor principal Scott Reed. y colegas en su artículo, "Un agente generalista", publicado en el servidor de preimpresión Arxiv.

El cofundador de DeepMind, Demis Hassabis, animó al equipo, exclamando en un tweet, “¡¡Nuestro agente más general hasta ahora!! ¡Fantástico trabajo del equipo!”

También: Un nuevo experimento: ¿la IA realmente conoce gatos o perros, o algo así?

El único inconveniente es que Gato en realidad no es tan bueno en varias tareas.

Por un lado, el programa puede hacerlo mejor que un programa de aprendizaje automático dedicado para controlar un brazo robótico Sawyer que apila bloques. Por otro lado, produce subtítulos para imágenes que en muchos casos son bastante pobres. Su capacidad en el diálogo de chat estándar con un interlocutor humano es igualmente mediocre, a veces provocando expresiones contradictorias y sin sentido.

Y su reproducción de los videojuegos Atari 2600 está por debajo de la de la mayoría de los programas ML dedicados diseñados para competir en el punto de referencia. Entorno de aprendizaje arcade.

¿Por qué harías un programa que hace algunas cosas bastante bien y muchas otras no tan bien? Precedente y expectativa, según los autores.

Existe un precedente de tipos de programas más generales que se han convertido en el estado del arte de la IA, y existe la expectativa de que, en el futuro, las crecientes cantidades de potencia informática compensen las deficiencias.

La generalidad puede tender a triunfar en la IA. Como señalan los autores, citando al experto en inteligencia artificial Richard Sutton, "Históricamente, los modelos genéricos que son mejores para aprovechar la computación también han tendido a superar los enfoques más especializados de dominio específico con el tiempo".

Como escribió Sutton en su propia entrada de blog, "La lección más importante que se puede leer de 70 años de investigación en IA es que los métodos generales que aprovechan la computación son, en última instancia, los más efectivos y por un amplio margen".

Puesto en una tesis formal, Reed y su equipo escriben que “aquí probamos la hipótesis de que es posible entrenar a un agente que generalmente es capaz de realizar una gran cantidad de tareas; y que este agente general se puede adaptar con pocos datos adicionales para tener éxito en un número aún mayor de tareas”.

También: La luminaria de IA de Meta, LeCun, explora la frontera energética del aprendizaje profundo

El modelo, en este caso, es, en efecto, muy general. Es una versión del Transformer, el tipo dominante de modelo basado en la atención que se ha convertido en la base de numerosos programas, incluido GPT-3. Un transformador modela la probabilidad de algún elemento dado los elementos que lo rodean, como las palabras en una oración.

En el caso de Gato, los científicos de DeepMind pueden usar la misma búsqueda de probabilidad condicional en numerosos tipos de datos.

Como Reed y sus colegas describen la tarea de entrenar a Gato,

Durante la fase de entrenamiento de Gato, los datos de diferentes tareas y modalidades se serializan en una secuencia plana de tokens, se agrupan y procesan mediante una red neuronal transformadora similar a un gran modelo de lenguaje. La pérdida se enmascara para que Gato solo prediga objetivos de acción y texto.

Gato, en otras palabras, no trata los tokens de manera diferente, ya sean palabras en un chat o vectores de movimiento en un ejercicio de apilamiento de bloques. Todo es lo mismo.

Escenario de entrenamiento Gato.

Red et al. 2022

Enterrado dentro de la hipótesis de Reed y el equipo hay un corolario, a saber, que eventualmente ganará más y más poder de cómputo. En este momento, Gato está limitado por el tiempo de respuesta de un brazo robótico Sawyer que realiza el apilamiento de bloques. Con 1.18 millones de parámetros de red, Gato es mucho más pequeño que los modelos de IA muy grandes como GPT-3. A medida que los modelos de aprendizaje profundo se hacen más grandes, la inferencia conduce a una latencia que puede fallar en el mundo no determinista de un robot del mundo real.

Pero Reed y sus colegas esperan que ese límite se supere a medida que el hardware de IA se vuelve más rápido en el procesamiento.

“Enfocamos nuestra capacitación en el punto operativo de la escala del modelo que permite el control en tiempo real de los robots del mundo real, actualmente alrededor de 1.2 millones de parámetros en el caso de Gato”, escribieron. “A medida que mejoran las arquitecturas de hardware y modelo, este punto operativo aumentará naturalmente el tamaño factible del modelo, empujando a los modelos generalistas más arriba en la curva de la ley de escala”.

Por lo tanto, Gato es realmente un modelo de cómo la escala de cómputo seguirá siendo el vector principal del desarrollo del aprendizaje automático, al hacer que los modelos generales sean cada vez más grandes. Más grande es mejor, en otras palabras.

Gato mejora a medida que aumenta el tamaño de la red neuronal en los parámetros.

Red et al. 2022

Y los autores tienen alguna evidencia de esto. Gato parece mejorar a medida que crece. Comparan puntajes promedio en todas las tareas de referencia para tres tamaños de modelo según parámetros, 79 millones, 364 millones, y el modelo principal, 1.18 mil millones. “Podemos ver que para un recuento de tokens equivalente, hay una mejora significativa en el rendimiento con una mayor escala”, escriben los autores.

Una pregunta futura interesante es si un programa que es generalista es más peligroso que otros tipos de programas de IA. Los autores pasan mucho tiempo en el documento discutiendo el hecho de que existen peligros potenciales que aún no se comprenden bien.

La idea de un programa que maneja múltiples tareas sugiere al profano una especie de adaptabilidad humana, pero eso puede ser una percepción errónea peligrosa. “Por ejemplo, la encarnación física podría llevar a los usuarios a antropomorfizar al agente, lo que generaría una confianza fuera de lugar en el caso de un mal funcionamiento del sistema, o podría ser explotado por malos actores”, escriben Reed y su equipo.

"Además, si bien la transferencia de conocimiento entre dominios suele ser un objetivo en la investigación de ML, podría generar resultados inesperados y no deseados si ciertos comportamientos (por ejemplo, las peleas de juegos de arcade) se transfieren al contexto incorrecto".

Por lo tanto, escriben: "Las consideraciones de ética y seguridad de la transferencia de conocimientos pueden requerir nuevas investigaciones sustanciales a medida que avanzan los sistemas generalistas".

(Como nota al margen interesante, el artículo de Gato emplea un esquema para describir el riesgo ideado por la ex investigadora de IA de Google Margaret Michell y sus colegas, llamado Model Cards. Model Cards brinda un resumen conciso de qué es un programa de IA, qué hace y qué (Michell escribió el año pasado que se vio obligada a dejar Google por apoyar a su ex colega, Timnit Gebru, cuyas preocupaciones éticas sobre la IA entraron en conflicto con el liderazgo de Google en IA).

Gato no es de ninguna manera único en su tendencia generalizadora. Es parte de la amplia tendencia a la generalización y los modelos más grandes que usan grandes cantidades de caballos de fuerza. El mundo probó por primera vez la inclinación de Google en esta dirección el verano pasado, con la red neuronal "Perceptor" de Google que combinaba tareas de Transformador de texto con imágenes, sonido y coordenadas espaciales LiDAR.

También: Supermodelo de Google: DeepMind Perceiver es un paso en el camino hacia una máquina de IA que podría procesar cualquier cosa y todo

Entre sus pares se encuentra PaLM, Pathways Language Model, presentado este año por los científicos de Google, un modelo de 540 mil millones de parámetros que utiliza una nueva tecnología para coordinar miles de chips, conocido como caminos, también inventado en Google. Una red neuronal lanzada en enero por Meta, llamada "data2vec", utiliza transformadores para datos de imagen, formas de onda de audio de voz y representaciones de lenguaje de texto, todo en uno.

Lo nuevo de Gato, al parecer, es la intención de tomar la IA utilizada para tareas no robóticas y llevarla al ámbito de la robótica.

Los creadores de Gato, al observar los logros de Pathways y otros enfoques generalistas, ven el logro final en la IA que puede operar en el mundo real, con cualquier tipo de tarea.

“El trabajo futuro debería considerar cómo unificar estas capacidades de texto en un agente completamente generalista que también pueda actuar en tiempo real en el mundo real, en diversos entornos y realizaciones”.

Entonces, podría considerar a Gato como un paso importante en el camino para resolver el problema más difícil de la IA, la robótica.

Fuente

Publicación anterior

Publicación siguiente

El 'Gato' de DeepMind es mediocre, entonces, ¿por qué lo construyeron?

Software imprescindible en 2024

Categorías superiores

Últimas opiniones

El video teaser del Samsung Galaxy Z Flip 5, antes del evento Galaxy Unpacked, muestra un nuevo diseño de bisagra y opciones de color

Twitter está limitando la cantidad de DM que los usuarios no verificados pueden enviar

Mi teléfono Android favorito puede hacer cosas que mi iPhone 14 Pro Max no puede

ChatGPT para Android se lanzará la próxima semana y puede registrarse previamente ahora

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A con Google TV, altavoces de 20 W lanzados en India: Precio, especificaciones

Esta batería comestible podría impulsar el mundo del diagnóstico y la energía sostenible