OpenAI gastó $ 160,000 en Upwork para que los jugadores de Minecraft entrenen una red neuronal

crafting-diamond-pikaxe

Del video de VPT persiguiendo la fabricación de un pico de diamante en Minecraft. El programa de computadora logró la hazaña en diez minutos, la mitad del tiempo que le tomaría a un jugador humano competente hacerlo.

¿Qué tan importante podría ser dominar la "herramienta de diamante" en Minecraft?

Lo suficientemente importante como para gastar 160,000 dólares, según OpenAI, la startup de inteligencia artificial.

Esa es la cantidad de dinero que un equipo de OpenAI gastó para contratar jugadores de Minecraft en la plataforma de listados de trabajos en línea Upwork para enviar videos de ellos mismos jugando el juego. 

Amazon Prime Day 2022: Ofertas anticipadas

In un papel revelado esta semana, "Preentrenamiento de video (VPT): aprender a actuar viendo videos en línea sin etiquetar", los investigadores de OpenAI Bowen Baker y el equipo abren camino en el uso de grandes conjuntos de datos para entrenar una red neuronal para imitar las pulsaciones de teclas humanas para resolver diferentes tareas en el video juego. (Una entrada de blog también ha sido publicado por Open AI.) 

Una plétora de redes neuronales ha conquistado varios tipos de juegos a través de lo que se conoce como aprendizaje reforzado en los últimos años, incluido AlphaZero de DeepMind DeepMind, que asumió el ajedrez, Go y Shogi, y el subsiguiente muzero programa, que agregó la capacidad de manejar juegos de Atari. 

Baker y su equipo querían desarrollar una red neuronal para el entorno de juego de "mundo abierto" más complejo de Minecraft, donde una variedad de pulsaciones de teclas permite a los jugadores un grado de libertad mucho mayor que en los juegos de ajedrez o Atari. 

También: IA en sesenta segundos 

La literatura de investigación, escriben los autores, incluye una "gran cantidad" de trabajo en Minecraft. Pero el trabajo de VPT es único, escriben, por su alcance y escala: "Hasta donde sabemos, no hay ningún trabajo publicado que opere en el espacio completo de acción humana sin modificar, que incluye la gestión de inventario de arrastrar y soltar y elaboración de artículos”.

El trabajo de construcción de la red neuronal, denominada VPT, se llevó a cabo en dos etapas. La primera etapa necesitaba jugadores o contratistas de juegos humanos, que reunieron 4,500 horas de juego. Más tarde, los investigadores descubrieron que en realidad solo necesitaban unas 2,000 horas.

Baker y su equipo describen el proceso:

Tuvimos las solicitudes abiertas durante un día y luego seleccionamos al azar a 10 solicitantes para la primera ronda de contratistas. Más adelante en el proyecto, como necesitábamos más datos y algunos contratistas solicitaron rescindir sus contratos, agregamos más solicitantes del grupo original, así como referencias de los contratistas que trabajan actualmente. A los contratistas se les pagó $20 por hora (menos las tarifas de la plataforma Upwork y los impuestos aplicables). Todos los resultados presentados en este documento se basan en aproximadamente 4,500 horas de datos (incluidos los datos registrados para recopilar estadísticas del juego humano que no se utilizó para el entrenamiento), lo que nos costó alrededor de $90,000 160. En el transcurso del proyecto, recopilamos algunos datos que no usamos debido a errores en la grabadora y algunas ideas que finalmente no perseguimos. En total, gastamos alrededor de $4.6 en compensación de contratistas durante el transcurso del proyecto. Sin embargo, como discutimos en la Sec. 2000, probablemente podríamos obtener la mayoría de nuestros resultados con un IDM entrenado utilizando solo $ 8000 en datos, es decir, el modelo básico VPT, el ajuste fino de BC al conjunto de datos de palabras clave de juego temprano y los resultados de ajuste fino de RL. Recopilar el conjunto de datos de contract_house costó alrededor de $ 2000. Debido a que usamos el IDM capacitado en aproximadamente 40,000 horas de datos de contratistas, el costo real de los datos de contratistas para esos resultados fue de alrededor de $XNUMX.

Durante esas 4,500 horas, colocaron etiquetas en los fotogramas del video del juego para acciones como "inventario", para verificar la colección de objetos de un jugador, usando la tecla "E"; y "escabullirse", para moverse "con cuidado" en la dirección actual, usando el SHIFT llave. Esas acciones se registran como cadenas de texto JSON en cada momento del juego y se almacenan con los cuadros de video. 

Los cuadros de juego con sus acciones etiquetadas se usaron para entrenar una red neuronal llamada modelo de dinámica inversa, o IDM, que aprende qué acciones van con qué cuadros. El IDM es una combinación de varios tipos de redes neuronales, incluida una red neuronal convolucional 3D y una ResNet para analizar los cuadros de video, y varias redes de atención Transformer para predecir el siguiente cuadro de video. 

También: ¿Sensible? Google LaMDA se siente como un chatbot típico

Esa habilidad entrenada de IDM se usa luego en un conjunto mucho más grande de secuencias de video, un total de 70,000 horas de secuencias de Minecraft sin etiquetar recopiladas de la Web. El IDM aplica "pseudo-etiquetas" a esa colección mucho más grande. En otras palabras, el IDM y las tarifas del contratista son una forma de iniciar un gran conjunto de capacitación en video. 

openai-vpt-entrenamiento-2022

El régimen de entrenamiento para VPT.

OpenAI

Por costoso que parezca el pago del contratista, el enfoque representa un gran ahorro de costos, escriben los autores. Si tuvieran que recopilar datos de contratistas equivalentes a las 70,000 horas de videos web, sería mucho más costoso.

“Si pudiéramos recopilar de manera económica un conjunto de datos de contratistas etiquetados de un orden de magnitud similar a web_clean, entonces esto no sería importante; sin embargo, recopilar esa escala de datos habría costado millones de dólares”.

Utilizando las 70,000 horas, los autores entrenan una segunda red neuronal, también compuesta por capas de Transformer, para imitar las acciones de los usuarios en los videos, una práctica común conocida como "clonación de comportamiento".

El objetivo del trabajo es encontrar una manera de entrenar a un “agente” informático de propósito general que pueda usar la riqueza de los datos en Internet que no tienen etiquetas para resolver tareas que involucran causalidad, significado y secuencias de acciones que tienen un relación necesaria de uno a otro. 

“Los resultados presentados en este documento ayudan a allanar el camino para utilizar la gran cantidad de datos sin etiquetar en la web para dominios de decisión secuencial”, escriben. 

Es posible que el trabajo se pueda usar para numerosas tareas informáticas que requieren secuencias de clics del mouse y otros controles de operador humano, sugieren. 

“Si bien solo experimentamos en Minecraft, creemos que VPT proporciona una receta general para entrenar comportamientos previos en espacios de acción duros pero genéricos en cualquier dominio que tenga una gran cantidad de datos sin etiqueta disponibles de forma gratuita, como el uso de la computadora”.

Open-AI es mejor conocido por el gran programa de lenguaje llamado GPT-3, que también utiliza un enfoque "preentrenado" basado en toneladas de datos web que no están etiquetados. En cierto sentido, el juego de Minecraft está extendiendo ese enfoque a la imitación del comportamiento en el dominio de las tareas informáticas secuenciales capturadas a través de video. 

También: ¿Qué es GPT-3? Todo lo que su empresa necesita saber sobre el revolucionario programa de lenguaje de IA de OpenAI

El logro final es, en algunos casos, superar el tiempo requerido por un ser humano para lograr una de las tareas más difíciles, obtener un pico de diamante.

En Minecraft, las herramientas basadas en diamantes duran más y pueden causar más daño. Los picos de diamante son los únicos que son específicamente importantes para la mayoría de los jugadores. Necesitas un pico de diamante para extraer obsidiana y un material ficticio llamado netherite, los cuales son importantes para las actividades finales, como las mesas de encantamiento y la fabricación de equipos de netherite.

Después de entrenar al VPT para que aprendiera todo tipo de tareas de Minecraft, los autores utilizaron un enfoque de "ajuste fino" que desarrolló una red neuronal de aprendizaje por refuerzo para crear un pico de diamante en un tiempo más rápido de lo normal. 

“Para demostrar la eficacia del ajuste fino de RL, elegimos el desafiante objetivo de obtener un pico de diamante en 10 minutos a partir de un nuevo mundo de supervivencia de Minecraft”, escriben. 

Esto es un desafío para los humanos, que generalmente tardan el doble en hacerlo, si es que pueden hacerlo:

Hacerlo implica adquirir una secuencia de elementos difíciles de obtener que requieren habilidades complejas como minería, administración de inventario, elaboración con y sin mesa de trabajo, uso de herramientas, operación de un horno y minería en las profundidades más bajas, donde muchos peligros como enemigos. y lava existen (Fig. 6). Además de la dificultad, el progreso se puede perder fácilmente al dejar caer elementos, destruirlos o morir. La mayoría de las veces, obtener un pico de diamante le lleva a un humano experto más de 20 minutos (24,000 acciones).

Al reunir los datos del contratista y las 70,000 horas de video web sin etiquetar, los autores tuvieron en cuenta la posibilidad de contenido ofensivo. “En teoría, los contratistas podrían usar la propiedad de mundo abierto de Minecraft para generar información de identificación personal y/o contenido ofensivo (por ejemplo, al usar bloques de Minecraft para escribir su nombre o mensajes ofensivos y luego encontrar un lugar desde el cual el mensaje sería visible)”, dijeron. escribir, aunque no vieron esto en los videos de los contratistas que vieron los autores. 

“Por supuesto, entrenamos a nuestros modelos de BC [clonación de comportamiento] en videos de Internet de personas que juegan Minecraft, y si ese comportamiento está en esos videos, nuestro modelo también podría aprenderlo, aunque esperamos que tal comportamiento sea lo suficientemente raro como para que nuestro modelo no sería probable que lo reprodujera”, escriben. 

¿Adónde va ahora un agente general así? La idea es que, habiendo conquistado hachas de diamantes, VPT, o su descendencia, pueda hacer todo tipo de cosas que una persona podría hacer con un mouse y un teclado, como abuchear boletos, navegar por las redes sociales o navegar por mapas. 

Fuente