Expertos de OpenAI han entrenado una red neuronal para jugar Minecraft a un nivel igualmente alto que los jugadores humanos.
La red neuronal se entrenó con 70,000 XNUMX horas de diversas imágenes del juego, complementadas con una pequeña base de datos de videos en los que los contratistas realizan tareas específicas en el juego, con la teclado y ratón entradas también registradas.
Después de un ajuste fino, OpenAI descubrió que el modelo podía realizar todo tipo de habilidades complejas, desde nadar hasta cazar animales y consumir su carne. También captó el "salto del pilar", un movimiento en el que el jugador coloca un bloque de material debajo de sí mismo en medio del salto para ganar altura.
Quizás lo más impresionante es que la IA pudo crear herramientas de diamante (que requerían una larga serie de acciones para ejecutarse en secuencia), lo que OpenAI describió como un logro "sin precedentes" para un agente informático.
¿Un avance de la IA?
La importancia del proyecto Minecraft es que demuestra la eficacia de una nueva técnica implementada por OpenAI en el entrenamiento de modelos de IA, llamada Video PreTraining (VPT), que según la compañía podría acelerar el desarrollo de "agentes generales de uso de computadoras".
Históricamente, la dificultad de usar video sin procesar como fuente para entrenar modelos de IA ha sido que qué ha sucedido es bastante simple de entender, pero no necesariamente cómo . En efecto, el modelo de IA absorbería los resultados deseados, pero no comprendería las combinaciones de entrada necesarias para alcanzarlos.
Sin embargo, con VPT, OpenAI combina un gran conjunto de datos de video extraído de fuentes web públicas con un grupo de imágenes cuidadosamente seleccionadas etiquetadas con los movimientos relevantes del teclado y el mouse para establecer el modelo fundamental.
Para afinar el modelo base, el equipo luego conecta conjuntos de datos más pequeños diseñados para enseñar tareas específicas. En este contexto, OpenAI usó imágenes de jugadores que realizaban acciones tempranas del juego, como talar árboles y construir mesas de trabajo, lo que se dice que produjo una "gran mejora" en la confiabilidad con la que el modelo pudo realizar estas tareas.
Otra técnica implica "recompensar" al modelo de IA por lograr cada paso en una secuencia de tareas, una práctica conocida como aprendizaje por refuerzo. Este proceso es lo que permitió a la red neuronal recolectar todos los ingredientes para un pico de diamante con una tasa de éxito a nivel humano.
“VPT allana el camino para permitir que los agentes aprendan a actuar viendo la gran cantidad de videos en Internet. En comparación con el modelado de video generativo o los métodos contrastivos que solo producirían antecedentes representacionales, VPT ofrece la emocionante posibilidad de aprender directamente antecedentes conductuales a gran escala en más dominios que solo el lenguaje”, explicó OpenAI en un del blog (se abre en una pestaña nueva) .
“Si bien solo experimentamos en Minecraft, el juego es muy abierto y la interfaz humana nativa (mouse y teclado) es muy genérica, por lo que creemos que nuestros resultados son un buen augurio para otros dominios similares, por ejemplo, el uso de computadoras”.
Para incentivar una mayor experimentación en el espacio, OpenAI se ha asociado con el Concurso MineRL NeurIPS , donando sus datos de contratista y código de modelo a los concursantes que intentan usar IA para resolver tareas complejas de Minecraft. El gran premio: $100,000.