Especialistas da OpenAI treinaram uma rede neural para jogar Minecraft a um padrão igualmente alto como jogadores humanos.
A rede neural foi treinada em 70,000 horas de diversas imagens do jogo, complementadas com um pequeno banco de dados de vídeos em que contratados realizavam tarefas específicas no jogo, com o teclado e mouse entradas também registradas.
Após o ajuste fino, a OpenAI descobriu que o modelo era capaz de realizar todos os tipos de habilidades complexas, desde nadar até caçar animais e consumir sua carne. Ele também apreendeu o “salto de pilar”, um movimento pelo qual o jogador coloca um bloco de material abaixo de si no meio do salto para ganhar elevação.
Talvez o mais impressionante, a IA foi capaz de criar ferramentas de diamante (exigindo uma longa sequência de ações a serem executadas em sequência), o que a OpenAI descreveu como uma conquista “sem precedentes” para um agente de computador.
Um avanço da IA?
O significado do projeto Minecraft é que ele demonstra a eficácia de uma nova técnica implantada pela OpenAI no treinamento de modelos de IA – chamada Video PreTraining (VPT) – que a empresa diz que poderia acelerar o desenvolvimento de “agentes gerais de uso de computador”.
Historicamente, a dificuldade de usar vídeo bruto como fonte para treinar modelos de IA é que o que aconteceu é bastante simples de entender, mas não necessariamente como . Com efeito, o modelo de IA absorveria os resultados desejados, mas não compreenderia as combinações de entrada necessárias para alcançá-los.
Com o VPT, no entanto, o OpenAI combina um grande conjunto de dados de vídeo extraído de fontes públicas da Web com um conjunto cuidadosamente selecionado de imagens rotuladas com os movimentos relevantes do teclado e do mouse para estabelecer o modelo fundamental.
Para ajustar o modelo básico, a equipe então conecta conjuntos de dados menores projetados para ensinar tarefas específicas. Nesse contexto, a OpenAI usou imagens de jogadores realizando ações no início do jogo, como cortar árvores e construir mesas de trabalho, o que teria gerado uma “grande melhoria” na confiabilidade com que o modelo foi capaz de realizar essas tarefas.
Outra técnica envolve “recompensar” o modelo de IA por alcançar cada etapa em uma sequência de tarefas, uma prática conhecida como aprendizado por reforço. Esse processo foi o que permitiu que a rede neural coletasse todos os ingredientes para uma picareta de diamante com uma taxa de sucesso de nível humano.
“O VPT abre o caminho para permitir que os agentes aprendam a agir assistindo a um grande número de vídeos na internet. Em comparação com a modelagem de vídeo generativa ou métodos contrastivos que produziriam apenas prioris representacionais, o VPT oferece a emocionante possibilidade de aprender diretamente prioris comportamentais em larga escala em mais domínios do que apenas linguagem ”, explicou OpenAI em um no blog (abre em uma nova guia) .
“Embora apenas experimentemos no Minecraft, o jogo é muito aberto e a interface humana nativa (mouse e teclado) é muito genérica, então acreditamos que nossos resultados são bons para outros domínios semelhantes, por exemplo, uso do computador.”
Para incentivar mais experimentação no espaço, a OpenAI fez parceria com o Concurso MineRL NeurIPS , doando seus dados de contratados e código de modelo para concorrentes que tentam usar a IA para resolver tarefas complexas do Minecraft. O grande prêmio: $ 100,000.