Нейронная сеть была обучена на 70,000 XNUMX часов различных игровых материалов, дополненных небольшим база данных видеороликов, в которых подрядчики выполняли определенные внутриигровые задачи, с клавиатура и мышь входы также записаны.
После тонкой настройки OpenAI обнаружил, что модель способна выполнять все виды сложных навыков, от плавания до охоты на животных и поедания их мяса. Он также усвоил «прыжок со столба», движение, при котором игрок кладет блок материала под себя в середине прыжка, чтобы набрать высоту.
Возможно, самым впечатляющим было то, что ИИ смог создавать алмазные инструменты (требующие последовательного выполнения длинной последовательности действий), что OpenAI назвал «беспрецедентным» достижением для компьютерного агента.
Прорыв ИИ?
Значение проекта Minecraft заключается в том, что он демонстрирует эффективность новой техники, используемой OpenAI для обучения моделей ИИ, которая называется Video PreTraining (VPT) и которая, по словам компании, может ускорить разработку «общих агентов, использующих компьютер».
Исторически сложилось так, что сложность использования необработанного видео в качестве источника для обучения моделей ИИ заключалась в том, что почему произошло достаточно просто для понимания, но не обязательно КАК . По сути, модель ИИ поглощала бы желаемые результаты, но не понимала бы входных комбинаций, необходимых для их достижения.
Однако с помощью VPT OpenAI объединяет большой набор видеоданных, взятых из общедоступных веб-источников, с тщательно отобранным набором видеоматериалов, помеченных соответствующими движениями клавиатуры и мыши, чтобы создать базовую модель.
Для точной настройки базовой модели команда затем подключает меньшие наборы данных, предназначенные для обучения конкретным задачам. В этом контексте OpenAI использовал кадры, на которых игроки выполняли действия в начале игры, такие как вырубка деревьев и создание столов для крафта, что, как говорят, привело к «значительному улучшению» надежности, с которой модель могла выполнять эти задачи.
Другой метод включает в себя «вознаграждение» модели ИИ за выполнение каждого шага в последовательности задач, практика, известная как обучение с подкреплением. Именно этот процесс позволил нейронной сети собрать все ингредиенты для алмазной кирки с вероятностью успеха на уровне человека.
«VPT прокладывает путь к тому, чтобы позволить агентам учиться действовать, просматривая огромное количество видео в Интернете. По сравнению с генеративным видеомоделированием или контрастными методами, которые дают только репрезентативные априорные данные, VPT предлагает захватывающую возможность прямого изучения крупномасштабных поведенческих априорных значений в большем количестве областей, чем просто язык», — объяснил OpenAI в своем исследовании. блоге (открывается в новой вкладке) .
«Хотя мы экспериментируем только с Minecraft, игра очень открытая, а собственный человеческий интерфейс (мышь и клавиатура) очень общий, поэтому мы считаем, что наши результаты служат хорошим предзнаменованием для других подобных областей, например, использования компьютера».
Чтобы стимулировать дальнейшие эксперименты в этой области, OpenAI сотрудничает с Конкурс MinerRL NeurIPS , передавая свои данные подрядчика и код модели участникам, пытающимся использовать ИИ для решения сложных задач Minecraft. Главный приз: 100,000 XNUMX долларов.