OpenAI потратила 160,000 XNUMX долларов на Upwork для геймеров Minecraft для обучения нейронной сети

алмазная кирка

Из видео VPT, занимающегося изготовлением алмазной кирки в Minecraft. Компьютерная программа совершила подвиг за десять минут, вдвое меньше времени, которое потребовалось бы опытному игроку-человеку.

Насколько важно освоить «алмазный инструмент» в Minecraft?

Достаточно важно, чтобы потратить 160,000 XNUMX долларов, по данным OpenAI, стартапа искусственного интеллекта.

Это сумма денег, которую команда OpenAI потратила на то, чтобы нанять игроков Minecraft на платформе онлайн-списков вакансий Upwork для публикации видео о том, как они играют в игру. 

Amazon Prime Day 2022: ранние предложения

In документ обнародован на этой неделе, «Предварительное обучение видео (VPT): учимся действовать, просматривая немаркированные онлайн-видео», исследователи OpenAI Боуэн Бейкер и его команда открыли новые возможности в использовании больших наборов данных для обучения нейронной сети имитировать нажатия клавиш человеком для решения различных задач в видео. игра. (Пост в блоге также был опубликован от OpenAI.) 

В последние годы множество нейронных сетей покорили различные типы игр с помощью так называемого обучения с подкреплением, в том числе DeepMind AlphaZero от DeepMind, которая взяла верх над шахматами, го и сёги, а затем МуЗеро программа, которая добавила возможность обрабатывать игры Atari. 

Бейкер и его команда хотели разработать нейронную сеть для более сложной игровой среды «открытого мира» Minecraft, где набор нажатий клавиш дает игрокам гораздо большую степень свободы, чем в шахматах или играх Atari. 

А также: ИИ за шестьдесят секунд 

Исследовательская литература, пишут авторы, включает «огромное количество» работ по Minecraft. Но работа VPT уникальна, пишут они, по своему охвату и масштабу: «Насколько нам известно, нет ни одной опубликованной работы, которая работала бы в полном, немодифицированном пространстве действий человека, включая управление запасами с помощью перетаскивания и создание предметов».

Работа по построению нейронной сети, получившей название VPT, проходила в два этапа. На первом этапе требовались игроки-люди или подрядчики, которые собрали 4,500 часов игрового процесса. Позже исследователи выяснили, что на самом деле им требовалось всего около 2,000 часов.

Бейкер и команда описывают процесс:

Мы держали заявки открытыми в течение дня, а затем случайным образом отобрали 10 претендентов для первого раунда подрядчиков. Позже в проекте, когда нам понадобилось больше данных и некоторые подрядчики попросили расторгнуть свои контракты, мы добавили больше кандидатов из исходного пула, а также рекомендации от работающих в настоящее время подрядчиков. Подрядчикам платили 20 долларов в час (за вычетом платы за платформу Upwork и применимых налогов). Все результаты, представленные в этой статье, основаны на примерно 4,500 часах данных (включая данные, записанные для сбора статистики человеческих игр, которые не использовались для обучения), что обошлось нам примерно в 90,000 160 долларов. В ходе проекта мы собрали некоторые данные, которые не использовали из-за ошибок в регистраторе, а также некоторые идеи, которые мы в конечном итоге не реализовали. В общей сложности мы потратили около 4.6 тысяч долларов на компенсацию подрядчику в ходе проекта. Однако, как мы обсуждаем в гл. 2000, мы, вероятно, могли бы получить большинство наших результатов с IDM, обученным с использованием данных стоимостью всего 8000 долларов, то есть базовой модели VPT, точной настройки BC на наборе данных Earlygame_keyword и результатов точной настройки RL. Сбор набора данных contract_house стоил около 2000 долларов. Поскольку мы использовали IDM, обученный примерно 40,000 часов данных о подрядчиках, фактическая стоимость данных о подрядчиках для этих результатов составила около XNUMX XNUMX долларов США.

В течение этих 4,500 часов они прикрепляли к кадрам игрового видео метки для таких действий, как «инвентаризация», проверка коллекции объектов игрока с помощью клавиши «E»; и «подкрасться», чтобы двигаться «осторожно» в текущем направлении, используя SHIFT ключ. Эти действия записываются в виде текстовых строк JSON в каждый момент игры и сохраняются вместе с видеокадрами. 

Кадры игрового процесса с их помеченными действиями использовались для обучения нейронной сети, называемой моделью обратной динамики, или IDM, которая изучает, какие действия происходят с какими кадрами. IDM представляет собой смесь нескольких типов нейронных сетей, в том числе трехмерной сверточной нейронной сети и ResNet для анализа видеокадров, а также нескольких сетей внимания Transformer для прогнозирования следующего видеокадра. 

А также: Разумный? Google LaMDA выглядит как обычный чат-бот

Эта обученная способность IDM затем используется на гораздо большем наборе видеоматериалов, в общей сложности 70,000 XNUMX часов немаркированных видеоматериалов Minecraft, собранных из Интернета. IDM применяет «псевдо-метки» к этой значительно большей коллекции. Другими словами, IDM и гонорары подрядчиков — это способ загрузить огромный набор обучающих видео. 

openai-vpt-обучение-2022

Режим тренировок для ВПТ.

OpenAI

Авторы пишут, что каким бы дорогим ни казался платеж подрядчику, этот подход обеспечивает большую экономию средств. Если бы им пришлось собирать данные о подрядчиках, эквивалентные 70,000 XNUMX часов веб-видео, это было бы намного дороже.

«Если бы мы могли дешево собрать набор данных помеченных подрядчиков того же порядка, что и web_clean, то это не было бы важно; однако сбор такого масштаба данных стоил бы миллионы долларов».

Затем, используя 70,000 XNUMX часов, авторы обучают вторую нейронную сеть, также состоящую из слоев Transformer, имитировать действия пользователя в видео — обычная практика, известная как «поведенческое клонирование».

Цель работы состоит в том, чтобы найти способ обучить компьютерного «агента» общего назначения, который может использовать огромное количество данных в Интернете, не имеющих меток, для решения задач, связанных с причинно-следственной связью, смыслом и последовательностью действий, которые имеют смысл. необходимые отношения от одного к другому. 

«Результаты, представленные в этой статье, помогают проложить путь к использованию множества неразмеченных данных в Интернете для последовательных областей принятия решений», — пишут они. 

По их мнению, работа может быть использована для многочисленных компьютерных задач, требующих последовательности щелчков мышью и других действий оператора. 

«Хотя мы только экспериментируем с Minecraft, мы считаем, что VPT предоставляет общий рецепт для обучения поведенческим априорным ситуациям в жестких, но общих пространствах действий в любой области, которая имеет большое количество свободно доступных немаркированных данных, таких как использование компьютера».

Open-AI наиболее известен своей большой языковой программой под названием GPT-3, в которой также используется «предварительно обученный» подход, основанный на множестве непомеченных веб-данных. В некотором смысле игра Minecraft расширяет этот подход к подражанию поведению в области последовательных компьютерных задач, снятых с помощью видео. 

Также: Что такое GPT-3? Все, что нужно знать вашему бизнесу о революционной языковой программе OpenAI для искусственного интеллекта

Окончательное достижение состоит в том, чтобы в некоторых случаях превысить время, необходимое человеку для выполнения одной из самых сложных задач - получения алмазной кирки.

В Minecraft алмазные инструменты служат дольше и могут нанести больше урона. Алмазные кирки — единственные, которые особенно важны для большинства геймеров. Вам понадобится алмазная кирка, чтобы добывать обсидиан, и вымышленный материал, называемый незеритом, оба из которых важны для эндгеймовых действий, таких как зачаровывание столов и изготовление снаряжения из незерита.

После обучения VPT для изучения всех видов задач Minecraft, авторы использовали подход «тонкой настройки», который разработал нейронную сеть обучения с подкреплением для изготовления алмазной кирки быстрее, чем обычно. 

«Чтобы продемонстрировать эффективность тонкой настройки RL, мы выбрали сложную цель — получить алмазную кирку в течение 10 минут, начиная со свежего мира выживания Minecraft», — пишут они. 

Это сложно для людей, которым обычно требуется в два раза больше времени, если они вообще могут это сделать:

Это включает в себя приобретение ряда труднодоступных предметов, которые требуют сложных навыков, таких как добыча полезных ископаемых, управление запасами, крафт с верстаком и без него, использование инструментов, работа с печью и добыча полезных ископаемых на самых низких глубинах, где много опасностей, таких как враги. и лавы существуют (рис. 6). Вдобавок к сложности прогресс может быть легко потерян из-за выбрасывания предметов, уничтожения предметов или смерти. Получение алмазной кирки чаще всего занимает у опытного человека более 20 минут (24,000 XNUMX действий).

Собирая как данные о подрядчиках, так и немаркированные 70,000 XNUMX часов веб-видео, авторы помнили о возможности появления оскорбительного контента. «Подрядчики теоретически могут использовать открытый мир Minecraft для создания личной информации и/или оскорбительного контента (например, используя блоки Minecraft для написания своего имени или оскорбительных сообщений, а затем находя место, из которого сообщение будет видно)», — они пишите, хотя в роликах от подрядчиков, которые смотрели авторы, этого не видели. 

«Конечно, мы обучаем наши модели BC [поведенческого клонирования] на видеороликах из Интернета, где люди играют в Minecraft, и если такое поведение присутствует в этих видео, наша модель также потенциально может научиться этому, хотя мы ожидаем, что такое поведение встречается достаточно редко, чтобы наша модель вряд ли воспроизведет его», — пишут они. 

Куда такой генеральный агент пойдет дальше? Идея состоит в том, что, победив алмазные топоры, VPT или его потомство, можно делать все то же, что человек может делать с помощью мыши и клавиатуры, включая освистывание билетов, серфинг в социальных сетях или навигацию по картам. 

Источник