Нейронна мережа була навчена на 70,000 XNUMX годин різного внутрішньоігрового матеріалу, доповненого невеликим база даних відео, на яких підрядники виконували конкретні ігрові завдання, з клавіатура та миша також записуються вхідні дані.
Після точного налаштування OpenAI виявив, що модель здатна виконувати всілякі складні навички, від плавання до полювання на тварин і споживання їх м’яса. Він також зрозумів «стрибок стовпа», рух, за допомогою якого гравець кладе блок матеріалу під собою в середині стрибка, щоб отримати висоту.
Можливо, найбільш вражаючим є те, що ШІ зміг створити алмазні інструменти (що вимагало послідовного виконання довгого ряду дій), що OpenAI описав як «безпрецедентне» досягнення для комп’ютерного агента.
Прорив ШІ?
Значення проекту Minecraft полягає в тому, що він демонструє ефективність нової техніки, розгорнутої OpenAI для навчання моделей AI, яка називається Video PreTraining (VPT), яка, за словами компанії, може прискорити розробку «агентів загального користування комп’ютером».
Історично складність використання необробленого відео як джерела для навчання моделей ШІ полягала в тому що що сталося досить просто для розуміння, але не обов’язково як . Фактично, модель ШІ поглинала б бажані результати, але не мала б уявлення про вхідні комбінації, необхідні для їх досягнення.
Однак із VPT OpenAI поєднує великий набір відеоданих, отриманий із загальнодоступних веб-джерел, із ретельно підібраним пулом кадрів, позначених відповідними рухами клавіатури та миші, щоб створити базову модель.
Щоб точно налаштувати базову модель, команда потім підключає менші набори даних, призначені для навчання конкретним завданням. У цьому контексті OpenAI використовував кадри з гравцями, які виконували дії на початку гри, такі як вирубування дерев і створення столів для крафта, що, як кажуть, принесло «значне покращення» надійності, з якою модель могла виконувати ці завдання.
Інша техніка передбачає «нагородження» моделі ШІ за виконання кожного кроку в послідовності завдань, практика, відома як навчання з підкріпленням. Саме цей процес дозволив нейронній мережі зібрати всі інгредієнти для алмазної кирки з показником успіху на рівні людини.
«VPT відкриває шлях до того, щоб дозволити агентам навчитися діяти, переглядаючи величезну кількість відео в Інтернеті. У порівнянні з генеративним відеомоделюванням або контрастними методами, які дають лише репрезентаційні пріоритети, VPT пропонує захоплюючу можливість безпосереднього вивчення великомасштабних поведінкових пріоритетів у більшій кількості областей, ніж просто мова», — пояснили в OpenAI в блог (відкривається в новій вкладці) .
«Хоча ми експериментуємо лише в Minecraft, гра є дуже відкритою, а рідний людський інтерфейс (миша та клавіатура) дуже загальний, тому ми вважаємо, що наші результати є хорошими для інших подібних доменів, наприклад, використання комп’ютера».
Щоб стимулювати подальші експерименти в космосі, OpenAI співпрацює з Конкурс MineRL NeurIPS , передаючи дані свого підрядника та код моделі учасникам, які намагаються використовувати ШІ для вирішення складних завдань Minecraft. Головний приз: 100,000 XNUMX доларів.