Нейронавая сетка была падрыхтавана на 70,000 XNUMX гадзінах рознага матэрыялу ў гульні, дапоўненага невялікім база дадзеных відэа, у якіх падрадчыкі выконвалі канкрэтныя задачы ў гульні, з клавіятура і мыш ўваходы таксама запісваюцца.
Пасля тонкай налады OpenAI выявіў, што мадэль здольная выконваць усе розныя складаныя навыкі, ад плавання да палявання на жывёл і спажывання іх мяса. Ён таксама зразумеў «скачок слупа», рух, пры якім гулец размяшчае блок матэрыялу пад сабой у сярэдзіне скачка, каб атрымаць вышыню.
Магчыма, самае ўражвае тое, што ІІ змог ствараць алмазныя інструменты (патрабуючы паслядоўнага выканання доўгага шэрагу дзеянняў), што OpenAI ахарактарызаваў як «беспрэцэдэнтнае» дасягненне для кампутарнага агента.
Прарыў ІІ?
Значэнне праекта Minecraft заключаецца ў тым, што ён дэманструе эфектыўнасць новай методыкі, разгорнутай OpenAI пры навучанні мадэляў штучнага інтэлекту - пад назвай Video PreTraining (VPT), - якая, па словах кампаніі, можа паскорыць распрацоўку «агентаў, якія выкарыстоўваюць агульныя кампутары».
Папулярны ў цяперашні час
Гістарычна складанасць з выкарыстаннем сырога відэа ў якасці крыніцы для навучання мадэляў ІІ заключалася ў тым, што што адбылося досыць проста зразумець, але не абавязкова як . Па сутнасці, мадэль ІІ будзе паглынаць жаданыя вынікі, але не мае разумення ўваходных камбінацый, неабходных для іх дасягнення.
З VPT, аднак, OpenAI спалучае вялікі набор відэаданых, узяты з агульнадаступных вэб-крыніц, з старанна адабраным наборам матэрыялаў, пазначаных адпаведнымі рухамі клавіятуры і мышы, каб стварыць асноватворную мадэль.
Каб дакладна наладзіць базавую мадэль, каманда затым падключае меншыя наборы даных, прызначаныя для навучання пэўным задачам. У гэтым кантэксце OpenAI выкарыстоўваў кадры гульцоў, якія выконваюць раннія дзеянні ў гульні, такія як высяканне дрэў і стварэнне столаў для крафта, што, як кажуць, прынесла «вялікае паляпшэнне» надзейнасці, з якой мадэль змагла выконваць гэтыя задачы.
Іншая методыка ўключае ў сябе «ўзнагароджанне» мадэлі ІІ за дасягненне кожнага кроку ў паслядоўнасці задач, практыка, вядомая як навучанне з падмацаваннем. Менавіта гэты працэс дазволіў нейроннай сеткі сабраць усе інгрэдыенты для алмазнай кіркі з паказчыкам поспеху на ўзроўні чалавека.
«VPT пракладае шлях да таго, каб дазволіць агентам навучыцца дзейнічаць, праглядаючы велізарную колькасць відэа ў Інтэрнэце. У параўнанні з генератыўным відэамадэляваннем або кантраснымі метадамі, якія даюць толькі рэпрэзентацыйныя апрыёры, VPT прапануе захапляльную магчымасць непасрэднага вывучэння буйнамаштабных паводніцкіх прыярытэтаў у большай колькасці абласцей, чым проста мова», — растлумачыў OpenAI у блог (адкрываецца ў новай укладцы) .
Папулярны ў цяперашні час
«Хоць мы толькі эксперыментуем у Minecraft, гульня вельмі адкрытая, а родны чалавечы інтэрфейс (мыш і клавіятура) вельмі агульны, таму мы лічым, што нашы вынікі спрыяюць іншым падобным даменам, напрыклад, для выкарыстання кампутара».
Каб стымуляваць далейшыя эксперыменты ў прасторы, OpenAI супрацоўнічае з Конкурс MineRL NeurIPS , перадаючы свае дадзеныя падрадчыка і код мадэлі ўдзельнікам, якія спрабуюць выкарыстоўваць ІІ для вырашэння складаных задач Minecraft. Галоўны прыз: 100,000 XNUMX долараў.