Neironu tīkls tika apmācīts, izmantojot 70,000 XNUMX stundu dažādu spēles materiālu, kas papildināts ar nelielu datubāze video, kuros darbuzņēmēji veica konkrētus spēles uzdevumus, izmantojot tastatūra un pele ievades arī ierakstītas.
Pēc precizēšanas OpenAI atklāja, ka modelis spēj veikt visas sarežģītas prasmes, sākot no peldēšanas līdz dzīvnieku medībām un to gaļas patērēšanai. Tas arī satvēra "staba lēcienu" — gājienu, kurā spēlētājs novieto materiāla bloku zem sevis lēciena vidusdaļā, lai iegūtu augstumu.
Iespējams, visiespaidīgākais ir tas, ka mākslīgais intelekts spēja izveidot dimanta rīkus (kuram bija nepieciešama gara darbību virkne, kas jāveic secīgi), ko OpenAI raksturoja kā “bezprecedenta” sasniegumu datora aģentam.
AI izrāviens?
Minecraft projekta nozīme ir tāda, ka tas parāda jaunas metodes, ko OpenAI izmanto AI modeļu apmācībā, ko sauc par Video PreTraining (VPT), kas, pēc uzņēmuma domām, varētu paātrināt "vispārēju datoru lietošanas aģentu" izstrādi.
Vēsturiski grūtības, izmantojot neapstrādātu video kā avotu AI modeļu apmācībai, ir bijušas tādas ko ir pietiekami vienkārši, lai saprastu, bet ne obligāti cik . Faktiski AI modelis absorbētu vēlamos rezultātus, taču tam nav izpratnes par ievades kombinācijām, kas nepieciešamas to sasniegšanai.
Tomēr, izmantojot VPT, OpenAI savieno lielu video datu kopu, kas iegūta no publiskiem tīmekļa avotiem, ar rūpīgi atlasītu kadru kopumu, kas marķēts ar atbilstošām tastatūras un peles kustībām, lai izveidotu pamata modeli.
Lai precizētu bāzes modeli, komanda pēc tam pievieno mazākas datu kopas, kas paredzētas konkrētu uzdevumu mācīšanai. Šajā kontekstā OpenAI izmantoja videomateriālus, kuros spēlētāji veica spēles agrīnās darbības, piemēram, koku ciršanu un gatavošanas galdu celtniecību, kas, kā tiek teikts, ir devis "milzīgu uzlabojumu" attiecībā uz uzticamību, ar kādu modelis spēja veikt šos uzdevumus.
Cits paņēmiens ietver AI modeļa “apbalvošanu” par katra soļa izpildi uzdevumu secībā, ko sauc par pastiprināšanas mācīšanos. Šis process ir tas, kas ļāva neironu tīklam savākt visas sastāvdaļas dimanta cērtam ar cilvēka līmeņa panākumu līmeni.
“VPT paver ceļu uz to, lai aģenti varētu iemācīties rīkoties, skatoties milzīgo skaitu video internetā. Salīdzinājumā ar ģeneratīvo video modelēšanu vai kontrastējošām metodēm, kas dod tikai reprezentācijas prioritātes, VPT piedāvā aizraujošu iespēju tieši apgūt liela mēroga uzvedības prioritātes vairākās jomās, nevis tikai valodā," skaidro OpenAI. blog post (atveras jaunā cilnē) .
"Lai gan mēs eksperimentējam tikai ar Minecraft, spēle ir ļoti atvērta, un cilvēka saskarne (pele un tastatūra) ir ļoti vispārīga, tāpēc mēs uzskatām, ka mūsu rezultāti ir labi piemēroti citiem līdzīgiem domēniem, piemēram, datora lietošanai."
Lai stimulētu turpmākus eksperimentus šajā telpā, OpenAI ir sadarbojies ar MineRL NeurIPS konkurss , ziedojot savus līgumslēdzēja datus un modeļa kodu konkursantiem, kuri mēģina izmantot AI, lai atrisinātu sarežģītus Minecraft uzdevumus. Galvenā balva: 100,000 XNUMX USD.