Odborníci z OpenAI vycvičili neurónovú sieť na hranie Minecraft na rovnako vysokej úrovni ako ľudskí hráči.
Neurónová sieť bola natrénovaná na 70,000 XNUMX hodinách rôznych záberov v hre, doplnených o malý databázy videí, v ktorých dodávatelia vykonávali konkrétne úlohy v hre, s klávesnica a myš zaznamenané aj vstupy.
Po doladení OpenAI zistil, že model je schopný vykonávať všetky druhy komplexných zručností, od plávania až po lov zvierat a konzumáciu ich mäsa. Uchopil tiež „skok z piliera“, pohyb, pri ktorom hráč umiestni pod seba blok materiálu uprostred skoku, aby získal prevýšenie.
Snáď najpôsobivejšie je, že AI dokázala vytvoriť diamantové nástroje (vyžadujúce postupné vykonanie dlhého reťazca akcií), ktoré OpenAI opísal ako „bezprecedentný“ úspech pre počítačového agenta.
Prelom v AI?
Význam projektu Minecraft je v tom, že demonštruje účinnosť novej techniky nasadenej OpenAI pri výcviku modelov AI – nazývanej Video PreTraining (VPT) – o ktorej spoločnosť tvrdí, že by mohla urýchliť vývoj „všeobecných agentov využívajúcich počítače“.
Historicky bol problém s používaním surového videa ako zdroja na trénovanie modelov AI práve taký čo je dosť jednoduché na pochopenie, ale nie nevyhnutne ako . V skutočnosti by model AI absorboval požadované výsledky, ale neznal by kombinácie vstupov, ktoré sú potrebné na ich dosiahnutie.
S VPT však OpenAI spáruje veľký súbor údajov o videu stiahnutý z verejných webových zdrojov so starostlivo upraveným súborom záznamov označených príslušnými pohybmi klávesnice a myši, aby sa vytvoril základný model.
Na doladenie základného modelu tím potom zapojí menšie súbory údajov určené na výučbu konkrétnych úloh. V tejto súvislosti OpenAI použila zábery hráčov vykonávajúcich akcie na začiatku hry, ako je rúbanie stromov a stavanie remeselných stolov, čo údajne prinieslo „masívne zlepšenie“ spoľahlivosti, s akou bol model schopný vykonávať tieto úlohy.
Ďalšia technika zahŕňa „odmeňovanie“ modelu AI za dosiahnutie každého kroku v sekvencii úloh, čo je prax známa ako posilňovanie. Tento proces umožnil neurónovej sieti zhromaždiť všetky ingrediencie pre diamantový krompáč s úspešnosťou na ľudskej úrovni.
„VPT pripravuje cestu k tomu, aby sa agenti naučili konať sledovaním obrovského množstva videí na internete. V porovnaní s generatívnym video modelovaním alebo kontrastnými metódami, ktoré by priniesli len reprezentatívne priority, VPT ponúka vzrušujúcu možnosť priameho učenia sa rozsiahlych behaviorálnych priorít vo viacerých doménach, než je len jazyk,“ vysvetlil OpenAI v príspevku. blog post (otvorí sa na novej karte) .
„Aj keď v Minecrafte iba experimentujeme, hra je veľmi otvorená a natívne ľudské rozhranie (myš a klávesnica) je veľmi všeobecné, takže veríme, že naše výsledky sú dobrým znamením pre ďalšie podobné oblasti, napríklad používanie počítača.“
S cieľom podnietiť ďalšie experimentovanie vo vesmíre sa OpenAI spojila s Súťaž MineRL NeurIPS , ktorá daruje údaje svojho dodávateľa a kód modelu súťažiacim, ktorí sa pokúšajú použiť AI na riešenie zložitých úloh Minecraftu. Hlavná cena: 100,000 XNUMX dolárov.