Odborníci z OpenAI vycvičili neuronovou síť k hraní Minecraft na stejně vysoké úrovni jako lidští hráči.
Neuronová síť byla natrénována na 70,000 XNUMX hodinách různých herních záběrů, doplněných o malý databáze videí, ve kterých dodavatelé plnili konkrétní úkoly ve hře, s klávesnice a myš vstupy také zaznamenány.
Po jemném doladění OpenAI zjistil, že model je schopen provádět všechny druhy komplexních dovedností, od plavání po lov zvířat a konzumaci jejich masa. Také se chopil „skoku na sloup“, což je pohyb, při kterém hráč umístí blok materiálu pod sebe uprostřed skoku, aby získal nadmořskou výšku.
Snad nejpůsobivější je, že umělá inteligence dokázala vytvořit diamantové nástroje (vyžadující dlouhý řetězec akcí, které mají být provedeny v sekvenci), což OpenAI popsalo jako „bezprecedentní“ úspěch pro počítačového agenta.
Průlom AI?
Význam projektu Minecraft je v tom, že demonstruje účinnost nové techniky nasazené OpenAI při výcviku modelů umělé inteligence – nazývané Video PreTraining (VPT) – o které společnost říká, že by mohla urychlit vývoj „obecných agentů využívajících počítače“.
Historicky byly potíže s používáním surového videa jako zdroje pro trénování modelů umělé inteligence právě toto co se stalo je dostatečně jednoduché na pochopení, ale ne nutně jak . Ve skutečnosti by model AI absorboval požadované výsledky, ale neznal by vstupní kombinace potřebné k jejich dosažení.
S VPT však OpenAI spáruje velký soubor dat videa čerpaný z veřejných webových zdrojů s pečlivě upraveným souborem záběrů označených příslušnými pohyby klávesnice a myši, aby se vytvořil základní model.
Pro doladění základního modelu pak tým zapojí menší datové sady určené k výuce konkrétních úkolů. V této souvislosti OpenAI použila záběry hráčů provádějících akce na začátku hry, jako je kácení stromů a stavění stolů pro craftování, což údajně přineslo „masivní zlepšení“ spolehlivosti, se kterou byl model schopen tyto úkoly plnit.
Další technika zahrnuje „odměňování“ modelu umělé inteligence za dosažení každého kroku v sekvenci úkolů, což je praxe známá jako posilování. Tento proces umožnil neuronové síti shromáždit všechny ingredience pro diamantový krumpáč s úspěšností na lidské úrovni.
„VPT dláždí cestu k tomu, aby se agenti naučili jednat sledováním obrovského množství videí na internetu. Ve srovnání s generativním video modelováním nebo kontrastivními metodami, které by přinesly pouze reprezentativní priority, VPT nabízí vzrušující možnost přímého učení rozsáhlých behaviorálních priorit ve více doménách než jen v jazyce,“ vysvětlil OpenAI v dokumentu. blogu (otevře se na nové kartě) .
"Zatímco v Minecraftu pouze experimentujeme, hra je velmi otevřená a nativní lidské rozhraní (myš a klávesnice) je velmi obecné, takže věříme, že naše výsledky jsou dobrým znamením pro další podobné oblasti, např. používání počítače."
S cílem podnítit další experimentování v tomto prostoru se OpenAI spojila s Soutěž MineRL NeurIPS , která daruje data svého dodavatele a kód modelu soutěžícím, kteří se pokoušejí použít AI k řešení složitých úkolů Minecraftu. Hlavní cena: 100,000 XNUMX $.