Ang mga eksperto sa OpenAI ay nagsanay ng isang neural network para maglaro Minecraft sa isang mataas na pamantayan bilang mga manlalaro ng tao.
Ang neural network ay sinanay sa 70,000 oras ng iba't ibang in-game footage, na dinagdagan ng maliit na database ng mga video kung saan ang mga kontratista ay nagsagawa ng mga partikular na in-game na gawain, kasama ang keyboard at mouse naitala rin ang mga input.
Pagkatapos ng fine-tuning, natuklasan ng OpenAI na nagawa ng modelo ang lahat ng paraan ng kumplikadong mga kasanayan, mula sa paglangoy hanggang sa pangangaso ng mga hayop at pagkonsumo ng kanilang karne. Nahawakan din nito ang "pillar jump", isang hakbang kung saan ang manlalaro ay naglalagay ng isang bloke ng materyal sa ibaba ng kanilang sarili sa kalagitnaan ng pagtalon upang makakuha ng elevation.
Marahil ang pinaka-kahanga-hanga, ang AI ay nakagawa ng mga tool na brilyante (nangangailangan ng mahabang string ng mga aksyon na isasagawa sa pagkakasunud-sunod), na inilarawan ng OpenAI bilang isang "walang uliran" na tagumpay para sa isang ahente ng computer.
Isang tagumpay sa AI?
Ang kahalagahan ng proyekto ng Minecraft ay ang pagpapakita nito ng bisa ng isang bagong diskarte na ini-deploy ng OpenAI sa pagsasanay ng mga modelo ng AI - tinatawag na Video PreTraining (VPT) - na sinasabi ng kumpanya na maaaring mapabilis ang pagbuo ng "pangkalahatang mga ahente na gumagamit ng computer".
Sa kasaysayan, ang kahirapan sa paggamit ng hilaw na video bilang isang mapagkukunan para sa pagsasanay ng mga modelo ng AI ay iyon Ano ang nangyari ay sapat na simple upang maunawaan, ngunit hindi kinakailangan paano . Sa epekto, ang modelo ng AI ay kukuha ng ninanais na mga resulta, ngunit walang pag-unawa sa mga kumbinasyon ng input na kinakailangan upang maabot ang mga ito.
Sa VPT, gayunpaman, ipinares ng OpenAI ang isang malaking dataset ng video na iginuhit mula sa mga pampublikong pinagmumulan ng web na may maingat na na-curate na pool ng footage na may label na may kaugnayang mga paggalaw ng keyboard at mouse upang maitatag ang pundasyong modelo.
Para maayos ang base na modelo, ang team ay maglalagay ng mas maliliit na dataset na idinisenyo para magturo ng mga partikular na gawain. Sa kontekstong ito, ginamit ng OpenAI ang footage ng mga manlalaro na nagsasagawa ng mga aksyon sa maagang laro, tulad ng pagputol ng mga puno at pagbuo ng mga crafting table, na sinasabing nagbunga ng "malaking pagpapabuti" sa pagiging maaasahan kung saan nagawa ng modelo ang mga gawaing ito.
Ang isa pang pamamaraan ay nagsasangkot ng "pagbibigay gantimpala" sa modelo ng AI para sa pagkamit ng bawat hakbang sa isang pagkakasunud-sunod ng mga gawain, isang kasanayan na kilala bilang reinforcement learning. Ang prosesong ito ang nagbigay-daan sa neural network na kolektahin ang lahat ng sangkap para sa isang diamond pickaxe na may antas ng tagumpay sa antas ng tao.
“Ang VPT ay nagbibigay ng landas patungo sa pagpapahintulot sa mga ahente na matutong kumilos sa pamamagitan ng panonood ng napakaraming video sa internet. Kung ikukumpara sa generative video modeling o contrastive na pamamaraan na magbubunga lamang ng representational priors, ang VPT ay nag-aalok ng kapana-panabik na posibilidad ng direktang pag-aaral ng malakihang mga behavioral prior sa mas maraming domain kaysa sa wika lamang," paliwanag ng OpenAI sa isang blog post (bubukas sa bagong tab) .
"Bagama't nag-eeksperimento lang kami sa Minecraft, ang laro ay napaka-open-ended at ang native na interface ng tao (mouse at keyboard) ay napaka-generic, kaya naniniwala kaming maganda ang aming mga resulta para sa iba pang katulad na mga domain, hal. paggamit ng computer."
Upang magbigay ng insentibo sa karagdagang pag-eksperimento sa espasyo, ang OpenAI ay nakipagsosyo sa Kumpetisyon ng MineRL NeurIPS , nag-donate ng data ng kontratista nito at code ng modelo sa mga kalahok na sumusubok na gumamit ng AI upang malutas ang mga kumplikadong gawain sa Minecraft. Ang engrandeng premyo: $100,000.