Stručnjaci iz OpenAI-a su obučili neuronsku mrežu za igranje Minecraft na jednako visok standard kao i ljudski igrači.
Neuronska mreža je obučena na 70,000 sati raznih snimaka u igri, dopunjenih malim baza podataka videa u kojima su izvođači obavljali određene zadatke u igri, sa tastatura i miš ulazi se također snimaju.
Nakon finog podešavanja, OpenAI je otkrio da je model u stanju da izvodi sve vrste složenih vještina, od plivanja do lova na životinje i konzumiranja njihovog mesa. Takođe je shvatio "skok stuba", potez kojim igrač stavlja blok materijala ispod sebe u sredini skoka kako bi dobio elevaciju.
Možda je najimpresivnije to što je AI bila u stanju da napravi dijamantske alate (za koje je potreban dug niz radnji koje se izvršavaju u nizu), što je OpenAI opisao kao dostignuće bez presedana za kompjuterskog agenta.
AI proboj?
Značaj Minecraft projekta je u tome što demonstrira efikasnost nove tehnike koju je OpenAI primenio u obuci AI modela – pod nazivom Video PreTraining (VPT) – za koju kompanija kaže da bi mogla da ubrza razvoj „generalnih agenata koji koriste računare“.
Istorijski gledano, poteškoća s korištenjem sirovog videa kao izvora za obuku AI modela je bila to šta što se dogodilo dovoljno je jednostavno za razumjeti, ali ne nužno kako . U stvari, AI model bi apsorbirao željene rezultate, ali ne bi shvatio ulazne kombinacije koje su potrebne da bi se postigli.
Međutim, sa VPT-om, OpenAI uparuje veliki skup video podataka preuzet iz javnih veb izvora sa pažljivo odabranim skupom snimaka označenih relevantnim pokretima tastature i miša kako bi se uspostavio osnovni model.
Za fino podešavanje osnovnog modela, tim zatim uključuje manje skupove podataka dizajnirane za podučavanje specifičnih zadataka. U tom kontekstu, OpenAI je koristio snimke igrača koji izvode radnje u ranoj igri, kao što su sječa drveća i izgradnja stolova za izradu, za koje se kaže da je donijelo „ogromna poboljšanja“ u pouzdanosti s kojom je model bio u stanju da izvrši ove zadatke.
Druga tehnika uključuje "nagrađivanje" AI modela za postizanje svakog koraka u nizu zadataka, praksa poznata kao učenje s pojačanjem. Ovaj proces je omogućio neuronskoj mreži da prikupi sve sastojke za dijamantski pijuk sa stopom uspjeha na ljudskom nivou.
“VPT utire put ka omogućavanju agentima da nauče djelovati gledajući ogroman broj videa na internetu. U poređenju sa generativnim video modeliranjem ili kontrastivnim metodama koje bi dale samo reprezentativne prioritete, VPT nudi uzbudljivu mogućnost direktnog učenja velikih bihevioralnih prioriteta u više domena nego samo jezika,” objasnio je OpenAI u blog post (otvara se u novoj kartici) .
„Iako eksperimentišemo samo u Minecraft-u, igra je vrlo otvorena i izvorno ljudsko sučelje (miš i tastatura) je vrlo generičko, tako da vjerujemo da su naši rezultati dobri za druge slične domene, npr. korištenje računara.”
Kako bi podstakao daljnje eksperimentiranje u prostoru, OpenAI se udružio s MineRL NeurIPS takmičenje , donirajući podatke o izvođačima i kod modela takmičarima koji pokušavaju koristiti AI za rješavanje složenih Minecraft zadataka. Glavna nagrada: 100,000 dolara.