Stručnjaci u OpenAI-u su trenirali neuronsku mrežu za igranje Minecraft na jednako visok standard kao i ljudski igrači.
Neuronska mreža je obučena na 70,000 sati raznih snimaka u igri, dopunjenih malim baza podataka videozapisa u kojima su izvođači obavljali određene zadatke u igri, s tastatura i miš ulazi se također snimaju.
Nakon finog podešavanja, OpenAI je otkrio da model može izvoditi sve vrste složenih vještina, od plivanja do lova na životinje i konzumiranja njihovog mesa. Također je shvatio "skok stupa", potez u kojem igrač stavlja blok materijala ispod sebe usred skoka kako bi dobio elevaciju.
Možda najimpresivnije, AI je uspio izraditi dijamantne alate (zahtijevajući dug niz radnji koje se izvršavaju u nizu), što je OpenAI opisao kao "bez presedana" postignuće za računalnog agenta.
AI proboj?
Značaj Minecraft projekta je u tome što pokazuje učinkovitost nove tehnike koju je OpenAI implementirao u obuci AI modela – nazvane Video PreTraining (VPT) – za koju tvrtka kaže da bi mogla ubrzati razvoj “generalnih agenata koji koriste računala”.
Povijesno gledano, poteškoća s korištenjem sirovog videa kao izvora za obuku AI modela bila je to što što se dogodilo dovoljno je jednostavno za razumjeti, ali ne nužno kako . U stvari, AI model bi apsorbirao željene ishode, ali ne bi shvatio ulazne kombinacije koje su potrebne za njihovo postizanje.
S VPT-om, međutim, OpenAI uparuje veliki skup video podataka preuzet iz javnih web izvora s pažljivo odabranim skupom snimaka označenih relevantnim pokretima tipkovnice i miša kako bi se uspostavio temeljni model.
Za fino podešavanje osnovnog modela, tim zatim uključuje manje skupove podataka dizajnirane za podučavanje specifičnih zadataka. U tom kontekstu, OpenAI je koristio snimke igrača koji izvode radnje u ranoj igri, kao što su sječa drveća i izgradnja stolova za izradu, za koje se kaže da je donijelo "ogromno poboljšanje" u pouzdanosti s kojom je model mogao obavljati te zadatke.
Druga tehnika uključuje "nagrađivanje" AI modela za postizanje svakog koraka u nizu zadataka, praksu poznatu kao učenje s pojačanjem. Taj je proces omogućio neuronskoj mreži da prikupi sve sastojke za dijamantni pijuk sa stopom uspješnosti na ljudskoj razini.
“VPT utire put prema omogućavanju agentima da nauče djelovati gledajući ogroman broj videa na internetu. U usporedbi s generativnim video modeliranjem ili kontrastivnim metodama koje bi dale samo reprezentativne prioritete, VPT nudi uzbudljivu mogućnost izravnog učenja velikih bihevioralnih prioriteta u više domena nego samo u jeziku”, objasnio je OpenAI u blog post (otvara se u novoj kartici) .
“Iako eksperimentiramo samo u Minecraftu, igra je vrlo otvorena i izvorno ljudsko sučelje (miš i tipkovnica) je vrlo generičko, pa vjerujemo da su naši rezultati dobri za druge slične domene, npr. korištenje računala.”
Kako bi potaknuo daljnje eksperimentiranje u prostoru, OpenAI se udružio s MineRL NeurIPS natjecanje , donirajući podatke o izvođaču i kod modela natjecateljima koji pokušavaju koristiti umjetnu inteligenciju za rješavanje složenih Minecraft zadataka. Glavna nagrada: 100,000 dolara.