Experter på OpenAI har tränat ett neuralt nätverk att spela Minecraft till en lika hög standard som mänskliga spelare.
Det neurala nätverket tränades på 70,000 XNUMX timmars olika filmmaterial i spelet, kompletterat med en liten databas av videor där entreprenörer utförde specifika uppgifter i spelet, med tangentbord och mus ingångar också inspelade.
Efter finjustering fann OpenAI att modellen kunde utföra alla möjliga komplexa färdigheter, från simning till att jaga djur och konsumera deras kött. Den fattade också "pelarhoppet", ett drag där spelaren placerar ett block av material under sig mitt i hoppet för att få höjd.
Det kanske mest imponerande var att AI kunde skapa diamantverktyg (som kräver en lång rad åtgärder som ska utföras i följd), vilket OpenAI beskrev som en "oöverträffad" prestation för en datoragent.
Ett AI-genombrott?
Betydelsen av Minecraft-projektet är att det visar effektiviteten av en ny teknik som används av OpenAI i utbildningen av AI-modeller – kallad Video PreTraining (VPT) – som företaget säger skulle kunna påskynda utvecklingen av "allmänna datoranvändande agenter".
Historiskt sett har svårigheten med att använda råvideo som en källa för att träna AI-modeller varit att det vad har hänt är tillräckligt enkelt att förstå, men inte nödvändigtvis hur . I själva verket skulle AI-modellen absorbera de önskade resultaten, men inte ha någon förståelse för de inputkombinationer som krävs för att nå dem.
Men med VPT parar OpenAI en stor videodatauppsättning hämtad från offentliga webbkällor med en noggrant utvald pool av filmer märkta med relevanta tangentbords- och musrörelser för att etablera den grundläggande modellen.
För att finjustera basmodellen kopplar teamet sedan in mindre datauppsättningar utformade för att lära ut specifika uppgifter. I det här sammanhanget använde OpenAI filmer av spelare som utförde tidiga spelåtgärder, som att hugga ner träd och bygga hantverksbord, vilket sägs ha gett en "massiv förbättring" i tillförlitligheten med vilken modellen kunde utföra dessa uppgifter.
En annan teknik innebär att "belöna" AI-modellen för att uppnå varje steg i en sekvens av uppgifter, en praxis som kallas förstärkningsinlärning. Denna process är vad som gjorde det möjligt för det neurala nätverket att samla in alla ingredienser för en diamanthacka med en framgångsfrekvens på mänsklig nivå.
"VPT banar vägen mot att låta agenter lära sig att agera genom att titta på det stora antalet videor på internet. Jämfört med generativ videomodellering eller kontrastiva metoder som bara skulle ge representativa prioriteringar, erbjuder VPT den spännande möjligheten att direkt lära sig storskaliga beteendemässiga prioriteringar inom fler domäner än bara språk, förklarade OpenAI i en blogginlägg (öppnas i ny flik) .
"Medan vi bara experimenterar i Minecraft är spelet väldigt öppet och det inbyggda mänskliga gränssnittet (mus och tangentbord) är väldigt generiskt, så vi tror att våra resultat bådar gott för andra liknande domäner, t.ex. datoranvändning."
För att stimulera till ytterligare experiment i utrymmet har OpenAI samarbetat med MineRL NeurIPS-tävling , donerar sin entreprenörsdata och modellkod till tävlande som försöker använda AI för att lösa komplexa Minecraft-uppgifter. Det stora priset: $100,000 XNUMX.