Eksperter hos OpenAI har trænet et neuralt netværk til at spille Minecraft til en lige så høj standard som menneskelige spillere.
Det neurale netværk blev trænet på 70,000 timers diverse optagelser i spillet, suppleret med en lille database af videoer, hvor entreprenører udførte specifikke opgaver i spillet, med tastatur , mus input også optaget.
Efter finjustering fandt OpenAI ud af, at modellen var i stand til at udføre alle mulige komplekse færdigheder, fra svømning til jagt efter dyr og indtagelse af deres kød. Den greb også "søjlespringet", et træk, hvor spilleren placerer en blok materiale under sig selv midt i springet for at opnå højde.
Måske mest imponerende var AI'en i stand til at fremstille diamantværktøjer (der kræver en lang række handlinger, der skal udføres i rækkefølge), hvilket OpenAI beskrev som en "hidtil uset" præstation for en computeragent.
Et AI-gennembrud?
Betydningen af Minecraft-projektet er, at det demonstrerer effektiviteten af en ny teknik implementeret af OpenAI i træningen af AI-modeller – kaldet Video PreTraining (VPT) – som virksomheden siger kunne accelerere udviklingen af "generelle computerbrugende agenter".
Historisk set har vanskeligheden ved at bruge rå video som kilde til træning af AI-modeller været, at det det er sket, er enkel nok til at forstå, men ikke nødvendigvis hvordan . I realiteten ville AI-modellen absorbere de ønskede resultater, men have ingen forståelse af de inputkombinationer, der kræves for at nå dem.
Med VPT parrer OpenAI imidlertid et stort videodatasæt hentet fra offentlige webkilder med en nøje sammensat pulje af optagelser mærket med de relevante tastatur- og musebevægelser for at etablere den grundlæggende model.
For at finjustere basismodellen tilslutter teamet derefter mindre datasæt designet til at undervise i specifikke opgaver. I denne sammenhæng brugte OpenAI optagelser af spillere, der udfører tidlige spilhandlinger, såsom at fælde træer og bygge håndværksborde, hvilket siges at have givet en "massiv forbedring" i den pålidelighed, som modellen var i stand til at udføre disse opgaver med.
En anden teknik involverer "belønning" af AI-modellen for at opnå hvert trin i en række opgaver, en praksis kendt som forstærkende læring. Denne proces er det, der tillod det neurale netværk at indsamle alle ingredienserne til en diamanthakke med en succesrate på menneskeligt niveau.
"VPT baner vejen mod at tillade agenter at lære at handle ved at se det store antal videoer på internettet. Sammenlignet med generativ videomodellering eller kontrastive metoder, der kun ville give repræsentative priors, tilbyder VPT den spændende mulighed for direkte at lære store adfærdsmæssige priors i flere domæner end blot sprog,” forklarede OpenAI i en blogindlæg (åbner i ny fane) .
"Selvom vi kun eksperimenterer i Minecraft, er spillet meget åbent, og den indbyggede menneskelige grænseflade (mus og tastatur) er meget generisk, så vi mener, at vores resultater lover godt for andre lignende domæner, f.eks. computerbrug."
For at tilskynde til yderligere eksperimenter i rummet har OpenAI indgået et samarbejde med MineRL NeurIPS konkurrence , donerer sine entreprenørdata og modelkode til deltagere, der forsøger at bruge AI til at løse komplekse Minecraft-opgaver. Hovedpræmien: $100,000.