Eksperter ved OpenAI har trent et nevralt nettverk til å spille Minecraft til en like høy standard som menneskelige spillere.
Det nevrale nettverket ble trent på 70,000 XNUMX timer med diverse opptak i spillet, supplert med en liten database av videoer der entreprenører utførte spesifikke oppgaver i spillet, med tastatur og mus innganger også tatt opp.
Etter finjustering fant OpenAI ut at modellen var i stand til å utføre alle slags komplekse ferdigheter, fra svømming til å jakte på dyr og konsumere kjøttet deres. Den tok også tak i "søylehoppet", et trekk der spilleren plasserer en blokk med materiale under seg selv midt i hoppet for å få høyde.
Kanskje mest imponerende var AI i stand til å lage diamantverktøy (som krever en lang rekke handlinger som skal utføres i rekkefølge), noe OpenAI beskrev som en "enestående" prestasjon for en dataagent.
Et AI-gjennombrudd?
Betydningen av Minecraft-prosjektet er at det demonstrerer effektiviteten til en ny teknikk distribuert av OpenAI i opplæringen av AI-modeller – kalt Video PreTraining (VPT) – som selskapet sier kan akselerere utviklingen av "generelle datamaskinbrukende agenter".
Historisk sett har vanskeligheten med å bruke rå video som kilde for opplæring av AI-modeller vært at det hva har skjedd er enkel nok til å forstå, men ikke nødvendigvis hvordan . Faktisk vil AI-modellen absorbere de ønskede resultatene, men ikke ha noen forståelse av inngangskombinasjonene som kreves for å nå dem.
Med VPT parer imidlertid OpenAI et stort videodatasett hentet fra offentlige nettkilder med en nøye utvalgt samling av opptak merket med relevante tastatur- og musebevegelser for å etablere den grunnleggende modellen.
For å finjustere basismodellen kobler teamet deretter inn mindre datasett designet for å undervise i spesifikke oppgaver. I denne sammenhengen brukte OpenAI opptak av spillere som utførte tidlige spillhandlinger, som å kutte ned trær og bygge lage bord, noe som sies å ha gitt en "massiv forbedring" i påliteligheten som modellen var i stand til å utføre disse oppgavene med.
En annen teknikk innebærer å "belønne" AI-modellen for å oppnå hvert trinn i en sekvens av oppgaver, en praksis kjent som forsterkende læring. Denne prosessen er det som tillot det nevrale nettverket å samle alle ingrediensene til en diamanthakke med en suksessrate på menneskelig nivå.
«VPT baner veien for å la agenter lære å handle ved å se det store antallet videoer på internett. Sammenlignet med generativ videomodellering eller kontrastive metoder som bare vil gi representasjonsprioriteringer, tilbyr VPT den spennende muligheten for direkte å lære storskala atferdsprioriteringer på flere domener enn bare språk," forklarte OpenAI i en blogginnlegg (åpnes i ny fane) .
"Selv om vi bare eksperimenterer i Minecraft, er spillet veldig åpent og det opprinnelige menneskelige grensesnittet (mus og tastatur) er veldig generisk, så vi tror resultatene våre lover godt for andre lignende domener, f.eks. datamaskinbruk."
For å stimulere til ytterligere eksperimentering i rommet, har OpenAI inngått samarbeid med MineRL NeurIPS-konkurranse , donerer kontraktørdata og modellkode til deltakere som prøver å bruke AI for å løse komplekse Minecraft-oppgaver. Hovedpremien: $100,000 XNUMX.