OpenAI brukte $160,000 XNUMX på Upwork for Minecraft-spillere for å trene et nevralt nett

lage-diamant-hakke

Fra videoen av VPT som jobber med å lage en diamong hakke i Minecraft. Dataprogrammet oppnådde bragden på ti minutter, halvparten av tiden det ville ta en dyktig menneskelig spiller å gjøre det.

Hvor viktig kan det være å mestre «diamantverktøyet» i Minecraft?

Viktig nok til å bruke $160,000 XNUMX, ifølge OpenAI, oppstarten av kunstig intelligens.

Det er beløpet som et team hos OpenAI brukte på å ansette spillere av Minecraft på den nettbaserte stillingsannonseringsplattformen Upwork for å sende inn videoer av seg selv som spiller spillet. 

Amazon Prime Day 2022: Tidlige tilbud

In et papir avduket denne uken, "Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos," OpenAI-forskere Bowen Baker og team bryter bakken i bruken av store datasett for å trene et nevralt nettverk til å etterligne menneskelige tastetrykk for å løse forskjellige oppgaver i videoen spill. (Et blogginnlegg har også blitt lagt ut av OpenAI.) 

En mengde nevrale nettverk har erobret ulike typer spill via det som kalles forsterkningslæring de siste årene, inkludert DeepMind DeepMinds AlphaZero, som tok på seg sjakk, Go og Shogi, og den påfølgende MuZero program, som la til muligheten til å håndtere Atari-spill. 

Baker og teamet ønsket å utvikle et nevralt nettverk for det mer komplekse «open world»-spillmiljøet til Minecraft, der en rekke tastetrykk gir spillere langt større frihetsgrader enn i sjakk- eller Atari-spill. 

Også: AI på seksti sekunder 

Forskningslitteraturen, skriver forfatterne, inkluderer en "stor mengde" arbeid med Minecraft. Men VPT-arbeidet er unikt, skriver de, for sitt omfang og omfang: «Så vidt vi vet, er det ikke noe publisert arbeid som opererer i det fulle, umodifiserte menneskelige handlingsrommet, som inkluderer dra-og-slipp-lagerstyring og varelaging."

Arbeidet med å bygge det nevrale nettverket, kalt VPT, foregikk i to trinn. Den første fasen trengte menneskelige spillere eller entreprenører, som samlet 4,500 timer med spilling. Forskerne fant senere ut at de egentlig bare trengte omtrent 2,000 timer.

Baker og team beskriver prosessen:

Vi hadde søknadene åpne et døgn, og valgte deretter tilfeldig ut 10 søkere til første runde med entreprenører. Senere i prosjektet, ettersom vi trengte mer data og ettersom noen entreprenører ba om å si opp kontraktene sine, la vi til flere søkere fra den opprinnelige poolen samt henvisninger fra de nåværende entreprenørene. Entreprenørene ble betalt $20 per time (minus Upwork-plattformavgifter og gjeldende skatter). Alle resultatene som presenteres i denne artikkelen er basert på omtrent 4,500 timer med data (inkludert data registrert for å samle statistikk over menneskelig lek som ikke ble brukt til trening), som kostet oss rundt $90,000. I løpet av prosjektet samlet vi inn noen data vi ikke brukte på grunn av feil i opptakeren, og for noen ideer fulgte vi til slutt ikke etter. Totalt brukte vi rundt 160 4.6 dollar for entreprenørkompensasjon i løpet av prosjektet. Imidlertid, som vi diskuterer i Sec. 2000, kunne vi sannsynligvis oppnå de fleste resultatene våre med en IDM som er trent ved å bruke data verdt bare $8000, dvs. VPT-modellen, BC-finjustering til earlygame_keyword-datasettet og RL-finjusteringsresultatene. Innsamling av contractor_house-datasettet kostet rundt $2000. Fordi vi brukte IDM trent på rundt 40,000 timer med entreprenørdata, var den faktiske kostnaden for entreprenørdata for disse resultatene rundt $XNUMX XNUMX.

I disse 4,500 timene festet de etiketter til rammene til spillvideoen for handlinger som "inventar", for å sjekke en spillers samling av objekter, ved å bruke "E"-tasten; og "snik" for å bevege seg "forsiktig" i gjeldende retning, ved å bruke SHIFT nøkkel. Disse handlingene registreres som JSON-tekststrenger i hvert spilløyeblikk og lagres sammen med videorammene. 

Rammene for spilling med deres merkede handlinger ble brukt til å trene et nevralt nett kalt en invers dynamikkmodell, eller IDM, som lærer hvilke handlinger som følger med hvilke rammer. IDM er en blanding av flere typer nevrale nett, inkludert et 3-D konvolusjonelt nevralt nett og et ResNet for å analysere videorammene, og flere transformatornettverk med oppmerksomhet for å forutsi neste videobilde. 

Også: Selvbevisst? Google LaMDA føles som en typisk chatbot

At IDMs trente evne blir deretter brukt på et mye større sett med videoopptak, totalt 70,000 XNUMX timer med umerket Minecraft-opptak samlet fra nettet. IDM-en bruker "pseudo-etiketter" på den mye større samlingen. Med andre ord, IDM, og entreprenøravgiftene, er en måte å starte opp et stort videoopplæringssett på. 

openai-vpt-trening-2022

Treningsregimet for VPT.

OpenAI

Så dyr som entreprenørbetalingen kan virke, representerer tilnærmingen store kostnadsbesparelser, skriver forfatterne. Hvis de måtte samle inn entreprenørdata tilsvarende de 70,000 XNUMX timene med nettvideoer, ville det blitt mye dyrere.

«Hvis vi billig kunne samle inn et merket entreprenørdatasett av samme størrelsesorden som web_clean, så ville ikke dette vært viktig; Men å samle inn denne omfanget av data ville ha kostet millioner av dollar.»

Ved å bruke de 70,000 XNUMX timene, trener forfatterne deretter et andre nevralt nettverk, som også består av transformatorlag, for å etterligne brukerhandlingene i videoene, en vanlig praksis kjent som "atferdskloning."

Poenget med arbeidet er å finne en måte å lære opp en "agent" for generell datamaskin som kan bruke rikdommen av data på Internett som ikke har noen etiketter til å løse oppgaver som involverer årsakssammenheng, mening og handlingssekvenser som har en nødvendig forhold fra den ene til den neste. 

"Resultatene som presenteres i denne artikkelen hjelper til med å bane veien for å utnytte rikdommen av umerkede data på nettet for sekvensielle beslutningsdomener," skriver de. 

Verket kan tenkes brukt til en rekke datamaskinoppgaver som krever sekvenser av museklikk og andre menneskelige operatørkontroller, foreslår de. 

"Selv om vi bare eksperimenterer i Minecraft, tror vi at VPT gir en generell oppskrift for å trene atferdsmessige forutsetninger i harde, men allikevel generiske, handlingsrom i ethvert domene som har en stor mengde fritt tilgjengelig umerket data, for eksempel datamaskinbruk."

Open-AI er mest kjent for det store språkprogrammet kalt GPT-3, som også bruker en "forhåndstrenet" tilnærming basert på tonnevis av nettdata som ikke er merket. På en måte utvider Minecraft-spillet denne tilnærmingen til etterligning av atferd i domenet til sekvensielle datamaskinoppgaver tatt opp via video. 

Også: Hva er GPT-3? Alt bedriften din trenger å vite om OpenAIs banebrytende AI-språkprogram

Den ultimate prestasjonen er å i noen tilfeller overskride tiden som kreves for et menneske å oppnå en av de vanskeligste oppgavene, å skaffe en diamanthakke.

I Minecraft varer diamantbaserte verktøy bare lenger og kan gjøre mer skade. Diamanthakker er de eneste som er spesielt viktige for de fleste spillere. Du trenger en diamanthakke for å utvinne obsidian og et fiktivt materiale kalt netherite, som begge er viktige for sluttspillaktiviteter som fortryllende bord og lage netherite-utstyr.

Etter å ha trent VPT til å lære alle slags Minecraft-oppgaver, brukte forfatterne en "finjusterings"-tilnærming som utviklet et forsterkende læringsnevralt nettverk for å lage en diamanthakke på en raskere tid enn normalt. 

"For å demonstrere effektiviteten av RL-finjustering, valgte vi det utfordrende målet å skaffe en diamanthakke innen 10 minutter fra en fersk Minecraft-overlevelsesverden," skriver de. 

Dette er utfordrende for mennesker, som vanligvis bruker dobbelt så lang tid på å gjøre det, hvis de i det hele tatt kan gjøre det:

Å gjøre det innebærer å tilegne seg en sekvens av gjenstander som er vanskelig å få tak i som krever komplekse ferdigheter som gruvedrift, lagerstyring, håndverk med og uten håndverksbord, bruk av verktøy, drift av en ovn og gruvedrift på laveste dyp, der mange farer som fiender og lava eksisterer (fig. 6). I tillegg til vanskeligheten kan fremgang lett gå tapt ved å slippe gjenstander, ødelegge gjenstander eller dø. Å skaffe en diamanthakke tar oftere enn ikke et dyktig menneske over 20 minutter (24,000 XNUMX handlinger).

Ved å samle både entreprenørdata og de umerkede 70,000 XNUMX timene med nettvideo, var forfatterne oppmerksomme på muligheten for støtende innhold. "Entreprenørene kan teoretisk bruke Minecrafts åpne verden-eiendom til å generere personlig identifiserbar informasjon og/eller støtende innhold (f.eks. ved å bruke Minecraft-blokker til å skrive navnet eller støtende meldinger, og deretter finne et sted hvor meldingen vil være synlig)," de skrive, selv om de ikke så dette i videoene fra entreprenører forfatterne så på. 

"Selvfølgelig trener vi våre BC [atferdskloning]-modeller på videoer fra internett av folk som spiller Minecraft, og hvis slik oppførsel er i disse videoene kan modellen vår potensielt også lære det, selv om vi forventer at slik oppførsel er sjelden nok til at modellen vår vil sannsynligvis ikke reprodusere det», skriver de. 

Hvor går en slik generalagent videre? Tanken er at det å ha erobret diamantøkser, VPT, eller dets avkom, kan gjøre alle slags ting som en person kan gjøre med en mus og et tastatur, inkludert bud på billetter, surfe på sosiale medier eller navigere på kart. 

kilde