OpenAI spenderade $160,000 XNUMX på Upwork för Minecraft-spelare för att träna ett neuralt nät

hantverk-diamant-hacka

Från videon av VPT som strävar efter att göra en diamong hacka i Minecraft. Datorprogrammet uppnådde bedriften på tio minuter, halva tiden det skulle ta en skicklig mänsklig spelare att göra det.

Hur viktigt kan det vara att behärska "diamantverktyget" i Minecraft?

Viktigt nog att spendera $160,000 XNUMX, enligt OpenAI, startupen för artificiell intelligens.

Det är summan pengar som ett team på OpenAI spenderade för att anställa spelare i Minecraft på jobbannonsplattformen Upwork online för att skicka in videor av sig själva när de spelar spelet. 

Amazon Prime Day 2022: Tidiga erbjudanden

In ett papper avtäckt denna vecka, "Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos," OpenAI-forskare Bowen Baker och team bryter mark i användningen av stora datamängder för att träna ett neuralt nätverk för att efterlikna mänskliga tangenttryckningar för att lösa olika uppgifter i videon spel. (Ett blogginlägg har också postats av OpenAI.) 

En uppsjö av neurala nätverk har erövrat olika typer av spel via vad som kallas förstärkningsinlärning de senaste åren, inklusive DeepMind DeepMinds AlphaZero, som tog sig an schack, Go och Shogi, och den efterföljande MuZero program, som lade till möjligheten att hantera Atari-spel. 

Baker och teamet ville utveckla ett neuralt nätverk för den mer komplexa "öppna världen"-spelmiljön i Minecraft, där en rad tangenttryckningar tillåter spelare mycket större frihetsgrader än i schack eller Atari-spel. 

Dessutom: AI på sextio sekunder 

Forskningslitteraturen, skriver författarna, innehåller en "stor mängd" arbete med Minecraft. Men VPT-arbetet är unikt, skriver de, för sin omfattning och omfattning: "Såvitt vi vet finns det inget publicerat arbete som verkar i det fullständiga, omodifierade mänskliga handlingsutrymmet, vilket inkluderar dra-och-släpp-inventeringshantering och att tillverka föremål."

Arbetet med att bygga det neurala nätverket, kallat VPT, skedde i två steg. Det första steget behövde mänskliga spelare eller entreprenörer, som samlade ihop 4,500 2,000 timmars spel. Forskarna kom senare på att de egentligen bara behövde cirka XNUMX XNUMX timmar.

Baker och team beskriver processen:

Vi hade ansökningarna öppna under en dag, och valde sedan slumpmässigt ut 10 sökande till den första omgången av entreprenörer. Senare i projektet, eftersom vi behövde mer data och eftersom vissa entreprenörer bad om att säga upp sina kontrakt, lade vi till fler sökande från den ursprungliga poolen samt remisser från de för närvarande arbetande entreprenörerna. Entreprenörerna fick betalt $20 per timme (minus Upwork-plattformsavgifter och tillämpliga skatter). Alla resultat som presenteras i det här dokumentet är baserade på cirka 4,500 90,000 timmars data (inklusive data som registrerats för att samla in statistik över mänsklig lek som inte användes för träning), vilket kostade oss runt 160 4.6 dollar. Under projektets gång samlade vi in ​​en del data som vi inte använde på grund av buggar i inspelaren och för vissa idéer gick vi till slut inte efter. Totalt spenderade vi cirka 2000 8000 USD för entreprenörskompensation under projektets gång. Men som vi diskuterar i Sec. 2000, skulle vi sannolikt kunna få de flesta av våra resultat med en IDM som tränats med hjälp av data till ett värde av endast $40,000, dvs grundmodellen för VPT, BC-finjustering till earlygame_keyword-datauppsättningen och RL-finjusteringsresultaten. Att samla in datasetet contractor_house kostade cirka $XNUMX. Eftersom vi använde IDM som tränades på cirka XNUMX timmars entreprenörsdata, var den faktiska kostnaden för entreprenörsdata för dessa resultat cirka XNUMX XNUMX USD.

Under dessa 4,500 XNUMX timmar fäste de etiketter på ramarna i spelvideon för åtgärder som "inventering", för att kontrollera en spelares samling av föremål, med hjälp av "E"-tangenten; och "smyga" för att flytta "försiktigt" i den aktuella riktningen med hjälp av SHIFT nyckel. Dessa åtgärder spelas in som JSON-textsträngar vid varje speltillfälle och lagras med videoramarna. 

Ramarna av spelet med deras märkta handlingar användes för att träna ett neuralt nät som kallas en invers dynamikmodell, eller IDM, som lär sig vilka handlingar som går med vilka ramar. IDM är en mash-up av flera typer av neurala nät, inklusive ett 3-D konvolutionellt neuralt nät och ett ResNet för att analysera videoramarna, och flera transformatornätverk av uppmärksamhet för att förutsäga nästa videobildruta. 

Dessutom: Kännande? Google LaMDA känns som en typisk chatbot

Den IDM:s tränade förmågan används sedan på en mycket större uppsättning videofilmer, totalt 70,000 XNUMX timmar omärkta Minecraft-filmer samlade från webben. IDM tillämpar "pseudo-etiketter" på den mycket större samlingen. Med andra ord, IDM och entreprenörsavgifterna är ett sätt att starta upp ett enormt videoträningsset. 

openai-vpt-utbildning-2022

Träningsschemat för VPT.

OpenAI

Hur dyr entreprenörsbetalningen än kan tyckas, innebär tillvägagångssättet stora kostnadsbesparingar, skriver författarna. Om de var tvungna att samla in entreprenörsdata motsvarande de 70,000 XNUMX timmarna med webbvideor, skulle det bli mycket dyrare.

"Om vi ​​billigt kunde samla in en märkt entreprenörsdatauppsättning av en liknande storleksordning som web_clean, då skulle detta inte vara viktigt; Men att samla in den omfattningen av data skulle ha kostat miljontals dollar.”

Med hjälp av de 70,000 XNUMX timmarna tränar författarna sedan ett andra neuralt nätverk, som också består av transformatorlager, för att efterlikna användarens handlingar i videorna, en vanlig praxis som kallas "beteendekloning".

Poängen med arbetet är att hitta ett sätt att utbilda en "agent" för allmänt bruk som kan använda mängden data på Internet som inte har några etiketter för att lösa uppgifter som involverar kausalitet, mening och handlingssekvenser som har en nödvändig relation från den ena till den andra. 

"Resultaten som presenteras i det här dokumentet hjälper till att bana vägen för att använda rikedomen av omärkt data på webben för sekventiella beslutsdomäner", skriver de. 

Verket kan tänkas användas för många datoruppgifter som kräver sekvenser av musklick och andra mänskliga operatörskontroller, föreslår de. 

"Medan vi bara experimenterar i Minecraft, tror vi att VPT ger ett allmänt recept för att träna beteendemässiga föregångare i hårda, men ändå generiska, handlingsutrymmen i alla domäner som har en stor mängd fritt tillgänglig omärkt data, som datoranvändning."

Open-AI är mest känt för det stora språkprogrammet som heter GPT-3, som också använder ett "förtränat" tillvägagångssätt baserat på massor av webbdata som inte är märkt. På sätt och vis utökar Minecraft-spelet det tillvägagångssättet för att mimika beteendet inom området för sekventiella datoruppgifter som fångas via video. 

Dessutom: Vad är GPT-3? Allt ditt företag behöver veta om OpenAI:s banbrytande AI-språkprogram

Den ultimata prestationen är att i vissa fall överskrida den tid som krävs för en människa att uppnå en av de svåraste uppgifterna, att få en diamanthacka.

I Minecraft håller diamantbaserade verktyg bara längre och kan göra mer skada. Diamond hackor är de enda som är särskilt viktiga för de flesta spelare. Du behöver en diamanthacka för att bryta obsidian och ett fiktivt material som kallas netherite, som båda är viktiga för slutspelsaktiviteter som att förtrolla bord och göra netherite-utrustning.

Efter att ha tränat VPT för att lära sig alla möjliga Minecraft-uppgifter, använde författarna ett "finjusterande" tillvägagångssätt som utvecklade ett förstärkt inlärningsneuralt nätverk för att skapa en diamanthacka på en snabbare tid än normalt. 

"För att demonstrera effektiviteten av RL-finjustering valde vi det utmanande målet att erhålla en diamanthacka inom 10 minuter från en ny Minecraft-överlevnadsvärld", skriver de. 

Detta är utmanande för människor, som vanligtvis tar dubbelt så lång tid att göra det, om de kan göra det alls:

Att göra det innebär att skaffa en sekvens av svåråtkomliga föremål som kräver komplexa färdigheter som gruvdrift, lagerhantering, hantverk med och utan hantverksbord, verktygsanvändning, drift av en ugn och gruvdrift på de lägsta djupen, där många faror som fiender och lava existerar (Fig. 6). Utöver svårigheten kan framsteg lätt gå förlorade genom att släppa föremål, förstöra föremål eller dö. Att få en diamanthacka tar oftare än inte en skicklig människa över 20 minuter (24,000 XNUMX handlingar).

När författarna samlade in både entreprenörsdata och de omärkta 70,000 XNUMX timmarna av webbvideo, var författarna medvetna om möjligheten till stötande innehåll. "Entreprenörerna skulle teoretiskt kunna använda Minecrafts egendom i öppen värld för att generera personligt identifierbar information och/eller stötande innehåll (t.ex. genom att använda Minecraft-block för att skriva sitt namn eller stötande meddelanden, och sedan hitta en plats varifrån meddelandet skulle vara synligt)", de skriva, även om de inte såg detta i videorna från entreprenörer som författarna tittade på. 

"Självklart tränar vi våra BC-modeller [beteendekloning] på videor från internet av personer som spelar Minecraft, och om sådant beteende finns i dessa videor kan vår modell också potentiellt lära sig det, även om vi förväntar oss att sådant beteende är sällsynt nog att vår modell skulle sannolikt inte reproducera det”, skriver de. 

Vart tar en sådan generalagent vägen härnäst? Tanken är att att ha erövrat diamantyxor, VPT, eller dess avkomma, kan göra alla möjliga saker som en person kan göra med en mus och tangentbord, inklusive att bua biljetter, surfa på sociala medier eller navigera på kartor. 

Källa