OpenAI je porabil 160,000 $ za Upwork za igralce Minecrafta za usposabljanje nevronske mreže

crafting-diamond-pikapo

Iz videoposnetka VPT, ki si prizadeva za izdelavo diamantne krampe v Minecraftu. Računalniški program je podvig dosegel v desetih minutah, kar je polovica časa, ki bi ga za to potreboval izkušen človeški igralec.

Kako pomembno bi bilo obvladati "diamantno orodje" v Minecraftu?

Dovolj pomemben, da bi porabil 160,000 $, pravi OpenAI, startup za umetno inteligenco.

To je znesek denarja, ki ga je ekipa pri OpenAI porabila za najem igralcev Minecrafta na spletni platformi za sezname delovnih mest Upwork, da predložijo svoje videoposnetke med igranjem igre. 

Amazon Prime Day 2022: zgodnje ponudbe

In razkrit papir ta teden, »Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos«,« raziskovalci OpenAI Bowen Baker in ekipa odpirajo temelje pri uporabi velikih naborov podatkov za usposabljanje nevronske mreže za posnemanje človeških pritiskov tipk za reševanje različnih nalog v videu. igra. (Objava na blogu je bilo tudi objavljeno z OpenAI.) 

Množica nevronskih mrež je v zadnjih letih osvojila različne vrste iger s tako imenovanim učenjem s krepitvijo, vključno z DeepMind DeepMindovim AlphaZero, ki je prevzel šah, Go in Shogi ter poznejše MuZero program, ki je dodal možnost upravljanja iger Atari. 

Baker in ekipa so želeli razviti nevronsko mrežo za bolj zapleteno igralno okolje »odprtega sveta« Minecrafta, kjer niz pritiskov na tipke omogoča igralcem veliko večjo stopnjo svobode kot v šahu ali igrah Atari. 

Prav tako: AI v šestdesetih sekundah 

Raziskovalna literatura, pišejo avtorji, vključuje "veliko količino" dela o Minecraftu. Toda delo VPT je edinstveno, pišejo, zaradi svojega obsega in obsega: »Kolikor nam je znano, ni objavljenega dela, ki bi delovalo v celotnem, nespremenjenem človeškem akcijskem prostoru, ki vključuje upravljanje inventarja povleci in spusti ter izdelava predmetov."

Delo izgradnje nevronske mreže, imenovane VPT, je potekalo v dveh fazah. Prva faza je zahtevala človeške igralce ali izvajalce, ki so zbrali 4,500 ur igranja iger. Raziskovalci so pozneje ugotovili, da so v resnici potrebovali le okoli 2,000 ur.

Baker in ekipa opisujejo postopek:

Prijave smo imeli odprte en dan, nato pa smo naključno izbrali 10 prijavljenih za prvi krog izvajalcev. Kasneje v projektu, ko smo potrebovali več podatkov in ker so nekateri izvajalci zaprosili za prekinitev pogodb, smo dodali več prosilcev iz prvotne skupine in napotitve trenutno delujočih izvajalcev. Izvajalci so bili plačani 20 USD na uro (minus pristojbine za platformo Upwork in veljavni davki). Vsi rezultati, predstavljeni v tem prispevku, temeljijo na približno 4,500 urah podatkov (vključno s podatki, posnetimi za zbiranje statistike človeške igre, ki ni bila uporabljena za usposabljanje), kar nas je stalo okoli 90,000 $. Med projektom smo zbrali nekaj podatkov, ki jih nismo uporabili zaradi napak v snemalniku, in za nekatere ideje, ki jih na koncu nismo uresničili. Skupaj smo med projektom porabili približno 160 $ za nadomestila izvajalcem. Vendar, kot razpravljamo v odd. 4.6, bi večino naših rezultatov verjetno lahko pridobili z IDM, usposobljenim za uporabo samo podatkov v vrednosti 2000 USD, tj. temeljnega modela VPT, natančnega prilagajanja BC na nabor podatkov zgodnje igre_keyword in rezultatov natančnega prilagajanja RL. Zbiranje nabora podatkov contractor_house je stalo približno 8000 USD. Ker smo uporabili IDM, usposobljen za približno 2000 ur podatkov o izvajalcih, je dejanski strošek podatkov o izvajalcih za te rezultate znašal približno 40,000 USD.

V teh 4,500 urah so na okvirje videoposnetkov igre pritrdili oznake za dejanja, kot je »inventar«, za preverjanje igralčeve zbirke predmetov s tipko »E«; in "pritihotapiti", da se "previdno" premikate v trenutni smeri z uporabo SHIFT ključ. Ta dejanja so posneta kot besedilni nizi JSON v vsakem trenutku igranja igre in shranjena z video okvirji. 

Okvirji igranja z označenimi dejanji so bili uporabljeni za usposabljanje nevronske mreže, imenovane inverzni dinamični model ali IDM, ki se uči, katera dejanja so povezana s kakšnimi okvirji. IDM je mešanica več vrst nevronskih mrež, vključno s 3-D konvolucijsko nevronsko mrežo in ResNet za razčlenjevanje video okvirjev ter več transformatorskih mrež pozornosti za napovedovanje naslednjega video okvirja. 

Prav tako: Čuteč? Google LaMDA deluje kot tipičen chatbot

Ta izurjena sposobnost IDM-ja se nato uporabi na veliko večjem naboru videoposnetkov, skupaj 70,000 ur neoznačenih posnetkov Minecrafta, zbranih s spleta. IDM uporabi "psevdo-oznake" za to veliko večjo zbirko. Z drugimi besedami, IDM in honorarji izvajalcev so način za zagon ogromnega videoposnetka za usposabljanje. 

openai-vpt-usposabljanje-2022

Režim treninga za VPT.

OpenAI

Čeprav se morda zdi plačilo izvajalca drago, pristop predstavlja velik prihranek stroškov, pišejo avtorji. Če bi morali zbrati podatke o izvajalcih, ki ustrezajo 70,000 uram spletnih videov, bi bilo to veliko dražje.

»Če bi lahko poceni zbrali označeni nabor podatkov izvajalca podobnega reda velikosti kot web_clean, potem to ne bi bilo pomembno; vendar bi zbiranje te količine podatkov stalo na milijone dolarjev.«

Z uporabo 70,000 ur avtorji nato urijo drugo nevronsko mrežo, prav tako sestavljeno iz transformatorskih plasti, da posnema dejanja uporabnikov v videoposnetkih, kar je običajna praksa, znana kot "vedenjsko kloniranje".

Bistvo dela je najti način za usposabljanje splošnega računalniškega »agenta«, ki lahko uporabi bogastvo podatkov na internetu brez oznak za reševanje nalog, ki vključujejo vzročnost, pomen in zaporedja dejanj, ki imajo potreben odnos od enega do drugega. 

"Rezultati, predstavljeni v tem dokumentu, pomagajo utreti pot k izkoriščanju bogastva neoznačenih podatkov na spletu za domene zaporednega odločanja," pišejo. 

Delo se lahko domnevno uporablja za številne računalniške naloge, ki zahtevajo zaporedje klikov miške in druge kontrole človeškega operaterja, predlagajo. 

"Medtem ko eksperimentiramo samo v Minecraftu, verjamemo, da VPT zagotavlja splošen recept za usposabljanje vedenjskih predhodnikov v trdih, a splošnih akcijskih prostorih v kateri koli domeni, ki ima veliko količino prosto dostopnih neoznačenih podatkov, kot je uporaba računalnika."

Open-AI je najbolj znan po velikem jezikovnem programu, imenovanem GPT-3, ki prav tako uporablja "vnaprej usposobljen" pristop, ki temelji na tonah spletnih podatkov, ki niso označeni. V nekem smislu igra Minecraft razširja ta pristop na posnemanje vedenja v domeni zaporednih računalniških nalog, posnetih prek videa. 

Tudi: Kaj je GPT-3? Vse, kar mora vaše podjetje vedeti o prelomnem jezikovnem programu AI OpenAI

Končni dosežek je v nekaterih primerih preseči čas, ki je potreben, da človek opravi eno najtežjih nalog, dobiti diamantni kramp.

V Minecraftu diamantna orodja le trajajo dlje in lahko naredijo več škode. Diamantni krampi so edini, ki so posebej pomembni za večino igralcev. Potrebujete diamantno kramp za rudarjenje obsidiana in izmišljenega materiala, imenovanega netherite, ki sta pomembna za dejavnosti v končni igri, kot sta očarljivost miz in izdelava opreme iz netherita.

Potem ko so VPT usposobili za učenje vseh vrst nalog Minecrafta, so avtorji uporabili pristop »fine nastavitve«, ki je razvil nevronsko mrežo za učenje okrepitve za oblikovanje diamantne krampe v hitrejšem času od običajnega. 

»Za prikaz učinkovitosti natančnega prilagajanja RL smo izbrali zahteven cilj pridobitve diamantne krampe v 10 minutah, začenši s svežim svetom preživetja Minecraft,« pišejo. 

To je izziv za ljudi, ki za to običajno potrebujejo dvakrat več časa, če sploh zmorejo:

To vključuje pridobivanje zaporedja težko dostopnih predmetov, ki zahtevajo zapletene veščine, kot so rudarjenje, upravljanje inventarja, izdelovanje z in brez mize za izdelovanje, uporaba orodja, upravljanje peči in rudarjenje na najnižjih globinah, kjer je veliko nevarnosti, kot so sovražniki. in lava obstaja (slika 6). Težavnost je še večja, napredek lahko zlahka izgubite, če odvržete predmete, uničite predmete ali umrete. Pridobivanje diamantne krampe pogosteje kot ne zahteva izkušenega človeka več kot 20 minut (24,000 dejanj).

Pri zbiranju tako podatkov izvajalca kot neoznačenih 70,000 ur spletnega videa so avtorji upoštevali možnost žaljive vsebine. "Izvajalci bi teoretično lahko uporabili Minecraftovo lastnost odprtega sveta za ustvarjanje osebno določljivih informacij in/ali žaljive vsebine (npr. z uporabo blokov Minecraft za pisanje svojega imena ali žaljivih sporočil, nato pa najdejo mesto, s katerega bi bilo sporočilo vidno)," so povedali. pišejo, čeprav tega niso videli v videih izvajalcev, ki so si jih avtorji ogledali. 

»Seveda naše modele BC [vedenjskega kloniranja] usposabljamo na videoposnetkih ljudi, ki igrajo Minecraft iz interneta, in če je takšno vedenje v teh videoposnetkih, bi se ga lahko naučil tudi naš model, čeprav pričakujemo, da je takšno vedenje dovolj redko, da bi naš model verjetno ne bi reproducirali,« pišejo. 

Kam gre potem tak generalni zastopnik? Ideja je, da lahko VPT ali njegov potomec, ko je osvojil diamantne sekire, počne vse vrste stvari, ki bi jih oseba lahko počela z miško in tipkovnico, vključno z žvižganjem vstopnic, brskanjem po družbenih medijih ali navigacijo po zemljevidih. 

vir