Ang OpenAI ay gumastos ng $160,000 sa Upwork para sa mga manlalaro ng Minecraft upang sanayin ang isang neural net

crafting-diamond-pickaxe

Mula sa video ng VPT na hinahabol ang paggawa ng diamong pickaxe sa Minecraft. Nakamit ng programa sa kompyuter ang tagumpay sa loob ng sampung minuto, kalahati ng oras na kakailanganin ng isang mahusay na manlalaro ng tao upang magawa ito.

Gaano kahalaga ang pag-master ng “diamond tool” sa Minecraft?

Sapat na mahalagang gumastos ng $160,000, ayon sa OpenAI, ang artificial intelligence startup.

Iyan ang halaga ng pera na ginugol ng isang team sa OpenAI upang kumuha ng mga manlalaro ng Minecraft sa online na platform ng mga listahan ng trabaho na Upwork upang magsumite ng mga video ng kanilang mga sarili na naglalaro ng laro. 

Amazon Prime Day 2022: Mga Maagang Deal

In isang papel na inilantad ngayong linggo, “Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos,” OpenAI researchers Bowen Baker and team break ground sa paggamit ng malalaking datasets para sanayin ang neural network para gayahin ang mga keystroke ng tao para malutas ang iba't ibang gawain sa video. laro. (Isang blog post nai-post na rin ng OpenAI.) 

Ang isang kalabisan ng mga neural network ay sumakop sa iba't ibang uri ng mga laro sa pamamagitan ng tinatawag na reinforcement learning nitong mga nakaraang taon, kabilang ang DeepMind DeepMind's AlphaZero, na kumuha ng chess, Go, at Shogi, at ang kasunod na MuZero programa, na nagdagdag ng kakayahang pangasiwaan ang mga laro ng Atari. 

Nais ng Baker at ng team na bumuo ng neural network para sa mas kumplikadong "open world" na kapaligiran ng laro ng Minecraft, kung saan ang hanay ng mga keystroke ay nagbibigay-daan sa mga manlalaro ng mas malaking antas ng kalayaan kaysa sa mga larong chess o Atari. 

Ito: AI sa Sixty Seconds 

Ang literatura ng pananaliksik, isinulat ng mga may-akda, ay may kasamang "malaking halaga" ng trabaho sa Minecraft. Ngunit ang gawain ng VPT ay natatangi, isinulat nila, para sa saklaw at sukat nito: "Sa abot ng aming kaalaman, walang nai-publish na gawain na gumagana nang buo, hindi binagong puwang ng pagkilos ng tao, na kinabibilangan ng drag-and-drop na pamamahala ng imbentaryo at paggawa ng item.”

Ang gawain ng pagbuo ng neural network, na tinatawag na VPT, ay naganap sa dalawang yugto. Ang unang yugto ay nangangailangan ng mga manlalaro o kontratista ng laro ng tao, na nagtipon ng 4,500 oras ng paglalaro. Nang maglaon, nalaman ng mga mananaliksik na kailangan lang nila ng halos 2,000 oras.

Inilarawan ng Baker at team ang proseso:

Binuksan namin ang mga aplikasyon sa loob ng isang araw, at pagkatapos ay random na pumili ng 10 aplikante para sa unang round ng mga kontratista. Nang maglaon sa proyekto, dahil kailangan namin ng karagdagang data at habang hiniling ng ilang kontratista na wakasan ang kanilang mga kontrata, nagdagdag kami ng higit pang mga aplikante mula sa orihinal na pool pati na rin ang mga referral mula sa kasalukuyang nagtatrabaho na mga kontratista. Ang mga kontratista ay binayaran ng $20 kada oras (binawasan ang mga bayarin sa platform ng Upwork at mga naaangkop na buwis). Ang lahat ng mga resulta na ipinakita sa papel na ito ay batay sa humigit-kumulang 4,500 na oras ng data (kabilang ang data na naitala upang mangalap ng mga istatistika ng paglalaro ng tao na hindi ginamit para sa pagsasanay), na nagkakahalaga sa amin ng humigit-kumulang $90,000. Sa kabuuan ng proyekto, nakolekta namin ang ilang data na hindi namin ginamit dahil sa mga bug sa recorder at para sa ilang ideya sa huli ay hindi namin natuloy. Sa kabuuan, gumastos kami ng humigit-kumulang $160k para sa kompensasyon ng kontratista sa panahon ng proyekto. Gayunpaman, tulad ng tinalakay natin sa Sec. 4.6, malamang na makuha namin ang karamihan sa aming mga resulta gamit ang isang IDM na sinanay gamit lamang ang $2000 na halaga ng data, ibig sabihin, ang foundation VPT model, BC fine-tuning sa earlygame_keyword dataset, at ang RL fine-tuning na mga resulta. Ang pagkolekta ng contractor_house dataset ay nagkakahalaga ng humigit-kumulang $8000. Dahil ginamit namin ang IDM na sinanay sa humigit-kumulang 2000 oras ng data ng kontratista, ang aktwal na halaga ng data ng kontratista para sa mga resultang iyon ay humigit-kumulang $40,000.

Para sa 4,500 oras na iyon, nag-attach sila ng mga label sa mga frame ng video ng laro para sa mga aksyon tulad ng "imbentaryo," upang suriin ang koleksyon ng mga bagay ng manlalaro, gamit ang "E" na key; at "sneak," upang ilipat "maingat" sa kasalukuyang direksyon, gamit ang SHIFT susi. Ang mga pagkilos na iyon ay naitala bilang mga string ng teksto ng JSON sa bawat sandali ng paglalaro at iniimbak kasama ng mga video frame. 

Ang mga frame ng gameplay na may mga label na aksyon ay ginamit para sanayin ang isang neural net na tinatawag na inverse dynamics model, o IDM, na natututo kung anong mga aksyon ang kasama sa kung anong mga frame. Ang IDM ay isang mash-up ng ilang uri ng neural nets, kabilang ang isang 3-D convolutional neural net at isang ResNet para i-parse ang mga video frame, at ilang Transformer network ng atensyon upang mahulaan ang susunod na video frame. 

Ito: Sentient? Ang Google LaMDA ay parang isang karaniwang chatbot

Ang sinanay na kakayahan ng IDM na iyon ay gagamitin sa mas malaking hanay ng video footage, sa kabuuan na 70,000 oras ng walang label na Minecraft footage na nakalap mula sa Web. Inilalapat ng IDM ang "mga pseudo-label" sa napakalaking koleksyong iyon. Sa madaling salita, ang IDM, at ang mga bayarin sa kontratista, ay isang paraan upang mag-bootstrap ng malaking set ng pagsasanay sa video. 

openai-vpt-training-2022

Ang regimen ng pagsasanay para sa VPT.

OpenAI

Kahit gaano kamahal ang pagbabayad ng kontratista, ang diskarte ay kumakatawan sa isang malaking pagtitipid sa gastos, isinulat ng mga may-akda. Kung kailangan nilang mangolekta ng data ng kontratista na katumbas ng 70,000 oras ng mga video sa Web, ito ay magiging mas mahal.

“Kung maaari kaming murang mangolekta ng isang may label na dataset ng kontratista na may katulad na pagkakasunud-sunod ng magnitude bilang web_clean, hindi ito magiging mahalaga; gayunpaman, ang pagkolekta ng sukat ng data na iyon ay nagkakahalaga ng milyun-milyong dolyar."

Gamit ang 70,000 oras, sinasanay ng mga may-akda ang pangalawang neural network, na binubuo rin ng mga layer ng Transformer, upang gayahin ang mga pagkilos ng user sa mga video, isang karaniwang kasanayan na kilala bilang "behavioral cloning."

Ang punto ng trabaho ay upang makahanap ng isang paraan upang sanayin ang isang pangkalahatang layunin na "ahente" ng computer na maaaring gumamit ng kayamanan ng data sa Internet na walang mga label upang malutas ang mga gawain na may kinalaman sa sanhi, kahulugan, at pagkakasunud-sunod ng mga aksyon na may kinakailangang relasyon mula sa isa hanggang sa susunod. 

"Ang mga resulta na ipinakita sa papel na ito ay tumutulong sa paghandaan ang landas sa paggamit ng kayamanan ng walang label na data sa web para sa mga sequential na mga domain ng desisyon," isinulat nila. 

Ang trabaho ay maaaring gamitin para sa maraming mga gawain sa computer na nangangailangan ng mga pagkakasunud-sunod ng mga pag-click ng mouse at iba pang mga kontrol ng operator ng tao, iminumungkahi nila. 

"Bagama't nag-eeksperimento lamang kami sa Minecraft, naniniwala kami na ang VPT ay nagbibigay ng isang pangkalahatang recipe para sa pagsasanay ng mga nauna sa pag-uugali sa mahirap, ngunit generic, na mga puwang ng pagkilos sa anumang domain na may malaking halaga ng malayang magagamit na walang label na data, gaya ng paggamit ng computer."

Ang Open-AI ay pinakamahusay na kilala para sa malaking programa ng wika na tinatawag na GPT-3, na gumagamit din ng "pre-trained" na diskarte batay sa tonelada ng data sa Web na walang label. Sa isang kahulugan, pinalawak ng larong Minecraft ang diskarteng iyon sa paggaya ng pag-uugali sa domain ng mga sunud-sunod na gawain sa computer na nakuha sa pamamagitan ng video. 

Gayundin: Ano ang GPT-3? Lahat ng kailangang malaman ng iyong negosyo tungkol sa pambihirang programa ng AI language ng OpenAI

Ang pangwakas na tagumpay ay sa ilang mga kaso ay lumampas sa oras na kinakailangan para sa isang tao upang makamit ang isa sa pinakamahirap na gawain, ang pagkuha ng isang brilyante na piko.

Sa Minecraft, ang mga tool na nakabatay sa diyamante ay tumatagal lamang at maaaring makagawa ng mas maraming pinsala. Ang mga diamond pickax lang ang partikular na mahalaga sa karamihan ng mga manlalaro. Kailangan mo ng diamond pickaxe para magmina ng obsidian at isang kathang-isip na materyal na tinatawag na netherite, na parehong mahalaga para sa mga aktibidad ng endgame tulad ng mga nakakaakit na mesa at paggawa ng netherite equipment.

Pagkatapos ng pagsasanay sa VPT para matutunan ang lahat ng uri ng mga gawain sa Minecraft, gumamit ang mga may-akda ng "fine-tuning" na diskarte na bumuo ng reinforcement learning neural network para gumawa ng diamond pickaxe sa mas mabilis kaysa sa normal na oras. 

"Upang ipakita ang bisa ng RL fine-tuning, pinili namin ang mapaghamong layunin ng pagkuha ng diamond pickaxe sa loob ng 10 minuto simula sa isang bagong mundo ng kaligtasan ng Minecraft," isinulat nila. 

Ito ay mapaghamong para sa mga tao, na kadalasang tumatagal ng dalawang beses na mas matagal upang gawin ito, kung magagawa nila ito:

Ang paggawa nito ay nagsasangkot ng pagkuha ng isang pagkakasunud-sunod ng mga bagay na mahirap makuha na nangangailangan ng mga kumplikadong kasanayan tulad ng pagmimina, pamamahala ng imbentaryo, paggawa ng gamit at walang crafting table, paggamit ng tool, pagpapatakbo ng furnace, at pagmimina sa pinakamababang lalim, kung saan maraming mga panganib tulad ng mga kaaway. at lava ang umiiral (Larawan 6). Dagdag pa sa kahirapan, ang pag-unlad ay madaling mawala sa pamamagitan ng pag-drop ng mga item, pagsira ng mga item, o pagkamatay. Ang pagkuha ng diamond pickaxe nang mas madalas kaysa sa nangangailangan ng isang mahusay na tao sa loob ng 20 minuto (24,000 aksyon).

Sa pag-assemble ng parehong data ng kontratista at ang walang label na 70,000 oras ng Web video, inisip ng mga may-akda ang posibilidad ng nakakasakit na nilalaman. “Maaaring gamitin ng mga kontratista sa teorya ang open-world na ari-arian ng Minecraft upang bumuo ng personal na makikilalang impormasyon at/o nakakasakit na nilalaman (hal. sa pamamagitan ng paggamit ng mga bloke ng Minecraft upang isulat ang kanilang pangalan o mga nakakasakit na mensahe, pagkatapos ay maghanap ng lugar kung saan makikita ang mensahe),” sila magsulat, kahit na hindi nila ito nakita sa mga video mula sa mga kontratista na pinanood ng mga may-akda. 

"Siyempre, sinasanay namin ang aming BC [behavioral cloning] na mga modelo sa mga video mula sa internet ng mga taong naglalaro ng Minecraft, at kung ang ganoong pag-uugali ay nasa mga video na iyon ay posibleng matutunan din ito ng aming modelo, bagama't inaasahan namin na ang gayong pag-uugali ay bihirang sapat na ang aming modelo ay hindi malamang na magparami nito,” ang isinulat nila. 

Saan susunod na pupunta ang naturang pangkalahatang ahente? Ang ideya ay ang pagkakaroon ng pagsakop sa mga diamond axes, VPT, o mga supling nito, ay maaaring gawin ang lahat ng uri ng mga bagay na maaaring gawin ng isang tao gamit ang mouse at keyboard, kabilang ang mga booing ticket, pag-surf sa social media, o pag-navigate sa mga mapa. 

pinagmulan