OpenAI käytti 160,000 XNUMX dollaria Upworkiin Minecraft-pelaajille neuroverkon kouluttamiseen

askartelu-timanttihakku

Videolta, jossa VPT pyrkii tekemään timanttihakkua Minecraftissa. Tietokoneohjelma saavutti saavutuksen kymmenessä minuutissa, mikä on puolet ajasta, joka vaati taitavalta ihmispelaajalta sen tekemiseen.

Kuinka tärkeää voi olla "timanttityökalun" hallitseminen Minecraftissa?

Riittävän tärkeä 160,000 XNUMX dollarin käyttämiseen tekoäly-startupin OpenAI:n mukaan.

Tämä on rahasumma, jonka OpenAI:n tiimi käytti Minecraftin pelaajien palkkaamiseen online-työpaikkalistausalustalla Upwork lähettääkseen videoita pelaamisestaan. 

Amazon Prime Day 2022: Early Deals

In paljastettu lehti Tällä viikolla "Video PreTraining (VPT): Oppiminen toimimaan katsomalla leimaamattomia online-videoita" OpenAI-tutkijat Bowen Baker ja tiimi murtautuvat suurten tietojoukkojen käytössä kouluttaakseen hermoverkkoa jäljittelemään ihmisen näppäinpainalluksia videon eri tehtävien ratkaisemiseksi. peli. (Blogikirjoitus on myös lähetetty OpenAI:lta.) 

Lukuisat hermoverkot ovat valloittaneet erilaisia ​​pelejä niin sanotun vahvistusoppimisen kautta viime vuosina, mukaan lukien DeepMind DeepMind's AlphaZero, joka otti vastaan ​​shakin, Go:n ja Shogin sekä sitä seuranneen. MuZero ohjelma, joka lisäsi mahdollisuuden käsitellä Atari-pelejä. 

Baker ja tiimi halusivat kehittää hermoverkon Minecraftin monimutkaisempaan "avoimen maailman" peliympäristöön, jossa useat näppäinpainallukset tarjoavat pelaajille paljon suuremman vapauden kuin shakki- tai Atari-peleissä. 

Myös: Tekoäly kuudessakymmenessä sekunnissa 

Tutkimuskirjallisuus, kirjoittajat kirjoittavat, sisältää "valtavan määrän" Minecraftia koskevaa työtä. Mutta VPT-työ on ainutlaatuinen, he kirjoittavat laajuutensa ja mittakaavansa vuoksi: "Parhaan tietomme mukaan ei ole julkaistua teosta, joka toimisi täydellisessä, muuttamattomassa ihmisen toimintatilassa, johon sisältyy varaston hallinta ja pudotus sekä vetämällä ja pudottamalla. esineiden askartelu."

Neuraaliverkon, nimeltään VPT, rakennustyö eteni kahdessa vaiheessa. Ensimmäinen vaihe tarvitsi ihmispelaajia tai urakoitsijoita, jotka kokosivat 4,500 2,000 pelituntia. Myöhemmin tutkijat tajusivat, että he tarvitsivat vain noin XNUMX tuntia.

Baker ja tiimi kuvaavat prosessia:

Hakemukset olivat avoinna päivän ajan, minkä jälkeen valitsimme satunnaisesti 10 hakijaa ensimmäiselle urakoitsijakierrokselle. Myöhemmin projektin aikana, kun tarvitsimme lisää tietoja ja kun jotkut urakoitsijat pyysivät irtisanoa sopimuksensa, lisäsimme lisää hakijoita alkuperäisestä poolista sekä suosituksia tällä hetkellä toimivilta urakoitsijoilta. Urakoitsijoiden maksettiin 20 dollaria tunnilta (miinus Upwork-alustan maksut ja sovellettavat verot). Kaikki tässä asiakirjassa esitetyt tulokset perustuvat noin 4,500 90,000 tunnin tietoihin (mukaan lukien tiedot, jotka on tallennettu tilastotietojen keräämiseen ihmisleikkeistä, joita ei käytetty harjoitteluun), mikä maksoi meille noin 160 4.6 dollaria. Keräsimme projektin aikana joitakin tietoja, joita emme käyttäneet tallentimen bugien vuoksi, ja joitain ideoita emme lopulta toteuttaneet. Yhteensä käytimme noin 2000 8000 dollaria urakoitsijan korvauksiin projektin aikana. Kuitenkin, kuten keskustelemme kohdassa Sec. 2000, voisimme todennäköisesti saada suurimman osan tuloksistamme IDM:llä, joka on koulutettu käyttämällä vain 40,000 dollarin arvoista dataa, eli VPT-perusmalli, BC-hienosäätö earlygame_keyword-tietojoukolle ja RL-hienosäätötulokset. Contractor_house-tietojoukon kerääminen maksoi noin XNUMX dollaria. Koska käytimme IDM:ää, joka oli koulutettu noin XNUMX XNUMX tunnin urakoitsijoiden tietoihin, urakoitsijatietojen todellinen hinta näille tuloksille oli noin XNUMX XNUMX dollaria.

Näiden 4,500 XNUMX tunnin ajan he kiinnittivät pelivideon kehyksiin tarroja toimintoihin, kuten "inventaarioon", tarkistaakseen pelaajan esinekokoelman käyttämällä "E"-näppäintä; ja "hiipiä" liikkuaksesi "varovasti" nykyiseen suuntaan käyttämällä SHIFT avain. Nämä toiminnot tallennetaan JSON-tekstijonoina pelin jokaisella hetkellä ja tallennetaan videokehysten mukana. 

Pelin kehyksiä ja niiden merkittyjä toimintoja käytettiin kouluttamaan hermoverkkoa, jota kutsutaan käänteisdynamiikkamalliksi tai IDM:ksi, joka oppii, mitkä toiminnot liittyvät mihinkin kehyksiin. IDM on sekoitus monenlaisia ​​hermoverkkoja, mukaan lukien kolmiulotteinen konvoluutiohermoverkko ja ResNet videokehysten jäsentämiseksi sekä useita muuntajaverkkoja, jotka ennustavat seuraavan videokehyksen. 

Myös: Tunteva? Google LaMDA tuntuu tyypilliseltä chatbotilta

Tätä IDM:n koulutettua kykyä käytetään sitten paljon suuremmassa sarjassa videomateriaalia, yhteensä 70,000 XNUMX tuntia verkosta kerättyä leimaamatonta Minecraft-materiaalia. IDM käyttää "pseudo-tunnisteita" tuohon huomattavasti suurempaan kokoelmaan. Toisin sanoen IDM ja urakoitsijan palkkiot ovat tapa käynnistää valtava videoharjoitussarja. 

openai-vpt-training-2022

VPT:n koulutusohjelma.

OpenAI

Niin kalliilta kuin urakoitsijan maksu saattaa tuntua, lähestymistapa edustaa suuria kustannussäästöjä, kirjoittajat kirjoittavat. Jos heidän täytyisi kerätä urakoitsijoiden tietoja, jotka vastaavat 70,000 XNUMX tuntia verkkovideoita, se olisi huomattavasti kalliimpaa.

"Jos voisimme kerätä halvalla leimatun urakoitsijan tietojoukon, joka on samaa suuruusluokkaa kuin web_clean, tällä ei olisi merkitystä; tämän mittakaavan tiedon kerääminen olisi kuitenkin maksanut miljoonia dollareita."

70,000 XNUMX tunnin aikana kirjoittajat kouluttavat sitten toisen hermoverkon, joka myös koostuu muuntajakerroksista, jäljittelemään käyttäjien toimia videoissa, mikä on yleinen käytäntö, joka tunnetaan nimellä "käyttäytymiskloonaus".

Työn tarkoitus on löytää tapa kouluttaa yleiskäyttöinen tietokone "agentti", joka voi käyttää Internetissä olevaa dataa, jolla ei ole tunnisteita, ratkaistakseen tehtäviä, joihin liittyy kausaalisuutta, merkitystä ja toimintasarjoja, joilla on tarvittava suhde yhdestä toiseen. 

"Tässä asiakirjassa esitetyt tulokset auttavat tasoittamaan tietä verkon merkitsemättömän datan hyödyntämiselle peräkkäisissä päätösalueissa", he kirjoittavat. 

He ehdottavat, että työtä voidaan käyttää useisiin tietokonetehtäviin, jotka edellyttävät hiiren napsautussarjoja ja muita ihmisen ohjaimia. 

"Vaikka kokeilemme vain Minecraftia, uskomme, että VPT tarjoaa yleisen reseptin käyttäytymispriorien kouluttamiseen kovissa, mutta yleisissä toimintatiloissa kaikilla aloilla, joilla on suuri määrä vapaasti saatavilla olevaa merkitsemätöntä dataa, kuten tietokoneen käyttö."

Open-AI tunnetaan parhaiten suuresta kieliohjelmasta nimeltä GPT-3, joka myös käyttää "esikoulutettua" lähestymistapaa, joka perustuu tonniin Web-tietoihin, joita ei ole merkitty. Tietyssä mielessä Minecraft-peli laajentaa tätä lähestymistapaa käyttäytymisen matkimiseen videolla kaapattujen peräkkäisten tietokonetehtävien alalla. 

Myös: Mikä on GPT-3? Kaikki, mitä yrityksesi tarvitsee tietää OpenAI:n läpimurrosta AI-kieliohjelmasta

Lopullinen saavutus on joissakin tapauksissa ylittää aika, jonka ihminen tarvitsee yhden vaikeimmista tehtävistä, timanttihakun hankkimiseen.

Minecraftissa timanttipohjaiset työkalut vain kestävät pidempään ja voivat aiheuttaa enemmän vahinkoa. Timanttihaukat ovat ainoita, jotka ovat erityisen tärkeitä useimmille pelaajille. Tarvitset timanttihakun obsidiaanin louhimiseen ja fiktiivisen materiaalin nimeltä netherite, jotka molemmat ovat tärkeitä loppupeleissä, kuten pöytien lumoamisessa ja neteriittilaitteiden valmistamisessa.

Koulutettuaan VPT:n oppimaan kaikenlaisia ​​Minecraft-tehtäviä, kirjoittajat käyttivät "hienosäätöä", joka kehitti vahvistusoppimishermoverkon timanttihakun muotoilemiseksi normaalia nopeammin. 

"Havainnollistaaksemme RL-hienosäädön tehokkuutta valitsimme haastavan tavoitteen hankkia timanttihakku 10 minuutissa uudesta Minecraftin selviytymismaailmasta", he kirjoittavat. 

Tämä on haastavaa ihmisille, joilla sen tekemiseen menee yleensä kaksi kertaa kauemmin, jos he pystyvät siihen ollenkaan:

Tämä edellyttää sarjan vaikeasti hankittavia esineitä, jotka vaativat monimutkaisia ​​taitoja, kuten kaivostoimintaa, varastonhallintaa, askartelutyötä askartelupöydällä ja ilman, työkalujen käyttöä, uunin käyttöä ja kaivostoimintaa alimmilla syvyyksillä, joissa monet vaarat, kuten viholliset. ja laava on olemassa (kuva 6). Vaikeutta lisää se, että edistyminen voidaan helposti menettää pudottamalla esineitä, tuhoamalla esineitä tai kuolemalla. Timanttihakun hankkiminen vie taitavalta ihmiseltä useammin yli 20 minuuttia (24,000 XNUMX toimenpidettä).

Kokoaessaan sekä urakoitsijan tiedot että leimaamattoman 70,000 XNUMX tunnin Web-videon tekijät olivat tietoisia loukkaavan sisällön mahdollisuudesta. "Urakoitsijat voisivat teoriassa käyttää Minecraftin avoimen maailman omaisuutta luodakseen henkilökohtaisia ​​tunnistetietoja ja/tai loukkaavaa sisältöä (esim. käyttämällä Minecraft-lohkoja nimensä tai loukkaavien viestien kirjoittamiseen, ja sitten löytää paikan, josta viesti olisi näkyvissä)" kirjoittaa, vaikka he eivät nähneet tätä urakoitsijoiden videoissa, joita kirjoittajat katsoivat. 

"Tietenkin harjoittelemme BC [käyttäytymisen kloonaus] -mallejamme Internetistä Minecraftia pelaavien ihmisten videoilla, ja jos tällainen käyttäytyminen on näissä videoissa, mallimme voisi myös mahdollisesti oppia sen, vaikka odotammekin, että tällainen käyttäytyminen on tarpeeksi harvinaista, että mallimme ei todennäköisesti toistaisi sitä", he kirjoittavat. 

Minne tällainen yleisagentti menee seuraavaksi? Ajatuksena on, että timanttikirveiden valloittamisen jälkeen VPT tai sen jälkeläiset voivat tehdä kaikenlaisia ​​asioita, joita ihminen voi tehdä hiirellä ja näppäimistöllä, mukaan lukien lippujen booing, sosiaalisen median surffaaminen tai karttojen navigointi. 

lähde