OpenAI:n asiantuntijat ovat kouluttaneet neuroverkon pelaamaan Minecraft yhtä korkealle tasolle kuin ihmispelaajia.
Hermoverkkoa koulutettiin 70,000 XNUMX tunnin sekalaisella pelimateriaalilla, jota täydennettiin pienellä tietokanta videoista, joissa urakoitsijat suorittivat tiettyjä pelin sisäisiä tehtäviä näppäimistö ja hiiri syötteet myös tallennettu.
Hienosäädön jälkeen OpenAI havaitsi mallin pystyvän suorittamaan kaikenlaisia monimutkaisia taitoja uimisesta eläinten metsästykseen ja niiden lihan syömiseen. Se tarttui myös "pylväshypyyn", siirtoon, jossa pelaaja asettaa materiaalilohkon itsensä alle keskihypyn aikana päästäkseen korkeuteen.
Ehkä vaikuttavin tekoäly kykeni luomaan timanttityökaluja (jotka vaativat pitkän sarjan toimintojen suorittamista peräkkäin), mitä OpenAI kuvaili "ennennäkemättömäksi" saavutukseksi tietokoneagentille.
AI läpimurto?
Minecraft-projektin merkitys on siinä, että se osoittaa OpenAI:n AI:n tekoälymallien koulutuksessa käyttämän uuden tekniikan – nimeltään Video PreTraining (VPT) – tehokkuuden, joka yrityksen mukaan voisi nopeuttaa "yleisten tietokoneita käyttävien agenttien" kehitystä.
Raakavideon käyttäminen tekoälymallien koulutuslähteenä on historiallisesti ollut vaikeaa mitä on tapahtunut on tarpeeksi yksinkertainen ymmärtääkseen, mutta ei välttämättä miten . Itse asiassa tekoälymalli imee halutut tulokset, mutta sillä ei ole käsitystä niiden saavuttamiseksi tarvittavista syöttöyhdistelmistä.
VPT:n avulla OpenAI kuitenkin yhdistää suuren videotietojoukon, joka on peräisin julkisista verkkolähteistä, huolellisesti kuratoidun materiaalin kanssa, joka on merkitty asiaankuuluvilla näppäimistön ja hiiren liikkeillä perusmallin luomiseksi.
Perusmallin hienosäätöä varten tiimi yhdistää pienempiä tietojoukkoja, jotka on suunniteltu opettamaan tiettyjä tehtäviä. Tässä yhteydessä OpenAI käytti kuvamateriaalia pelaajista, jotka suorittivat varhaisia pelin toimintoja, kuten puiden kaatamista ja askartelupöytien rakentamista, minkä sanotaan parantaneen "valtavaa parannusta" luotettavuudessa, jolla malli pystyi suorittamaan nämä tehtävät.
Toinen tekniikka sisältää tekoälymallin "palkitsemisen" jokaisen tehtäväsarjan vaiheen saavuttamisesta, mikä tunnetaan vahvistavana oppimisena. Tämän prosessin ansiosta hermoverkko pystyi keräämään kaikki ainekset timanttihakkua varten ihmistason onnistumisprosentilla.
"VPT tasoittaa tietä siihen, että agentit voivat oppia toimimaan katsomalla valtavaa määrää videoita Internetissä. Verrattuna generatiiviseen videomallinnukseen tai kontrastiivisiin menetelmiin, jotka tuottaisivat vain edustavia priorisointeja, VPT tarjoaa jännittävän mahdollisuuden oppia suoraan laajamittaisia käyttäytymisprioreja useammilla aloilla kuin vain kielellä", OpenAI selitti. blogi (avautuu uuteen välilehteen) .
"Vaikka kokeilemme vain Minecraftia, peli on hyvin avoin ja natiivi ihmiskäyttöliittymä (hiiri ja näppäimistö) on hyvin geneerinen, joten uskomme, että tulokset lupaavat hyvää muille vastaaville aloille, kuten tietokoneen käyttöön."
Kannustaakseen lisää kokeiluja avaruudessa OpenAI on tehnyt yhteistyötä MineRL NeurIPS -kilpailu , joka lahjoittaa urakoitsijatietonsa ja mallikoodinsa kilpailijoille, jotka yrittävät käyttää tekoälyä monimutkaisten Minecraft-tehtävien ratkaisemiseen. Pääpalkinto: 100,000 XNUMX dollaria.