OpenAI eksperdid on õpetanud mängima närvivõrku Minecraft sama kõrgel tasemel kui inimmängijad.
Närvivõrku treeniti 70,000 XNUMX tunni jooksul mitmesuguse mängusisese materjaliga, millele lisati väike andmebaas videotest, milles töövõtjad täitsid konkreetseid mängusiseseid ülesandeid klaviatuur ja hiir salvestatakse ka sisendid.
Pärast peenhäälestamist leidis OpenAI, et mudel suudab täita kõikvõimalikke keerulisi oskusi, alates ujumisest kuni loomade jahtimiseni ja nende liha tarbimiseni. See haaras ka "sambahüppest" ehk liigutusest, mille käigus mängija asetab kõrguse saavutamiseks materjaliploki enda alla.
Võib-olla kõige muljetavaldavam on see, et AI suutis luua teemanttööriistu (mis nõuab pikka järjestikuste toimingute jada), mida OpenAI kirjeldas kui arvutiagendi "enneolematut" saavutust.
AI läbimurre?
Minecrafti projekti tähtsus seisneb selles, et see demonstreerib OpenAI poolt tehisintellekti mudelite koolitamisel kasutusele võetud uue tehnika – nimega Video PreTraining (VPT) – tõhusust, mis ettevõtte sõnul võib kiirendada "üldiste arvutikasutajate agentide" väljatöötamist.
Ajalooliselt on toorvideo kasutamisel tehisintellektimudelite treenimise allikana keeruline olnud see mida on juhtunud on piisavalt lihtne, et mõista, kuid mitte tingimata kuidas . Tegelikult neelab AI-mudel soovitud tulemused, kuid ei mõista nende saavutamiseks vajalikke sisendkombinatsioone.
VPT-ga ühendab OpenAI aga suure videoandmestiku, mis on võetud avalikest veebiallikatest, hoolikalt kureeritud kaadrite kogumiga, mis on märgistatud asjakohaste klaviatuuri ja hiire liigutustega, et luua alusmudel.
Baasmudeli viimistlemiseks ühendab meeskond väiksemad andmestikud, mis on mõeldud konkreetsete ülesannete õpetamiseks. Selles kontekstis kasutas OpenAI kaadreid mängijatest, kes sooritasid mängu alguses toiminguid, nagu puude lõikamine ja meisterdamislaudade ehitamine, mis väidetavalt on andnud "suure paranemise" usaldusväärsuses, millega mudel suutis neid ülesandeid täita.
Teine meetod hõlmab tehisintellekti mudeli "premeerimist" ülesannete jada iga sammu saavutamise eest, seda praktikat nimetatakse tugevdavaks õppimiseks. See protsess võimaldas närvivõrgul koguda kõik koostisosad teemantkirka jaoks inimtasemel edukuse määraga.
„VPT sillutab teed selle poole, et agentidel oleks võimalik õppida tegutsema, vaadates Internetis suurt hulka videoid. Võrreldes generatiivse videomodelleerimise või kontrastsete meetoditega, mis annavad ainult representatiivseid prioriteete, pakub VPT põnevat võimalust õppida vahetult suuremahulisi käitumuslikke prioriteete rohkemates valdkondades kui ainult keeles,“ selgitas OpenAI. blogi postitus (avaneb uuel vahelehel) .
"Kuigi me katsetame ainult Minecraftis, on mäng väga avatud ja loomulik inimliides (hiir ja klaviatuur) on väga üldine, seega usume, et meie tulemused on head ka muude sarnaste domeenide jaoks, nt arvutikasutus."
Et ergutada edaspidiseid eksperimente selles ruumis, on OpenAI teinud koostööd MineRL NeurIPS võistlus annetades oma töövõtja andmed ja mudeli koodi võistlejatele, kes üritavad kasutada AI-d keerukate Minecrafti ülesannete lahendamiseks. Peaauhind: 100,000 XNUMX dollarit.