Experții de la OpenAI au pregătit o rețea neuronală pentru a juca minecraft la un standard la fel de înalt ca jucătorii umani.
Rețeaua neuronală a fost antrenată pe 70,000 de ore de filmări diverse în joc, completate cu un mic Baza de date de videoclipuri în care contractanții au efectuat sarcini specifice în joc, cu tastatură și mouse intrări de asemenea înregistrate.
După reglaj fin, OpenAI a descoperit că modelul era capabil să realizeze tot felul de abilități complexe, de la înot la vânătoare de animale și consumul de carne a acestora. De asemenea, a înțeles „saritul stâlpului”, o mișcare prin care jucătorul plasează un bloc de material sub ei înșiși la mijlocul săriturii pentru a câștiga înălțime.
Poate cel mai impresionant, AI a reușit să creeze instrumente diamantate (care necesită un șir lung de acțiuni pentru a fi executate în secvență), pe care OpenAI a descris-o ca fiind o realizare „fără precedent” pentru un agent de computer.
O descoperire AI?
Semnificația proiectului Minecraft este că demonstrează eficacitatea unei noi tehnici implementate de OpenAI în instruirea modelelor AI – numită Video PreTraining (VPT) – despre care compania spune că ar putea accelera dezvoltarea „agenților generali care folosesc computerul”.
Din punct de vedere istoric, dificultatea utilizării video brut ca sursă pentru antrenarea modelelor AI a fost aceea ceea ce s-a întâmplat este destul de simplu de înțeles, dar nu neapărat cum . De fapt, modelul AI ar absorbi rezultatele dorite, dar nu va înțelege combinațiile de intrare necesare pentru a le atinge.
Cu VPT, cu toate acestea, OpenAI împerechează un set de date video mare extras din surse web publice cu un grup de filmări atent îngrijit etichetat cu mișcările relevante ale tastaturii și ale mouse-ului pentru a stabili modelul de bază.
Pentru a regla fin modelul de bază, echipa conectează apoi seturi de date mai mici concepute pentru a preda sarcini specifice. În acest context, OpenAI a folosit înregistrări ale jucătorilor care efectuează acțiuni de la începutul jocului, cum ar fi tăierea copacilor și construirea de mese, despre care se spune că a produs o „îmbunătățire masivă” a fiabilității cu care modelul a fost capabil să îndeplinească aceste sarcini.
O altă tehnică implică „recompensarea” modelului AI pentru realizarea fiecărui pas dintr-o secvență de sarcini, o practică cunoscută sub numele de învățare prin întărire. Acest proces a permis rețelei neuronale să colecteze toate ingredientele pentru un târnăcop de diamant cu o rată de succes la nivel uman.
„VPT deschide calea către a permite agenților să învețe să acționeze vizionând un număr mare de videoclipuri de pe internet. În comparație cu modelarea video generativă sau cu metodele contrastive care ar produce doar priorități reprezentaționale, VPT oferă posibilitatea incitantă de a învăța direct priorități comportamentale la scară largă în mai multe domenii decât doar limbaj”, a explicat OpenAI într-un blog (se deschide într-o filă nouă) .
„Deși experimentăm doar în Minecraft, jocul este foarte deschis, iar interfața umană nativă (mouse și tastatură) este foarte generică, așa că credem că rezultatele noastre sunt de bun augur pentru alte domenii similare, de exemplu, utilizarea computerului.”
Pentru a stimula experimentarea în continuare în spațiu, OpenAI a încheiat un parteneriat cu Concurența MineRL NeurIPS , donând datele contractantului și codul modelului concurenților care încearcă să folosească AI pentru a rezolva sarcini complexe Minecraft. Marele premiu: 100,000 USD.