Gli esperti di OpenAI hanno addestrato una rete neurale a giocare Minecraft ad uno standard altrettanto elevato dei giocatori umani.
La rete neurale è stata addestrata su 70,000 ore di filmati di gioco vari, integrati con un piccolo banca dati di video in cui gli appaltatori eseguivano specifici compiti in-game, con il tastiera ed mouse anche gli input registrati.
Dopo la messa a punto, OpenAI ha scoperto che il modello era in grado di eseguire tutti i tipi di abilità complesse, dal nuoto alla caccia agli animali e al consumo della loro carne. Ha anche afferrato il "salto del pilastro", una mossa in base alla quale il giocatore posiziona un blocco di materiale sotto di sé a metà del salto per guadagnare quota.
Forse la cosa più impressionante, l'IA è stata in grado di creare strumenti diamantati (richiedendo una lunga serie di azioni da eseguire in sequenza), che OpenAI ha descritto come un risultato "senza precedenti" per un agente informatico.
Una svolta dell'IA?
Il significato del progetto Minecraft è che dimostra l'efficacia di una nuova tecnica implementata da OpenAI nella formazione di modelli di intelligenza artificiale - chiamata Video PreTraining (VPT) - che secondo la società potrebbe accelerare lo sviluppo di "agenti generici che utilizzano computer".
Storicamente, la difficoltà con l'utilizzo di video non elaborati come fonte per l'addestramento di modelli di intelligenza artificiale è stata quella che cosa è successo è abbastanza semplice da capire, ma non necessariamente come . In effetti, il modello di intelligenza artificiale assorbirebbe i risultati desiderati, ma non avrebbe alcuna comprensione delle combinazioni di input necessarie per raggiungerli.
Con VPT, tuttavia, OpenAI accoppia un set di dati video di grandi dimensioni prelevato da fonti Web pubbliche con un pool di filmati accuratamente curato etichettato con i movimenti di tastiera e mouse pertinenti per stabilire il modello fondamentale.
Per mettere a punto il modello di base, il team collega quindi set di dati più piccoli progettati per insegnare attività specifiche. In questo contesto, OpenAI ha utilizzato filmati di giocatori che eseguivano azioni all'inizio del gioco, come abbattere alberi e costruire tavoli da lavoro, il che si dice abbia prodotto un "enorme miglioramento" nell'affidabilità con cui il modello è stato in grado di svolgere questi compiti.
Un'altra tecnica consiste nel "premiare" il modello di intelligenza artificiale per il raggiungimento di ogni passaggio in una sequenza di compiti, una pratica nota come apprendimento per rinforzo. Questo processo è ciò che ha permesso alla rete neurale di raccogliere tutti gli ingredienti per un piccone di diamante con un tasso di successo a livello umano.
“VPT apre la strada per consentire agli agenti di imparare ad agire guardando il vasto numero di video su Internet. Rispetto alla modellazione video generativa o ai metodi contrastanti che produrrebbero solo priori rappresentativi, VPT offre l'entusiasmante possibilità di apprendere direttamente i priori comportamentali su larga scala in più domini oltre al semplice linguaggio", ha spiegato OpenAI in un post sul blog (si apre in una nuova scheda) .
"Anche se sperimentiamo solo Minecraft, il gioco è molto aperto e l'interfaccia umana nativa (mouse e tastiera) è molto generica, quindi riteniamo che i nostri risultati siano di buon auspicio per altri domini simili, ad esempio l'utilizzo del computer."
Per incentivare ulteriori sperimentazioni nello spazio, OpenAI ha collaborato con il Concorso MineRL NeurIPS , donando i dati dell'appaltatore e il codice modello ai concorrenti che tentano di utilizzare l'IA per risolvere compiti complessi di Minecraft. Il primo premio: $ 100,000.