Experts van OpenAI hebben een neuraal netwerk getraind om te spelen Minecraft tot een even hoog niveau als menselijke spelers.
Het neurale netwerk is getraind op 70,000 uur aan diverse in-game beelden, aangevuld met een kleine databank van video's waarin aannemers specifieke in-game taken uitvoeren, met de toetsenbord en muis ingangen ook geregistreerd.
Na fijnafstemming ontdekte OpenAI dat het model allerlei complexe vaardigheden kon uitvoeren, van zwemmen tot jagen op dieren en het consumeren van hun vlees. Het begreep ook de "pijlersprong", een beweging waarbij de speler een blok materiaal onder zichzelf plaatst halverwege de sprong om hoogte te winnen.
Misschien wel het meest indrukwekkend was dat de AI in staat was om diamantgereedschappen te maken (waarvoor een lange reeks acties achter elkaar moest worden uitgevoerd), wat OpenAI beschreef als een "ongekende" prestatie voor een computeragent.
Een AI-doorbraak?
Het belang van het Minecraft-project is dat het de doeltreffendheid aantoont van een nieuwe techniek die door OpenAI wordt ingezet bij de training van AI-modellen - genaamd Video PreTraining (VPT) - waarvan het bedrijf zegt dat het de ontwikkeling van "algemene computergebruikende agenten" zou kunnen versnellen.
Historisch gezien was dat de moeilijkheid met het gebruik van onbewerkte video als bron voor het trainen van AI-modellen wat is gebeurd, is eenvoudig genoeg om te begrijpen, maar niet noodzakelijkerwijs hoe . In feite zou het AI-model de gewenste resultaten absorberen, maar geen idee hebben van de invoercombinaties die nodig zijn om ze te bereiken.
Met VPT koppelt OpenAI echter een grote videodataset die afkomstig is van openbare webbronnen met een zorgvuldig samengestelde pool van beeldmateriaal gelabeld met de relevante toetsenbord- en muisbewegingen om het basismodel vast te stellen.
Om het basismodel te verfijnen, sluit het team vervolgens kleinere datasets aan die zijn ontworpen om specifieke taken aan te leren. In deze context gebruikte OpenAI beelden van spelers die vroege spelacties uitvoerden, zoals het kappen van bomen en het bouwen van knutseltafels, wat naar verluidt een "enorme verbetering" heeft opgeleverd in de betrouwbaarheid waarmee het model deze taken kon uitvoeren.
Een andere techniek is het "belonen" van het AI-model voor het bereiken van elke stap in een reeks taken, een praktijk die bekend staat als bekrachtigend leren. Dankzij dit proces kon het neurale netwerk alle ingrediënten verzamelen voor een diamanten houweel met een slagingspercentage op menselijk niveau.
“VPT effent de weg om agenten te laten leren handelen door het grote aantal video's op internet te bekijken. Vergeleken met generatieve videomodellering of contrastieve methoden die alleen representatieve priors zouden opleveren, biedt VPT de opwindende mogelijkheid om direct grootschalige gedrags priors te leren in meer domeinen dan alleen taal, "legde OpenAI uit in een blogpost (opent in nieuw tabblad) .
"Hoewel we alleen in Minecraft experimenteren, is de game erg open en de native menselijke interface (muis en toetsenbord) is erg generiek, dus we denken dat onze resultaten veel goeds voorspellen voor andere vergelijkbare domeinen, bijvoorbeeld computergebruik."
Om verder experimenteren in de ruimte te stimuleren, werkt OpenAI samen met de MineRL NeurIPS-wedstrijd , zijn aannemersgegevens en modelcode doneren aan deelnemers die AI proberen te gebruiken om complexe Minecraft-taken op te lossen. De hoofdprijs: $ 100,000.