Az OpenAI szakértői megtanítottak egy neurális hálózatot játszani Minecraft ugyanolyan magas színvonalon, mint az emberi játékosok.
A neurális hálózatot 70,000 XNUMX órányi különféle játékon belüli felvételen képezték ki, kiegészítve egy kis adatbázis videók közül, amelyekben a vállalkozók konkrét játékon belüli feladatokat hajtottak végre, a billentyűzet és a egér a bemeneteket is rögzítjük.
A finomhangolást követően az OpenAI azt találta, hogy a modell képes minden összetett készség elvégzésére, az úszástól az állatok vadászatáig és a hús elfogyasztásáig. Megfogta az „oszlopugrást” is, egy olyan mozdulatot, amellyel a játékos az ugrás közepén maga alá helyez egy anyagtömböt, hogy feljusson.
Talán a leglenyűgözőbb az, hogy az AI képes volt gyémántszerszámokat készíteni (amelyek egymás után végrehajtandó műveletek hosszú sorát igényelték), amit az OpenAI „példátlan” teljesítménynek minősített egy számítógépes ügynök számára.
AI áttörés?
A Minecraft projekt jelentősége abban rejlik, hogy bemutatja az OpenAI által a mesterséges intelligencia modellek képzésében alkalmazott új technika – a Video PreTraining (VPT) – hatékonyságát, amely a cég szerint felgyorsíthatja az „általános számítógép-használó ágensek” fejlesztését.
Történelmileg az volt a nehézség, hogy a nyers videót AI modellek képzésének forrásaként használjuk mit megtörtént elég egyszerű ahhoz, hogy megértsük, de nem feltétlenül hogyan . Valójában az AI-modell elnyeli a kívánt eredményeket, de nem fogja fel az eléréséhez szükséges bemeneti kombinációkat.
A VPT-vel azonban az OpenAI egy nyilvános webes forrásokból származó nagy videóadat-készletet párosít egy gondosan összeválogatott, a megfelelő billentyűzet- és egérmozdulatokkal ellátott felvételkészlettel, hogy létrehozza az alapmodellt.
Az alapmodell finomhangolásához a csapat kisebb adatkészleteket csatlakoztat, amelyeket konkrét feladatok tanítására terveztek. Ebben az összefüggésben az OpenAI olyan felvételeket használt fel, amelyeken a játékosok a játék elején végrehajtott műveleteket hajtottak végre, például fákat vágtak ki és asztalokat építettek, ami állítólag „jelentős javulást” eredményezett abban a megbízhatóságban, amellyel a modell képes volt végrehajtani ezeket a feladatokat.
Egy másik technika az AI-modellt „jutalmazza” a feladatok sorozatának minden egyes lépéséért, ezt a gyakorlatot megerősítő tanulásnak nevezik. Ez a folyamat tette lehetővé a neurális hálózat számára, hogy emberi szintű sikeraránnyal összegyűjtse a gyémánt csákány összes összetevőjét.
„A VPT kikövezi az utat afelé, hogy az ügynökök megtanuljanak cselekedni az interneten található rengeteg videó megtekintésével. Összehasonlítva a generatív videomodellezéssel vagy a kontrasztív módszerekkel, amelyek csak reprezentációs prioritásokat adnak, a VPT izgalmas lehetőséget kínál a nagyszabású viselkedési prioritások közvetlen megtanulására, nemcsak nyelven” – magyarázta az OpenAI. blogbejegyzés (új lapon nyílik meg) .
"Míg csak a Minecraftban kísérletezünk, a játék nagyon nyílt végű, és a natív emberi felület (egér és billentyűzet) nagyon általános, ezért úgy gondoljuk, hogy eredményeink jót tesznek más hasonló területeken, például a számítógéphasználatban."
A térben való további kísérletezés ösztönzése érdekében az OpenAI partnerséget kötött a MineRL NeurIPS verseny , vállalkozói adatait és modellkódját adományozza azoknak a versenyzőknek, akik mesterséges intelligencia segítségével próbálják megoldani az összetett Minecraft feladatokat. A fődíj: 100,000 XNUMX dollár.