Strokovnjaki pri OpenAI so usposobili nevronsko mrežo za igranje Minecraft enako visokim standardom kot človeški igralci.
Nevronsko omrežje je bilo usposobljeno za 70,000 ur različnih posnetkov v igri, dopolnjenih z majhnim Baza podatkov videoposnetkov, v katerih so izvajalci izvajali določene naloge v igri, z tipkovnica in miš zabeleženi tudi vnosi.
Po fini nastavitvi je OpenAI ugotovil, da je model sposoben izvajati vse vrste zapletenih veščin, od plavanja do lova na živali in uživanja njihovega mesa. Dojel je tudi »skok stebrov«, potezo, pri kateri igralec na sredini skoka položi blok materiala pod sebe, da bi dosegel višino.
Morda najbolj impresivno je, da je umetna inteligenca lahko izdelala diamantna orodja (ki zahtevajo zaporedno izvajanje dolgega niza dejanj), kar je OpenAI opisal kot dosežek brez primere za računalniškega agenta.
Preboj AI?
Pomen projekta Minecraft je v tem, da dokazuje učinkovitost nove tehnike, ki jo je OpenAI uporabil pri usposabljanju modelov umetne inteligence – imenovane Video PreTraining (VPT) – za katero družba pravi, da bi lahko pospešila razvoj »splošnih agentov, ki uporabljajo računalnik«.
Zgodovinsko gledano je bila težava pri uporabi neobdelanega videa kot vira za usposabljanje modelov umetne inteligence ta kaj se je zgodilo dovolj preprosto za razumevanje, ni pa nujno kako . Dejansko bi model AI absorbiral želene rezultate, vendar ne bi razumel vhodnih kombinacij, potrebnih za njihovo doseganje.
Z VPT pa OpenAI združuje velik nabor video podatkov, pridobljen iz javnih spletnih virov, s skrbno izbranim naborom posnetkov, označenih z ustreznimi premiki tipkovnice in miške, da vzpostavi temeljni model.
Za natančno prilagoditev osnovnega modela ekipa nato vključi manjše nabore podatkov, ki so zasnovani za poučevanje posebnih nalog. V tem kontekstu je OpenAI uporabil posnetke igralcev, ki izvajajo dejanja v zgodnjih igrah, kot so sekanje dreves in izgradnja miz za izdelavo, kar naj bi prineslo "ogromno izboljšanje" zanesljivosti, s katero je model lahko opravljal te naloge.
Druga tehnika vključuje "nagrajevanje" modela AI za doseganje vsakega koraka v zaporedju nalog, praksa, znana kot učenje s krepitvijo. Ta proces je nevronski mreži omogočil, da zbere vse sestavine za diamantno kramp s stopnjo uspešnosti na človeški ravni.
»VPT utira pot k omogočanju agentom, da se naučijo delovati z gledanjem ogromnega števila videoposnetkov na internetu. V primerjavi s generativnim videomodeliranjem ali kontrastnimi metodami, ki bi prinesle le reprezentančne a priore, VPT ponuja vznemirljivo možnost neposrednega učenja obsežnih vedenjskih predhodnikov na več področjih kot le v jeziku,« je pojasnil OpenAI v blog post (odpre se v novem zavihku) .
"Čeprav eksperimentiramo samo v Minecraftu, je igra zelo odprta in domači človeški vmesnik (miška in tipkovnica) je zelo splošen, zato verjamemo, da so naši rezultati dobri za druga podobna področja, na primer za uporabo računalnika."
Da bi spodbudil nadaljnje eksperimentiranje v vesolju, je OpenAI sodeloval z Tekmovanje MineRL NeurIPS , ki podarja podatke o izvajalcu in kodo modela tekmovalcem, ki poskušajo uporabiti umetno inteligenco za reševanje zapletenih nalog Minecrafta. Glavna nagrada: 100,000 $.