Стручњаци из ОпенАИ-а су обучили неуронску мрежу за играње Минецрафт на једнако висок стандард као и људски играчи.
Неуронска мрежа је обучена на 70,000 сати разних снимака у игри, допуњених малим база података видео снимака у којима су извођачи обављали одређене задатке у игри, са тастатура миш улази се такође снимају.
Након финог подешавања, ОпенАИ је открио да је модел у стању да изводи све врсте сложених вештина, од пливања до лова на животиње и конзумирања њиховог меса. Такође је схватио „скок стубова“, потез којим играч ставља блок материјала испод себе усред скока како би постигао висину.
Можда је најимпресивније то што је АИ успела да направи дијамантске алате (за које је потребан дуг низ радњи које се извршавају у низу), што је ОпенАИ описао као достигнуће „без преседана“ за компјутерског агента.
Пробој АИ?
Значај Минецрафт пројекта је у томе што показује ефикасност нове технике коју је ОпенАИ применио у обуци АИ модела – под називом Видео ПреТраининг (ВПТ) – за коју компанија каже да би могла да убрза развој „генералних агената који користе рачунаре“.
Историјски гледано, потешкоћа са коришћењем сировог видеа као извора за обуку АИ модела је била то шта што се догодило је довољно једноставно да се разуме, али не нужно како . У ствари, АИ модел би апсорбовао жељене резултате, али не би разумео улазне комбинације које су потребне да би се постигли.
Међутим, са ВПТ-ом, ОпенАИ упарује велики скуп видео података који је извучен из јавних веб извора са пажљиво одабраним скупом снимака означених релевантним покретима тастатуре и миша како би се успоставио основни модел.
Да би фино подесио основни модел, тим затим укључује мање скупове података дизајниране да подучавају специфичне задатке. У овом контексту, ОпенАИ је користио снимке играча који изводе радње у раној игри, као што су сечење дрвећа и прављење столова за израду, за које се каже да је донело „огромно побољшање“ у поузданости са којом је модел био у стању да изврши ове задатке.
Друга техника укључује „награђивање“ АИ модела за постизање сваког корака у низу задатака, пракса позната као учење уз помоћ. Овај процес је омогућио неуронској мрежи да прикупи све састојке за дијамантски пијук са стопом успеха на нивоу човека.
„ВПТ утире пут ка омогућавању агентима да науче да делују гледајући огроман број видео снимака на интернету. У поређењу са генеративним видео моделирањем или контрастивним методама које би дале само репрезентативне приоритете, ВПТ нуди узбудљиву могућност директног учења великих бихејвиоралних приоритета у више домена него само у језику“, објаснио је ОпенАИ у блог пост (отвара се у новој картици) .
„Иако експериментишемо само у Минецрафт-у, игра је веома отворена, а изворни људски интерфејс (миш и тастатура) је веома генерички, тако да верујемо да су наши резултати добри за друге сличне домене, на пример за коришћење рачунара.“
Да би подстакао даље експериментисање у простору, ОпенАИ се удружио са МинеРЛ НеурИПС такмичење , донирајући податке о извођачима и код модела такмичарима који покушавају да користе вештачку интелигенцију за решавање сложених Минецрафт задатака. Главна награда: 100,000 долара.