OpenAI выдаткаваў 160,000 XNUMX долараў на Upwork для геймераў Minecraft на навучанне нейронавай сеткі

крафта-брыльянтавая кірка

З відэа, як VPT займаецца вырабам алмазнай кіркі ў Minecraft. Кампутарная праграма дасягнула поспеху за дзесяць хвілін, у палову меншага часу, які спатрэбіўся б дасведчанаму чалавеку, каб зрабіць гэта.

Наколькі важным можа быць авалоданне «алмазным інструментам» у Minecraft?

Дастаткова важна, каб выдаткаваць 160,000 XNUMX долараў, паводле OpenAI, стартапа са штучным інтэлектам.

Гэта сума грошай, якую каманда OpenAI выдаткавала, каб наняць гульцоў у Minecraft на онлайн-платформе Upwork, каб адправіць відэа, на якіх яны гуляюць у гульню. 

Amazon Prime Day 2022: Раннія прапановы

In адкрылася папера На гэтым тыдні «Папярэдняя падрыхтоўка відэа (VPT): вучымся дзейнічаць, праглядаючы відэа ў Інтэрнэце без пазнакі», даследчыкі OpenAI Боуэн Бэйкер і каманда прабіваюцца ў выкарыстанні вялікіх набораў даных для навучання нейронавай сеткі імітацыі націсканняў клавіш чалавека для вырашэння розных задач у відэа. гульня. (Паведамленне ў блогу таксама быў апублікаваны ад OpenAI.) 

За апошнія гады мноства нейронавых сетак заваявала розныя тыпы гульняў з дапамогай так званага навучання з падмацаваннем, у тым ліку AlphaZero DeepMind DeepMind, які змагаўся з шахматамі, Го і Шогі, а таксама наступнымі MuZero праграма, якая дадала магчымасць апрацоўваць гульні Atari. 

Бэйкер і каманда хацелі распрацаваць нейронавую сетку для больш складанай гульнявой асяроддзя "адкрытага свету" Minecraft, дзе мноства націсканняў клавіш дае гульцам значна большыя ступені свабоды, чым у шахматах або гульнях Atari. 

Такім чынам: ШІ за шэсцьдзесят секунд 

Даследчая літаратура, пішуць аўтары, уключае ў сябе «вялізную колькасць» работ па Minecraft. Але праца VPT унікальная, пішуць яны, сваім аб'ёмам і маштабам: «Наколькі нам вядома, няма апублікаванай працы, якая дзейнічала б у поўнай, нязмененай прасторы дзеянняў чалавека, якая ўключае ў сябе кіраванне запасамі і перацягваннем. выраб прадметаў».

Праца па стварэнні нейронавай сеткі, якая атрымала назву VPT, праходзіла ў два этапы. На першым этапе патрэбны былі гульцы або падрадчыкі, якія сабралі 4,500 гадзін гульні. Пазней даследчыкі высветлілі, што насамрэч ім патрэбна ўсяго каля 2,000 гадзін.

Бэйкер і каманда апісваюць працэс:

Заяўкі былі адкрыты на працягу сутак, а затым выпадковым чынам адабралі 10 прэтэндэнтаў на першы раўнд падрадчыкаў. Пазней у праекце, паколькі нам спатрэбілася больш дадзеных і некаторыя падрадчыкі прасілі скасаваць свае кантракты, мы дадалі больш заяўнікаў з першапачатковага пула, а таксама рэкамендацый ад падрадчыкаў, якія працуюць у цяперашні час. Падрадчыкам плацілі 20 долараў за гадзіну (мінус зборы за платформу Upwork і адпаведныя падаткі). Усе вынікі, прадстаўленыя ў гэтым артыкуле, заснаваныя на прыкладна 4,500 гадзінах дадзеных (уключаючы даныя, запісаныя для збору статыстыкі чалавечай гульні, якая не выкарыстоўвалася для трэніровак), што каштавала нам каля 90,000 160 долараў. У ходзе праекта мы сабралі некаторыя даныя, якія мы не выкарыстоўвалі з-за памылак у запісальніку, і для некаторых ідэй, якія мы ў канчатковым выніку не рэалізоўвалі. Агулам мы выдаткавалі каля 4.6 тысяч долараў на кампенсацыю падрадчыка за ход праекта. Аднак, як мы абмяркоўваем у разд. 2000, мы маглі б, верагодна, атрымаць большасць нашых вынікаў з дапамогай IDM, навучанага з выкарыстаннем дадзеных на суму ўсяго 8000 долараў, г.зн. асноўнай мадэлі VPT, тонкай настройкі BC на набор даных earlygame_keyword і вынікаў тонкай настройкі RL. Збор набору даных contractor_house каштаваў каля 2000 долараў. Паколькі мы выкарыстоўвалі IDM, навучаны прыкладна 40,000 гадзінам дадзеных падрадчыкаў, фактычная кошт дадзеных падрадчыкаў для гэтых вынікаў склала каля XNUMX XNUMX долараў.

За гэтыя 4,500 гадзін яны прымацоўвалі ярлыкі да кадраў гульнявога відэа для такіх дзеянняў, як «інвентар», каб праверыць калекцыю аб'ектаў гульца, выкарыстоўваючы клавішу «E»; і «падкрасціся», каб «асцярожна» рухацца ў бягучым кірунку, выкарыстоўваючы SHIFT ключ. Гэтыя дзеянні запісваюцца ў выглядзе тэкставых радкоў JSON у кожны момант гульні і захоўваюцца разам з відэакадрамі. 

Кадры геймплэя з іх пазначанымі дзеяннямі выкарыстоўваліся для навучання нейронавай сеткі, званай мадэллю адваротнай дынамікі, або IDM, якая даведаецца, якія дзеянні ідуць з якімі кадрамі. IDM ўяўляе сабой сумесь некалькіх відаў нейронавых сетак, у тым ліку трохмерную згорткавую нейронавую сетку і ResNet для аналізу відэакадраў, а таксама некалькі сетак увагі Transformer для прагназавання наступнага відэакадра. 

Такім чынам: Разумны? Google LaMDA адчувае сябе як тыповы чат-бот

Навучаныя здольнасці IDM затым выкарыстоўваюцца для значна большага набору відэаматэрыялаў, у агульнай складанасці 70,000 XNUMX гадзін непазначаных кадраў Minecraft, сабраных з Інтэрнэту. IDM прымяняе «псеўдаэтыкеткі» да гэтай значна большай калекцыі. Іншымі словамі, IDM і ганарары падрадчыка з'яўляюцца спосабам загрузкі вялізнага навучальнага набора відэа. 

openai-vpt-training-2022

Схема трэніровак для ВПТ.

OpenAI

Як бы дарагім ні здаваўся аплата падрадчыку, гэты падыход дае вялікую эканомію выдаткаў, пішуць аўтары. Калі б ім прыйшлося сабраць дадзеныя падрадчыка, эквівалентныя 70,000 XNUMX гадзін вэб-відэа, гэта было б значна даражэй.

«Калі б мы маглі танна сабраць пазначаны набор дадзеных падрадчыка падобнага парадку велічыні, як web_clean, то гэта не было б важна; аднак збор такіх даных каштаваў бы мільёны даляраў».

Выкарыстоўваючы 70,000 XNUMX гадзін, аўтары навучаюць другую нейронавую сетку, таксама складзеную з слаёў Transformer, каб імітаваць дзеянні карыстальнікаў у відэа, звычайная практыка, вядомая як «паводніцкае кланаванне».

Сэнс працы заключаецца ў пошуку спосабу навучання камп'ютэрнага «агента» агульнага прызначэння, які можа выкарыстоўваць мноства дадзеных у Інтэрнэце, якія не маюць пазнакі, для вырашэння задач, якія ўключаюць прычынную сувязь, сэнс і паслядоўнасць дзеянняў, якія маюць неабходныя адносіны ад аднаго да іншага. 

«Вынікі, прадстаўленыя ў гэтым артыкуле, дапамагаюць пракласці шлях да выкарыстання мноства непазначаных дадзеных у Інтэрнэце для даменаў паслядоўнага прыняцця рашэнняў», — пішуць яны. 

Праца, верагодна, можа быць выкарыстана для шматлікіх камп'ютэрных задач, якія патрабуюць паслядоўнасці пстрычак мышы і іншых элементаў кіравання чалавекам, мяркуюць яны. 

«Хоць мы толькі эксперыментуем у Minecraft, мы лічым, што VPT дае агульны рэцэпт для падрыхтоўкі паводніцкіх апрыёраў у жорсткіх, але агульных прасторах дзеянняў у любой вобласці, дзе ёсць вялікая колькасць свабодна даступных непазначаных дадзеных, напрыклад, выкарыстанне кампутара».

Open-AI найбольш вядомы дзякуючы вялікай моўнай праграме пад назвай GPT-3, якая таксама выкарыстоўвае «папярэдне падрыхтаваны» падыход, заснаваны на тонах вэб-даных, якія не маркіраваныя. У пэўным сэнсе, гульня Minecraft пашырае гэты падыход да мімікрыі паводзін у галіне паслядоўных камп'ютэрных задач, знятых з дапамогай відэа. 

Таксама: Што такое GPT-3? Усё, што трэба ведаць вашаму бізнесу аб прарыўнай моўнай праграме OpenAI

Канчатковым дасягненнем з'яўляецца ў некаторых выпадках перавышэнне часу, неабходнага чалавеку для выканання адной з самых складаных задач, атрымання алмазнай кіркі.

У Minecraft інструменты на аснове алмазаў служаць даўжэй і могуць нанесці больш шкоды. Алмазныя кіркі - адзіныя, якія асабліва важныя для большасці геймераў. Вам патрэбна алмазная кірка для здабычы абсідыяну і выдуманы матэрыял пад назвай нетэрыт, абодва яны важныя для эндшпіляў, такіх як чароўныя сталы і выраб нетэрытавага абсталявання.

Пасля навучання VPT для вывучэння рознага роду задач Minecraft, аўтары выкарыстоўвалі падыход «тонкай налады», які распрацаваў нейронавую сетку з навучаннем падмацавання, каб вырабіць алмазную кірку за больш хуткі, чым звычайна, час. 

«Каб прадэманстраваць эфектыўнасць тонкай налады RL, мы абралі складаную мэту — атрымаць алмазную кірку на працягу 10 хвілін, пачынаючы са свежага свету выжывання Minecraft», — пішуць яны. 

Гэта складана для людзей, якім звычайна патрабуецца ўдвая больш часу, каб зрабіць гэта, калі яны наогул могуць гэта зрабіць:

Гэта ўключае ў сябе набыццё паслядоўнасці цяжкадаступных прадметаў, якія патрабуюць складаных навыкаў, такіх як здабыча карысных выкапняў, кіраванне запасамі, крафта з або без стола для крафта, выкарыстанне інструментаў, кіраванне печай і здабыча на самай нізкай глыбіні, дзе шмат небяспек, такіх як ворагі і лава існуюць (мал. 6). Дадатковая складанасць, прагрэс можа быць лёгка страчаны, кідаючы прадметы, знішчаючы прадметы або паміраючы. Часцей за ўсё, каб атрымаць алмазную кірку, дасведчанаму чалавеку спатрэбіцца больш за 20 хвілін (24,000 XNUMX дзеянняў).

Збіраючы як дадзеныя падрадчыка, так і 70,000 XNUMX гадзін вэб-відэа без пазнакі, аўтары памяталі пра перспектыву абразлівага кантэнту. «Падрадчыкі тэарэтычна могуць выкарыстоўваць уласцівасць адкрытага свету Minecraft для стварэння ідэнтыфікацыйнай інфармацыі і/або абразлівага кантэнту (напрыклад, выкарыстоўваючы блокі Minecraft, каб напісаць сваё імя або абразлівыя паведамленні, а затым знайсці месца, з якога будзе бачна паведамленне)», - яны пішуць, хоць гэтага не ўбачылі на відэа ад падрадчыкаў, якія глядзелі аўтары. 

«Вядома, мы трэніруем нашы мадэлі BC [паводніцкае кланаванне] на відэа з інтэрнэту людзей, якія гуляюць у Minecraft, і калі такія паводзіны ёсць у гэтых відэа, наша мадэль таксама можа патэнцыйна навучыцца гэтаму, хоць мы чакаем, што такое паводзіны досыць рэдкае, што наша мадэль не было б верагодна, каб прайграць яго», - пішуць яны. 

Куды далей ідзе такі генеральны агент? Ідэя заключаецца ў тым, што, заваяваўшы алмазныя сякеры, VPT або яго нашчадкі могуць рабіць усё, што чалавек можа рабіць з дапамогай мышы і клавіятуры, у тым ліку выдаваць білеты, сёрфінг у сацыяльных сетках або навігацыю па картах. 

крыніца