OpenAI похарчи $160,000 XNUMX за Upwork за геймърите на Minecraft, за да тренират невронна мрежа

изработка-диамант-кирка

От видеоклипа на VPT, преследващи създаването на диамантена кирка в Minecraft. Компютърната програма постигна подвига за десет минути, половината от времето, необходимо на опитен човешки играч, за да го направи.

Колко важно може да е да овладеете „диамантения инструмент“ в Minecraft?

Достатъчно важен, за да похарчи $160,000 XNUMX, според OpenAI, стартиращата компания за изкуствен интелект.

Това е сумата, която екип на OpenAI похарчи, за да наеме играчи на Minecraft в платформата за онлайн обяви за работа Upwork, за да изпращат видеоклипове на себе си, докато играят играта. 

Amazon Prime Day 2022: Ранни сделки

In разкри хартия тази седмица, „Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos“, изследователите на OpenAI Bowen Baker и екипът правят крачка в използването на големи набори от данни за обучение на невронна мрежа да имитира човешки натискания на клавиши за решаване на различни задачи във видеото игра. (Публикация в блог също е публикувано от OpenAI.) 

Множество невронни мрежи завладяха различни типове игри чрез това, което се нарича обучение с подсилване през последните години, включително AlphaZero на DeepMind DeepMind, която пое шах, го и шоги, и последвалите MuZero програма, която добави възможност за работа с игри Atari. 

Бейкър и екипът искаха да разработят невронна мрежа за по-сложната игрова среда с отворен свят на Minecraft, където набор от натискания на клавиши позволяват на играчите много по-големи степени на свобода, отколкото в игрите на шах или Atari. 

Също така: AI за шестдесет секунди 

Изследователската литература, пишат авторите, включва „огромно количество“ работа по Minecraft. Но работата на VPT е уникална, пишат те, заради своя обхват и мащаб: „Доколкото ни е известно, няма публикувана работа, която да работи в пълното, немодифицирано пространство за човешки действия, което включва управление на инвентара с плъзгане и пускане и изработка на предмети.“

Работата по изграждането на невронната мрежа, наречена VPT, протече на два етапа. Първият етап се нуждаеше от човешки играчи или изпълнители, които събраха 4,500 часа игра. По-късно изследователите разбраха, че наистина са им необходими само около 2,000 часа.

Бейкър и екипът описват процеса:

Имахме отворени заявленията за един ден и след това избрахме на случаен принцип 10 кандидата за първия кръг от изпълнители. По-късно в проекта, тъй като имахме нужда от повече данни и тъй като някои изпълнители поискаха да прекратят договорите си, добавихме още кандидати от първоначалния пул, както и препоръки от работещите в момента изпълнители. Изпълнителите са получавали 20 долара на час (минус таксите за платформата Upwork и приложимите данъци). Всички резултати, представени в този документ, се основават на около 4,500 часа данни (включително данни, записани за събиране на статистически данни за човешка игра, която не е била използвана за обучение), което ни струва около $90,000 160. В хода на проекта събрахме някои данни, които не използвахме поради грешки в записващото устройство, и за някои идеи, които в крайна сметка не преследвахме. Общо похарчихме около $4.6 2000 за компенсация на изпълнителя по време на проекта. Въпреки това, както обсъждаме в Sec. 8000, вероятно бихме могли да получим повечето от нашите резултати с IDM, обучен да използва само данни на стойност $2000, т.е. основния VPT модел, фина настройка на BC към набора от данни на earlygame_keyword и резултати от фина настройка на RL. Събирането на набора от данни contractor_house струва около $40,000. Тъй като използвахме IDM, обучен на около XNUMX часа данни за изпълнители, действителната цена на данните за изпълнителите за тези резултати беше около $XNUMX XNUMX.

За тези 4,500 часа те прикрепиха етикети към кадрите от видео игрите за действия като „инвентар“, за да проверят колекцията от обекти на играча, използвайки клавиша „E“; и „промъкнете се“, за да се движите „внимателно“ в текущата посока, като използвате SHIFT ключ. Тези действия се записват като JSON текстови низове във всеки момент от играта и се съхраняват с видео кадрите. 

Рамките на играта с техните обозначени действия бяха използвани за обучение на невронна мрежа, наречена обратен динамичен модел или IDM, която научава какви действия вървят с какви рамки. IDM е смесица от няколко вида невронни мрежи, включително 3-D конволюционна невронна мрежа и ResNet за анализиране на видеокадрите и няколко трансформаторни мрежи на вниманието за предсказване на следващия видеокадър. 

Също така: Чувствен? Google LaMDA изглежда като типичен чатбот

Тази обучена способност на IDM след това се използва върху много по-голям набор от видеозаписи, общо 70,000 XNUMX часа немаркирани кадри на Minecraft, събрани от мрежата. IDM прилага „псевдо-етикети“ към тази много по-голяма колекция. С други думи, IDM и таксите на изпълнителя са начин за стартиране на огромен набор от видео обучения. 

openai-vpt-обучение-2022

Тренировъчният режим за VPT.

OpenAI

Колкото и скъпо да изглежда плащането на изпълнителя, подходът представлява големи икономии на разходи, пишат авторите. Ако трябваше да съберат данни за изпълнители, еквивалентни на 70,000 XNUMX часа уеб видеоклипове, това би било много по-скъпо.

„Ако можехме евтино да съберем набор от данни за етикетиран изпълнител от подобен порядък като web_clean, тогава това нямаше да е важно; обаче събирането на такъв мащаб от данни би струвало милиони долари.

Използвайки 70,000 XNUMX часа, авторите след това обучават втора невронна мрежа, също съставена от слоеве Transformer, за да имитира действията на потребителите във видеоклиповете, обичайна практика, известна като „поведенческо клониране“.

Целта на работата е да се намери начин да се обучи компютърен „агент“ с общо предназначение, който може да използва изобилието от данни в Интернет, които нямат етикети, за решаване на задачи, които включват причинно-следствена връзка, значение и последователности от действия, които имат необходима връзка от един към друг. 

„Резултатите, представени в тази статия, помагат да се проправи пътя към използването на изобилието от немаркирани данни в мрежата за последователни домейни за вземане на решения“, пишат те. 

Работата вероятно може да се използва за множество компютърни задачи, които изискват последователност от щраквания на мишката и други човешки операторски контроли, предполагат те. 

„Въпреки че експериментираме само в Minecraft, ние вярваме, че VPT предоставя обща рецепта за трениране на поведенчески приоритети в трудни, но общи пространства за действие във всеки домейн, който има голямо количество свободно достъпни немаркирани данни, като например използване на компютър.“

Open-AI е най-известен с програмата за голям език, наречена GPT-3, която също използва „предварително обучен“ подход, базиран на тонове уеб данни, които не са етикетирани. В известен смисъл играта Minecraft разширява този подход към мимикрия на поведение в областта на последователни компютърни задачи, заснети чрез видео. 

Също така: Какво е GPT-3? Всичко, което вашият бизнес трябва да знае за революционната езикова програма за изкуствен интелект на OpenAI

Крайното постижение е в някои случаи да се надхвърли времето, необходимо на човек да постигне една от най-трудните задачи, получаването на диамантена кирка.

В Minecraft базираните на диаманти инструменти просто издържат по-дълго и могат да причинят повече щети. Диамантените кирки са единствените, които са особено важни за повечето геймъри. Имате нужда от диамантена кирка, за да копаете обсидиан и измислен материал, наречен нетерит, като и двата са важни за дейности в края на играта, като омагьосване на маси и изработка на оборудване от нетерит.

След като обучиха VPT да научи всички видове задачи на Minecraft, авторите използваха подход за „фина настройка“, който разработи невронна мрежа за обучение за подсилване, за да изработи диамантена кирка за по-бързо от нормалното време. 

„За да демонстрираме ефикасността на фината настройка на RL, ние избрахме предизвикателната цел да получим диамантена кирка в рамките на 10 минути, започвайки от нов свят за оцеляване на Minecraft“, пишат те. 

Това е предизвикателство за хората, които обикновено отнемат два пъти повече време, за да го направят, ако изобщо могат да го направят:

Това включва придобиване на поредица от трудни за получаване предмети, които изискват сложни умения като копаене, управление на инвентара, изработване със и без маса за изработка, използване на инструменти, работа с пещ и копаене на най-ниските дълбочини, където много опасности като врагове и лава съществува (фиг. 6). В допълнение към трудността напредъкът може лесно да бъде загубен чрез изпускане на предмети, унищожаване на предмети или смърт. Получаването на диамантена кирка често отнема на опитен човек повече от 20 минути (24,000 XNUMX действия).

При събирането както на данните на изпълнителя, така и на немаркираните 70,000 XNUMX часа уеб видео, авторите са имали предвид перспективата за обидно съдържание. „Изпълнителите теоретично биха могли да използват собствеността на отворения свят на Minecraft, за да генерират лична информация и/или обидно съдържание (напр. като използват блокове Minecraft, за да напишат името си или обидни съобщения, след което да намерят място, от което съобщението да се вижда)“, те пишат, въпреки че не са видели това във видеоклиповете от изпълнители, които авторите са гледали. 

„Разбира се, ние обучаваме нашите модели на BC [поведенческо клониране] на видеоклипове от интернет на хора, които играят Minecraft, и ако такова поведение е в тези видеоклипове, нашият модел също може потенциално да го научи, въпреки че очакваме подобно поведение да е достатъчно рядко, за да нашия модел няма вероятност да го възпроизведе“, пишат те. 

Къде отива след това такъв генерален агент? Идеята е, че след като е завладял диамантените брадви, VPT или неговото потомство може да прави всякакви неща, които човек може да прави с мишка и клавиатура, включително освиркване на билети, сърфиране в социални медии или навигиране по карти. 

източник