OpenAI потроши 160,000 долари на Upwork за гејмерите на Minecraft да тренираат нервна мрежа

изработка-дијамант-барачка

Од видеото на VPT што го следи изработката на дијамантска пика во Minecraft. Компјутерската програма го постигна подвигот за десет минути, половина од времето што му требаше на вешт човек играч за да го направи тоа.

Колку би можело да биде важно да ја совладате „алатката за дијаманти“ во Minecraft?

Доволно важно да се потрошат 160,000 долари, според OpenAI, стартапот за вештачка интелигенција.

Тоа е сумата на пари што тимот на OpenAI ги потроши за да ангажира играчи на Minecraft на онлајн платформата за огласи за работни места Upwork за да испраќаат видеа од нив како ја играат играта. 

Amazon Prime Day 2022: Рани зделки

In објавена хартија оваа недела, „Видео пред-тренинг (VPT): Учење да дејствувате со гледање необележани онлајн видеа“, истражувачите на OpenAI, Бовен Бејкер и тимот, се пробиваат во употребата на големи збирки податоци за да обучуваат невронска мрежа да имитира човечки удари за да решава различни задачи во видеото игра. (Блог пост исто така е објавено од OpenAI.) 

Мноштво невронски мрежи освоија различни видови игри преку она што се нарекува засилено учење во последниве години, вклучително и AlphaZero на DeepMind DeepMind, кој ги зафати шахот, Go и Shogi и последователните MuZero програма, која додаде можност за ракување со игрите на Atari. 

Бејкер и тимот сакаа да развијат невронска мрежа за покомплексната средина за играње „отворен свет“ на Minecraft, каде низа притискања на копчињата им овозможуваат на играчите многу поголеми степени на слобода отколку во игрите во шах или Atari. 

Значи: ВИ за шеесет секунди 

Истражувачката литература, пишуваат авторите, вклучува „огромно количество“ работа на Minecraft. Но, работата на VPT е уникатна, пишуваат тие, поради нејзиниот обем и размери: „Според нашите сознанија, не постои објавена работа што функционира во целосниот, немодифициран простор за човечко дејствување, кој вклучува влечење и пушти управување со залихи и изработка на предмети“.

Работата на изградбата на невронската мрежа, наречена VPT, се одвиваше во две фази. На првата фаза им беа потребни човечки играчи или изведувачи, кои собраа 4,500 часа играње. Истражувачите подоцна сфатиле дека навистина им се потребни само околу 2,000 часа.

Бејкер и тимот го опишуваат процесот:

Апликациите ги имавме отворени еден ден, а потоа по случаен избор избравме 10 пријавени за првиот круг на изведувачи. Подоцна во текот на проектот, бидејќи ни беа потребни повеќе податоци и бидејќи некои изведувачи побараа да ги раскинат своите договори, додадовме повеќе апликанти од оригиналниот базен, како и препораки од тековно работат изведувачи. На изведувачите им биле исплаќани 20 долари на час (минус таксите за платформата Upwork и применливите даноци). Сите резултати презентирани во овој труд се засноваат на околу 4,500 часа податоци (вклучувајќи податоци снимени за собирање статистика за човечка игра што не се користела за тренинзи), што нè чинеше околу 90,000 долари. Во текот на проектот, собравме некои податоци што не ги користевме поради грешки во рекордерот и за некои идеи на крајот не ги следевме. Севкупно, потрошивме околу 160 илјади американски долари за компензација на изведувачот во текот на проектот. Сепак, како што разговараме во втор. 4.6, веројатно би можеле да ги добиеме повеќето од нашите резултати со IDM обучен користејќи податоци во вредност од само 2000 американски долари, т.е. основен VPT модел, BC фино подесување на базата на податоци за клучна игра на почетокот и резултатите од фино подесување на RL. Собирањето на базата на податоци на contractor_house чинеше околу 8000 американски долари. Бидејќи го користевме IDM обучен за околу 2000 часа податоци за изведувачите, реалната цена на податоците за изведувачот за тие резултати беше околу 40,000 американски долари.

За тие 4,500 часа, тие прикачуваа етикети на рамките на видеото од играта за дејства како „инвентар“, за да ја проверат колекцијата на предмети на играчот, користејќи го копчето „Е“; и „sneak“, за да се движите „внимателно“ во тековната насока, користејќи го SHIFT клуч. Тие дејства се снимаат како текстуални низи JSON во секој момент од играњето и се складираат со видео рамки. 

Рамките на игра со нивните означени дејства беа искористени за обука на нервна мрежа наречена модел на инверзна динамика или IDM, која учи кои дејства одат со какви рамки. IDM е спој на неколку видови нервни мрежи, вклучувајќи 3-D конволуционална нервна мрежа и ResNet за анализа на видео кадрите и неколку трансформаторски мрежи на внимание за предвидување на следната видео рамка. 

Значи: Осетлив? Google LaMDA се чувствува како типичен chatbot

Таа обучена способност на IDM потоа се користи на многу поголем сет на видео снимки, вкупно 70,000 часа неозначени снимки на Minecraft собрани од Интернет. IDM применува „псевдо-етикети“ на таа многу поголема колекција. Со други зборови, IDM и таксите на изведувачот се начин да се подигне огромен видео сет за обука. 

openai-vpt-training-2022

Режимот за обука за VPT.

OpenAI

Колку и да изгледа скапо плаќањето на изведувачот, пристапот претставува голема заштеда на трошоците, пишуваат авторите. Кога би требало да соберат податоци за изведувачите еднакви на 70,000 часа веб-видеа, тоа би било многу поскапо.

„Доколку би можеле евтино да собереме означена база на податоци за изведувачите со сличен редослед на големина како web_clean, тогаш ова не би било важно; сепак, собирањето на таа скала на податоци би чинело милиони долари“.

Користејќи ги 70,000 часа, авторите потоа тренираат втора невронска мрежа, исто така составена од слоеви на трансформатори, за да ги имитираат дејствата на корисникот во видеата, вообичаена практика позната како „клонирање на однесувањето“.

Поентата на работата е да се најде начин да се обучи компјутерски „агент“ за општа намена кој може да го користи богатството на податоци на Интернет кои немаат етикети за да решава задачи што вклучуваат каузалност, значење и низа дејства кои имаат неопходен однос од еден до друг. 

„Резултатите претставени во овој труд помагаат да се отвори патот кон искористување на богатството од неозначени податоци на веб за секвенцијални домени на одлуки“, пишуваат тие. 

Работата може да се користи за многубројни компјутерски задачи кои бараат низа на кликања на глувчето и други контроли од човечки оператор, предлагаат тие. 

„Иако експериментираме само во Minecraft, веруваме дека VPT обезбедува општ рецепт за тренирање на бихејвиорални приоритети во тешки, но сепак генерички, акциони простори во кој било домен што има голема количина на слободно достапни неозначени податоци, како што е употребата на компјутер“.

Open-AI е најпознат по големата јазична програма наречена GPT-3, која исто така користи „преттрениран“ пристап заснован на тони веб-податоци кои не се етикетирани. Во извесна смисла, играта Minecraft го проширува тој пристап кон мимикријата на однесувањето во доменот на последователни компјутерски задачи снимени преку видео. 

Исто така: Што е GPT-3? Сè што треба да знае вашиот бизнис за пробивната програма за јазик за вештачка интелигенција на OpenAI

Крајното достигнување е во некои случаи да се надмине времето потребно за човекот да ја постигне една од најтешките задачи, да добие дијамантска пика.

Во Minecraft, алатките базирани на дијаманти траат подолго и можат да направат поголема штета. Дијамантските стапчиња се единствените кои се особено важни за повеќето гејмери. Потребна ви е дијамантска пиказа за да ископате обсидијан и измислен материјал наречен нетерит, кои се важни за активностите на крајот на играта, како што се волшебните маси и изработката на опрема за нетерит.

Откако го обучија VPT да научи секакви задачи на Minecraft, авторите користеа пристап за „фино подесување“ кој разви невронска мрежа за зајакнување на учењето за да направи дијамантска пика во побрзо од нормалното време. 

„За да ја демонстрираме ефикасноста на дотерувањето на RL, ја избравме предизвикувачката цел да добиеме дијамантска пиказа во рок од 10 минути, почнувајќи од свеж свет за преживување на Minecraft“, пишуваат тие. 

Ова е предизвик за луѓето, на кои обично им треба двојно повеќе време за да го направат тоа, ако воопшто можат да го направат тоа:

Тоа вклучува стекнување низа од тешко достапни предмети кои бараат сложени вештини како рударство, управување со залихи, изработка со и без маса за изработка, употреба на алат, ракување со печка и ископување на најниските длабочини, каде што има многу опасности како непријатели а лавата постои (сл. 6). Дополнително на тешкотијата, напредокот може лесно да се изгуби со фрлање предмети, уништување предмети или умирање. Добивањето на дијамантска пика почесто отколку не му треба на вешт човек повеќе од 20 минути (24,000 акции).

При составувањето и на податоците за изведувачот и на неетикетираните 70,000 часа веб-видео, авторите внимаваа на можноста за навредлива содржина. „Изведувачите теоретски би можеле да ја користат сопственоста на Minecraft за отворен свет за да генерираат информации за лична идентификација и/или навредлива содржина (на пр. со користење блокови на Minecraft за да го напишат своето име или навредливи пораки, а потоа да најдат место од кое пораката би била видлива),“ тие пишуваат, иако тие не го видоа ова на видеата од изведувачите што ги гледаа авторите. 

„Се разбира, ние ги тренираме нашите модели BC [клонирање на однесувањето] на видеа од интернет на луѓе кои играат Minecraft, и ако таквото однесување е во тие видеа, нашиот модел исто така може потенцијално да го научи, иако очекуваме дека таквото однесување е доволно ретко што нашиот модел веројатно нема да го репродуцираат“, пишуваат тие. 

Каде оди понатаму таков генерален агент? Идејата е дека со освојувањето на дијамантските секири, VPT, или неговото потомство, може да се прават сите видови на работи што едно лице може да ги прави со глувчето и тастатурата, вклучително и исвиркување билети, сурфање на социјалните мрежи или навигација на мапи. 

извор