OpenAI utratilo 160,000 XNUMX dolarů za Upwork pro hráče Minecraftu, aby trénovali neuronovou síť

řemesla-diamant-krumpáč

Z videa VPT sledujícího výrobu diamantového krumpáče v Minecraftu. Počítačový program toho dosáhl za deset minut, což je polovina času, který by zabral zkušenému lidskému hráči.

Jak důležité může být zvládnout „diamantový nástroj“ v Minecraftu?

Dost důležité na to, abyste utratili 160,000 XNUMX dolarů, podle OpenAI, startupu s umělou inteligencí.

To je množství peněz, které tým v OpenAI utratil za najímání hráčů Minecraftu na online platformě Upwork s nabídkou pracovních míst, aby zasílali videa, na kterých hrají hru. 

Amazon Prime Day 2022: Včasné nabídky

In odhalený papír tento týden pod názvem „Video PreTraining (VPT): Učíme se jednat sledováním neoznačených online videí“ vědci z OpenAI Bowen Baker a tým prolomili průlom v používání velkých datových sad k trénování neuronové sítě k napodobování lidských úhozů k řešení různých úkolů ve videu. hra. (Příspěvek na blogu byl také zveřejněn od OpenAI.) 

Množství neuronových sítí si v posledních letech podmanilo různé typy her prostřednictvím toho, čemu se říká posilovací učení, včetně DeepMind AlphaZero od DeepMind, který se ujal šachů, Go a Shogi a následných MuZero program, který přidal možnost zpracovávat hry Atari. 

Baker a jeho tým chtěli vyvinout neuronovou síť pro složitější herní prostředí „otevřeného světa“ Minecraft, kde řada úhozů umožňuje hráčům mnohem větší míru svobody než v šachách nebo hrách Atari. 

Také: AI za šedesát sekund 

Výzkumná literatura, píší autoři, zahrnuje „obrovské množství“ práce na Minecraftu. Ale práce VPT je jedinečná, píší, svým rozsahem a rozsahem: „Podle našich nejlepších znalostí neexistuje žádná publikovaná práce, která by fungovala v plném, nemodifikovaném prostoru lidských akcí, který zahrnuje správu zásob přetažením a výroba předmětů."

Práce na budování neuronové sítě zvané VPT probíhaly ve dvou etapách. První fáze potřebovala lidské hráče nebo kontraktory, kteří shromáždili 4,500 hodin hraní. Vědci později přišli na to, že ve skutečnosti potřebují jen asi 2,000 hodin.

Baker a tým popisují proces:

Měli jsme jeden den otevřené přihlášky a poté jsme náhodně vybrali 10 uchazečů do prvního kola dodavatelů. Později v projektu, protože jsme potřebovali více dat a někteří dodavatelé požádali o ukončení svých smluv, jsme přidali další žadatele z původního fondu a také doporučení od aktuálně pracujících dodavatelů. Dodavatelé dostali zaplaceno 20 USD za hodinu (minus poplatky za platformu Upwork a příslušné daně). Všechny výsledky prezentované v tomto článku jsou založeny na přibližně 4,500 90,000 hodinách dat (včetně dat zaznamenaných pro shromažďování statistik lidské hry, která nebyla použita pro trénink), což nás stálo přibližně 160 4.6 $. V průběhu projektu jsme shromáždili některá data, která jsme kvůli chybám v záznamníku nepoužili a u některých nápadů jsme se nakonec nerealizovali. Celkem jsme v průběhu projektu utratili asi 2000 8000 $ za kompenzaci pro dodavatele. Nicméně, jak diskutujeme v Sek. 2000 bychom pravděpodobně mohli získat většinu našich výsledků s IDM vyškoleným pouze s použitím dat v hodnotě 40,000 USD, tj. základního modelu VPT, jemného doladění BC na datovou sadu earlygame_keyword a výsledků jemného doladění RL. Shromáždění datové sady contractor_house stálo asi XNUMX XNUMX USD. Protože jsme použili IDM vyškolený na přibližně XNUMX XNUMX hodinách údajů o dodavatelích, skutečné náklady na data o dodavatelích pro tyto výsledky byly kolem XNUMX XNUMX USD.

Po dobu těchto 4,500 XNUMX hodin připevňovali ke snímkům herního videa štítky pro akce, jako je „inventář“, aby zkontrolovali hráčovu sbírku předmětů pomocí klávesy „E“; a „plížit se“, abyste se „opatrně“ pohybovali aktuálním směrem pomocí tlačítka SHIFT klíč. Tyto akce se zaznamenávají jako textové řetězce JSON v každém okamžiku hraní hry a ukládají se s snímky videa. 

Hrací rámce s jejich označenými akcemi byly použity k trénování neuronové sítě nazývané inverzní dynamický model nebo IDM, která se učí, jaké akce souvisí s jakými snímky. IDM je spojením několika druhů neuronových sítí, včetně 3-D konvoluční neuronové sítě a ResNet pro analýzu snímků videa a několika sítí pozornosti Transformer pro předpovídání dalšího snímku videa. 

Také: Cítící? Google LaMDA se cítí jako typický chatbot

Tato trénovaná schopnost IDM je pak použita na mnohem větší sadě videozáznamů, celkem 70,000 XNUMX hodin neoznačených záznamů Minecraftu shromážděných z webu. IDM aplikuje „pseudo-štítky“ na tuto mnohem větší sbírku. Jinými slovy, IDM a poplatky za dodavatele jsou způsob, jak spustit obrovskou sadu videoškolení. 

openai-vpt-training-2022

Tréninkový režim pro VPT.

OpenAI

Jakkoli se může zdát platba dodavatele nákladná, tento přístup představuje velkou úsporu nákladů, píší autoři. Pokud by museli sbírat data o dodavatelích odpovídající 70,000 XNUMX hodinám webových videí, bylo by to mnohem dražší.

„Pokud bychom mohli levně shromáždit označený soubor dat o dodavateli podobného řádu jako web_clean, pak by to nebylo důležité; shromažďování takového rozsahu dat by však stálo miliony dolarů.“

Pomocí 70,000 XNUMX hodin pak autoři trénují druhou neuronovou síť, rovněž složenou z vrstev Transformer, aby napodobovala akce uživatele ve videích, což je běžná praxe známá jako „behaviorální klonování“.

Smyslem práce je najít způsob, jak vycvičit počítačového „agenta“ pro všeobecné použití, který dokáže využít množství dat na internetu, která nemají žádné štítky, k řešení úkolů, které zahrnují kauzalitu, význam a posloupnosti akcí, které mají nezbytný vztah od jednoho k druhému. 

„Výsledky prezentované v tomto dokumentu pomáhají připravit cestu k využití bohatství neoznačených dat na webu pro domény sekvenčního rozhodování,“ píší. 

Dílo lze myslitelně použít pro řadu počítačových úloh, které vyžadují sekvence kliknutí myší a další ovládací prvky lidského operátora, navrhují. 

„Zatímco v Minecraftu pouze experimentujeme, věříme, že VPT poskytuje obecný recept na trénování předchůdců chování v tvrdých, ale obecných akčních prostorech v jakékoli doméně, která má velké množství volně dostupných neoznačených dat, jako je například používání počítače.“

Open-AI je nejlépe známá pro velký jazykový program s názvem GPT-3, který také používá „předtrénovaný“ přístup založený na tunách webových dat, která nejsou označena. V jistém smyslu hra Minecraft rozšiřuje tento přístup k napodobování chování v oblasti sekvenčních počítačových úloh zachycených prostřednictvím videa. 

Také: Co je GPT-3? Vše, co vaše firma potřebuje vědět o průlomovém jazykovém programu AI OpenAI

Konečným úspěchem je v některých případech překročit čas potřebný k tomu, aby člověk dosáhl jednoho z nejtěžších úkolů, získání diamantového krumpáče.

V Minecraftu nástroje na bázi diamantů prostě vydrží déle a mohou způsobit více škody. Diamantové krumpáče jsou jediné, které jsou pro většinu hráčů zvláště důležité. K těžbě obsidiánu potřebujete diamantový krumpáč a fiktivní materiál zvaný netherit, které jsou oba důležité pro aktivity na konci hry, jako je kouzlení stolů a výroba netheritového vybavení.

Po trénování VPT, aby se naučili všechny druhy úkolů Minecraftu, autoři použili přístup „jemného ladění“, který vyvinul neuronovou síť pro učení výztuže, aby vyrobil diamantový krumpáč v rychlejším než normálním čase. 

„Abychom demonstrovali účinnost jemného ladění RL, zvolili jsme náročný cíl získat diamantový krumpáč do 10 minut počínaje novým světem přežití v Minecraftu,“ píší. 

To je náročné pro lidi, kterým to obvykle trvá dvakrát tak dlouho, pokud to vůbec zvládnou:

To zahrnuje získání sekvence obtížně dostupných předmětů, které vyžadují složité dovednosti, jako je těžba, správa inventáře, crafting s craftovacím stolem a bez něj, používání nástrojů, obsluha pece a těžba v nejnižších hloubkách, kde existuje mnoho nebezpečí, jako jsou nepřátelé. a láva existují (obr. 6). K obtížnosti se přidává postup, který lze snadno ztratit shazováním předmětů, ničením předmětů nebo umíráním. Získání diamantového krumpáče trvá zkušenému člověku více než 20 minut (24,000 XNUMX akcí).

Při sestavování údajů o dodavateli a neoznačených 70,000 XNUMX hodin webového videa měli autoři na paměti možnost urážlivého obsahu. „Dodavatelé by teoreticky mohli využít vlastnictví Minecraftu v otevřeném světě ke generování osobně identifikovatelných informací a/nebo urážlivého obsahu (např. pomocí bloků Minecraftu k napsání svého jména nebo urážlivých zpráv, pak by našli místo, ze kterého by zpráva byla viditelná),“ říkají. napsat, i když to neviděli ve videích od dodavatelů, které autoři sledovali. 

„Samozřejmě, trénujeme naše modely BC [behaviorální klonování] na videích z internetu lidí hrajících Minecraft, a pokud je takové chování v těchto videích, náš model by se to mohl také potenciálně naučit, ačkoli očekáváme, že takové chování je natolik vzácné, že náš model nebylo by pravděpodobné, že by to bylo možné reprodukovat,“ píší. 

Kam takový obecný agent půjde dál? Myšlenka je taková, že po dobytí diamantových os, VPT nebo jejich potomků, mohou dělat všechny druhy věcí, které by člověk mohl dělat s myší a klávesnicí, včetně vypískání lístků, surfování po sociálních sítích nebo navigace po mapách. 

Zdroj