OpenAI ने तंत्रिका जाल को प्रशिक्षित करने के लिए Minecraft गेमर्स के लिए Upwork पर $160,000 खर्च किए

क्राफ्टिंग-हीरा-कुल्हाड़ी

Minecraft में हीरा पिकैक्स बनाने का पीछा करते हुए VPT के वीडियो से। कंप्यूटर प्रोग्राम ने दस मिनट में यह उपलब्धि हासिल की, इसे करने में एक कुशल मानव खिलाड़ी को जितना समय लगेगा, उससे आधा समय।

Minecraft में "डायमंड टूल" में महारत हासिल करना कितना महत्वपूर्ण हो सकता है?

आर्टिफिशियल इंटेलिजेंस स्टार्टअप, OpenAI के अनुसार, $ 160,000 खर्च करने के लिए पर्याप्त है।

यह वह राशि है जो OpenAI की एक टीम ने ऑनलाइन जॉब लिस्टिंग प्लेटफॉर्म Upwork पर Minecraft के खिलाड़ियों को काम पर रखने के लिए खुद के गेम खेलने के वीडियो सबमिट करने के लिए खर्च की। 

अमेज़न प्राइम डे 2022: शुरुआती डील

In एक कागज का अनावरण इस सप्ताह, "वीडियो प्रीट्रेनिंग (वीपीटी): बिना लेबल वाले ऑनलाइन वीडियो देखकर कार्य करना सीखना," ओपनएआई के शोधकर्ता बोवेन बेकर और टीम ने वीडियो में विभिन्न कार्यों को हल करने के लिए मानव कीस्ट्रोक्स की नकल करने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बड़े डेटासेट के उपयोग में जमीन तोड़ दी। खेल। (एक ब्लॉग पोस्ट भी पोस्ट किया गया है ओपनएआई द्वारा।) 

तंत्रिका नेटवर्क के ढेरों ने हाल के वर्षों में सुदृढीकरण सीखने के माध्यम से विभिन्न प्रकार के खेलों पर विजय प्राप्त की है, जिसमें डीपमाइंड डीपमाइंड का अल्फाज़ेरो शामिल है, जिसने शतरंज, गो और शोगी और बाद के वर्षों में लिया। मुजेरो कार्यक्रम, जिसने अटारी खेलों को संभालने की क्षमता को जोड़ा। 

बेकर और टीम Minecraft के अधिक जटिल "खुली दुनिया" खेल वातावरण के लिए एक तंत्रिका नेटवर्क विकसित करना चाहते थे, जहां कीस्ट्रोक्स की एक सरणी खिलाड़ियों को शतरंज या अटारी खेलों की तुलना में कहीं अधिक स्वतंत्रता की अनुमति देती है। 

इसके अलावा: साठ सेकंड में एआई 

लेखक लिखते हैं, शोध साहित्य में Minecraft पर "विशाल राशि" का काम शामिल है। लेकिन वीपीटी कार्य अद्वितीय है, वे इसके दायरे और पैमाने के लिए लिखते हैं: "हमारी सर्वोत्तम जानकारी के लिए, कोई भी प्रकाशित कार्य नहीं है जो पूर्ण, असंशोधित मानव क्रिया स्थान में संचालित होता है, जिसमें ड्रैग-एंड-ड्रॉप इन्वेंट्री प्रबंधन शामिल है और आइटम क्राफ्टिंग। ”

वीपीटी नामक तंत्रिका नेटवर्क के निर्माण का कार्य दो चरणों में हुआ। पहले चरण में मानव खेल खिलाड़ियों या ठेकेदारों की जरूरत थी, जिन्होंने 4,500 घंटे के खेल खेलने को इकट्ठा किया। शोधकर्ताओं ने बाद में पता लगाया कि उन्हें वास्तव में केवल 2,000 घंटों की आवश्यकता है।

बेकर और टीम प्रक्रिया का वर्णन करते हैं:

हमारे पास एक दिन के लिए आवेदन खुले थे, और फिर ठेकेदारों के पहले दौर के लिए बेतरतीब ढंग से 10 आवेदकों का चयन किया। बाद में परियोजना में, जैसा कि हमें अधिक डेटा की आवश्यकता थी और जैसा कि कुछ ठेकेदारों ने अपने अनुबंधों को समाप्त करने के लिए कहा, हमने मूल पूल से और साथ ही वर्तमान में काम कर रहे ठेकेदारों के रेफरल से अधिक आवेदकों को जोड़ा। ठेकेदारों को $20 प्रति घंटे (माइनस अपवर्क प्लेटफॉर्म फीस और लागू कर) का भुगतान किया गया था। इस पेपर में प्रस्तुत किए गए सभी परिणाम लगभग 4,500 घंटे के डेटा पर आधारित हैं (जिसमें मानव खेल के आंकड़ों को इकट्ठा करने के लिए रिकॉर्ड किया गया डेटा भी शामिल है जिसका उपयोग प्रशिक्षण के लिए नहीं किया गया था), जिसकी कीमत हमें लगभग $90,000 थी। परियोजना के दौरान, हमने कुछ डेटा एकत्र किया जिसका उपयोग हमने रिकॉर्डर में बग के कारण नहीं किया और कुछ विचारों के लिए हमने अंततः पीछा नहीं किया। कुल मिलाकर, हमने परियोजना के दौरान ठेकेदार मुआवजे के लिए लगभग $160k खर्च किया। हालाँकि, जैसा कि हम भाग में चर्चा करते हैं। 4.6, हम संभवतः अपने अधिकांश परिणाम प्राप्त कर सकते हैं IDM के साथ प्रशिक्षित केवल $2000 मूल्य के डेटा का उपयोग करके, अर्थात नींव VPT मॉडल, BC अर्लीगेम_कीवर्ड डेटासेट के लिए फ़ाइन-ट्यूनिंग, और RL फ़ाइन-ट्यूनिंग परिणाम। ठेकेदार_हाउस डेटासेट को इकट्ठा करने में लगभग $8000 का खर्च आता है। क्योंकि हमने लगभग 2000 घंटे के ठेकेदार डेटा पर प्रशिक्षित IDM का उपयोग किया था, उन परिणामों के लिए ठेकेदार डेटा की वास्तविक लागत लगभग $40,000 थी।

उन 4,500 घंटों के लिए, उन्होंने "ई" कुंजी का उपयोग करके खिलाड़ी के ऑब्जेक्ट के संग्रह की जांच करने के लिए "इन्वेंट्री" जैसी कार्रवाइयों के लिए गेम वीडियो के फ़्रेम में लेबल संलग्न किए; और "चुपके", वर्तमान दिशा में "सावधानीपूर्वक" स्थानांतरित करने के लिए, का उपयोग कर SHIFT चाभी। उन क्रियाओं को गेम खेलने के प्रत्येक क्षण में JSON टेक्स्ट स्ट्रिंग्स के रूप में रिकॉर्ड किया जाता है और वीडियो फ़्रेम के साथ संग्रहीत किया जाता है। 

उनके लेबल वाली क्रियाओं के साथ गेमप्ले के फ्रेम का उपयोग एक तंत्रिका जाल को प्रशिक्षित करने के लिए किया जाता था जिसे व्युत्क्रम गतिकी मॉडल या IDM कहा जाता है, जो यह सीखता है कि कौन सी क्रियाएँ किन फ़्रेमों के साथ चलती हैं। IDM कई प्रकार के तंत्रिका जालों का एक मैश-अप है, जिसमें वीडियो फ्रेम को पार्स करने के लिए एक 3-डी कन्वेन्शनल न्यूरल नेट और एक रेसनेट, और अगले वीडियो फ्रेम की भविष्यवाणी करने के लिए कई ट्रांसफार्मर नेटवर्क शामिल हैं। 

इसके अलावा: संवेदनशील? Google LaMDA एक विशिष्ट चैटबॉट की तरह लगता है

उस IDM की प्रशिक्षित क्षमता का उपयोग वीडियो फ़ुटेज के बहुत बड़े सेट पर किया जाता है, वेब से एकत्रित किए गए बिना लेबल वाले Minecraft फ़ुटेज के कुल 70,000 घंटे। IDM उस बड़े संग्रह पर "छद्म-लेबल" लागू करता है। दूसरे शब्दों में, IDM, और ठेकेदार की फीस, एक विशाल वीडियो प्रशिक्षण सेट को बूटस्ट्रैप करने का एक तरीका है। 

ओपनई-वीपीटी-प्रशिक्षण-2022

वीपीटी के लिए प्रशिक्षण व्यवस्था।

OpenAI

ठेकेदार भुगतान जितना महंगा लग सकता है, दृष्टिकोण एक बड़ी लागत बचत का प्रतिनिधित्व करता है, लेखक लिखते हैं। अगर उन्हें वेब वीडियो के 70,000 घंटों के बराबर ठेकेदार डेटा एकत्र करना होता, तो यह बहुत अधिक महंगा होता।

“अगर हम वेब_क्लीन के समान परिमाण के एक लेबल वाले ठेकेदार डेटासेट को सस्ते में एकत्र कर सकते हैं, तो यह महत्वपूर्ण नहीं होगा; हालाँकि, उस पैमाने के डेटा को इकट्ठा करने में लाखों डॉलर खर्च होंगे।"

70,000 घंटों का उपयोग करते हुए, लेखक वीडियो में उपयोगकर्ता क्रियाओं की नकल करने के लिए एक दूसरे तंत्रिका नेटवर्क को प्रशिक्षित करते हैं, जो ट्रांसफार्मर परतों से बना होता है, एक सामान्य अभ्यास जिसे "व्यवहार क्लोनिंग" के रूप में जाना जाता है।

काम का उद्देश्य एक सामान्य प्रयोजन के कंप्यूटर "एजेंट" को प्रशिक्षित करने का एक तरीका खोजना है जो इंटरनेट पर डेटा के धन का उपयोग कर सकता है जिसमें कार्यों को हल करने के लिए कोई लेबल नहीं है, जिसमें कार्य-कारण, अर्थ और क्रियाओं के अनुक्रम शामिल हैं जिनमें एक है एक से दूसरे के लिए आवश्यक संबंध। 

"इस पेपर में प्रस्तुत परिणाम अनुक्रमिक निर्णय डोमेन के लिए वेब पर बिना लेबल वाले डेटा के धन का उपयोग करने का मार्ग प्रशस्त करते हैं," वे लिखते हैं। 

वे सुझाव देते हैं कि काम का उपयोग कई कंप्यूटर कार्यों के लिए किया जा सकता है, जिसमें माउस क्लिक और अन्य मानव ऑपरेटर नियंत्रणों के अनुक्रम की आवश्यकता होती है। 

"जबकि हम केवल Minecraft में प्रयोग करते हैं, हम मानते हैं कि VPT किसी भी डोमेन में कठिन, फिर भी सामान्य, एक्शन स्पेस में व्यवहारिक पुजारियों को प्रशिक्षण देने के लिए एक सामान्य नुस्खा प्रदान करता है, जिसमें बड़ी मात्रा में स्वतंत्र रूप से उपलब्ध बिना लेबल वाला डेटा होता है, जैसे कि कंप्यूटर का उपयोग।"

ओपन-एआई को जीपीटी -3 नामक बड़े भाषा कार्यक्रम के लिए सबसे अच्छी तरह से जाना जाता है, जो कि लेबल नहीं किए गए वेब डेटा के आधार पर "पूर्व-प्रशिक्षित" दृष्टिकोण का भी उपयोग करता है। एक मायने में, Minecraft गेम वीडियो के माध्यम से कैप्चर किए गए अनुक्रमिक कंप्यूटर कार्यों के क्षेत्र में व्यवहार की नकल करने के लिए उस दृष्टिकोण का विस्तार कर रहा है। 

इसके अलावा: GPT-3 क्या है? OpenAI के सफल AI भाषा कार्यक्रम के बारे में आपके व्यवसाय को जो कुछ जानने की आवश्यकता है वह सब कुछ

अंतिम उपलब्धि कुछ मामलों में मानव के लिए सबसे कठिन कार्यों में से एक को प्राप्त करने के लिए आवश्यक समय से अधिक है, एक हीरा पिकैक्स प्राप्त करना।

Minecraft में, हीरा-आधारित उपकरण अधिक समय तक चलते हैं और अधिक नुकसान कर सकते हैं। डायमंड पिकैक्स केवल वही हैं जो अधिकांश गेमर्स के लिए विशेष रूप से महत्वपूर्ण हैं। आपको माइन ओब्सीडियन के लिए एक हीरे की पिकैक्स और नेथराइट नामक एक काल्पनिक सामग्री की आवश्यकता है, जो दोनों एंडगेम गतिविधियों जैसे करामाती टेबल और नेथराइट उपकरण बनाने के लिए महत्वपूर्ण हैं।

वीपीटी को सभी प्रकार के माइनक्राफ्ट कार्यों को सीखने के लिए प्रशिक्षण देने के बाद, लेखकों ने एक "फाइन-ट्यूनिंग" दृष्टिकोण का उपयोग किया जिसने एक हीरे की पिकैक्स को तेजी से सामान्य समय में फैशन करने के लिए एक सुदृढ़ीकरण सीखने वाले तंत्रिका नेटवर्क को विकसित किया। 

"आरएल फाइन-ट्यूनिंग की प्रभावकारिता का प्रदर्शन करने के लिए, हमने एक ताजा Minecraft अस्तित्व की दुनिया से शुरू होने वाले 10 मिनट के भीतर हीरा पिकैक्स प्राप्त करने का चुनौतीपूर्ण लक्ष्य चुना है," वे लिखते हैं। 

यह मनुष्यों के लिए चुनौतीपूर्ण है, जो आमतौर पर इसे करने में दोगुना समय लेते हैं, यदि वे इसे बिल्कुल भी कर सकते हैं:

ऐसा करने में मुश्किल-से-प्राप्त वस्तुओं का एक क्रम प्राप्त करना शामिल है, जिसमें खनन, इन्वेंट्री प्रबंधन, क्राफ्टिंग टेबल के साथ और बिना क्राफ्टिंग, टूल का उपयोग, भट्ठी का संचालन, और सबसे कम गहराई पर खनन जैसे जटिल कौशल की आवश्यकता होती है, जहां कई खतरे जैसे दुश्मन और लावा मौजूद हैं (चित्र 6)। कठिनाई को बढ़ाते हुए, वस्तुओं को गिराने, वस्तुओं को नष्ट करने या मरने से प्रगति आसानी से खो सकती है। एक कुशल मानव को 20 मिनट (24,000 क्रियाओं) से अधिक समय तक हीरे की पिकैक्स प्राप्त करने में अधिक समय लगता है।

ठेकेदार डेटा और बिना लेबल वाले 70,000 घंटे के वेब वीडियो दोनों को इकट्ठा करने में, लेखक आपत्तिजनक सामग्री की संभावना के प्रति सचेत थे। "ठेकेदार सैद्धांतिक रूप से व्यक्तिगत रूप से पहचान योग्य जानकारी और/या आपत्तिजनक सामग्री उत्पन्न करने के लिए Minecraft की खुली दुनिया की संपत्ति का उपयोग कर सकते हैं (उदाहरण के लिए अपना नाम या आपत्तिजनक संदेश लिखने के लिए Minecraft ब्लॉक का उपयोग करके, फिर उस स्थान को ढूंढना जहां से संदेश दिखाई देगा)," वे लिखें, हालांकि उन्होंने लेखकों द्वारा देखे गए ठेकेदारों के वीडियो में यह नहीं देखा। 

"बेशक, हम अपने बीसी [व्यवहार क्लोनिंग] मॉडल को माइनक्राफ्ट खेलने वाले लोगों के इंटरनेट से वीडियो पर प्रशिक्षित करते हैं, और यदि ऐसा व्यवहार उन वीडियो में है तो हमारा मॉडल संभावित रूप से इसे सीख सकता है, हालांकि हम उम्मीद करते हैं कि ऐसा व्यवहार दुर्लभ है कि हमारा मॉडल इसे पुन: पेश करने की संभावना नहीं होगी, ”वे लिखते हैं। 

ऐसा सामान्य एजेंट आगे कहां जाता है? विचार यह है कि हीरे की कुल्हाड़ियों, वीपीटी, या उसके वंश पर विजय प्राप्त करने के बाद, वह सभी प्रकार के काम कर सकता है जो एक व्यक्ति माउस और कीबोर्ड के साथ कर सकता है, जिसमें टिकटों की बू करना, सोशल मीडिया पर सर्फिंग या मानचित्रों को नेविगेट करना शामिल है। 

स्रोत