OpenAI के विशेषज्ञों ने खेलने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित किया है Minecraft मानव खिलाड़ियों के समान उच्च स्तर के लिए।
तंत्रिका नेटवर्क को 70,000 घंटों के विविध इन-गेम फ़ुटेज पर प्रशिक्षित किया गया था, जो एक छोटे . के साथ पूरक था डेटाबेस उन वीडियो की संख्या जिनमें ठेकेदारों ने विशिष्ट इन-गेम कार्य किए, कीबोर्ड और माउस इनपुट भी दर्ज किया।
फाइन-ट्यूनिंग के बाद, ओपनएआई ने पाया कि मॉडल तैराकी से लेकर जानवरों के शिकार और उनके मांस का सेवन करने तक सभी तरह के जटिल कौशल का प्रदर्शन करने में सक्षम था। इसने "पिलर जंप" को भी पकड़ लिया, एक ऐसा कदम जिससे खिलाड़ी ऊंचाई हासिल करने के लिए मध्य-कूद के नीचे सामग्री का एक ब्लॉक रखता है।
शायद सबसे प्रभावशाली, एआई हीरे के औजारों को तैयार करने में सक्षम था (अनुक्रम में क्रियाओं की एक लंबी स्ट्रिंग की आवश्यकता होती है), जिसे ओपनएआई ने कंप्यूटर एजेंट के लिए "अभूतपूर्व" उपलब्धि के रूप में वर्णित किया।
एक एआई सफलता?
माइनक्राफ्ट प्रोजेक्ट का महत्व यह है कि यह एआई मॉडल के प्रशिक्षण में ओपनएआई द्वारा तैनात एक नई तकनीक की प्रभावकारिता को प्रदर्शित करता है - जिसे वीडियो प्रीट्रेनिंग (वीपीटी) कहा जाता है - जो कंपनी का कहना है कि "सामान्य कंप्यूटर-उपयोग करने वाले एजेंटों" के विकास में तेजी ला सकती है।
ऐतिहासिक रूप से, एआई मॉडल के प्रशिक्षण के लिए स्रोत के रूप में कच्चे वीडियो का उपयोग करने में कठिनाई यह रही है कि क्या हुआ है समझने के लिए काफी आसान है, लेकिन जरूरी नहीं है कैसे . वास्तव में, एआई मॉडल वांछित परिणामों को अवशोषित करेगा, लेकिन उन तक पहुंचने के लिए आवश्यक इनपुट संयोजनों की कोई समझ नहीं है।
हालांकि, वीपीटी के साथ, ओपनएआई ने बुनियादी मॉडल को स्थापित करने के लिए प्रासंगिक कीबोर्ड और माउस आंदोलनों के साथ लेबल किए गए फुटेज के सावधानीपूर्वक क्यूरेटेड पूल के साथ सार्वजनिक वेब स्रोतों से तैयार किए गए एक बड़े वीडियो डेटासेट को जोड़ा।
बेस मॉडल को ठीक करने के लिए, टीम फिर विशिष्ट कार्यों को सिखाने के लिए डिज़ाइन किए गए छोटे डेटासेट में प्लग करती है। इस संदर्भ में, OpenAI ने शुरुआती-खेल कार्यों को करने वाले खिलाड़ियों के फुटेज का उपयोग किया, जैसे कि पेड़ों को काटना और क्राफ्टिंग टेबल बनाना, जिसके बारे में कहा जाता है कि इससे विश्वसनीयता में "बड़े पैमाने पर सुधार" हुआ है जिसके साथ मॉडल इन कार्यों को करने में सक्षम था।
एक अन्य तकनीक में कार्यों के अनुक्रम में प्रत्येक चरण को प्राप्त करने के लिए एआई मॉडल को "पुरस्कृत" करना शामिल है, एक अभ्यास जिसे सुदृढीकरण सीखने के रूप में जाना जाता है। इस प्रक्रिया ने तंत्रिका नेटवर्क को मानव-स्तर की सफलता दर के साथ हीरा पिकैक्स के लिए सभी सामग्री एकत्र करने की अनुमति दी है।
“वीपीटी इंटरनेट पर बड़ी संख्या में वीडियो देखकर एजेंटों को कार्य करना सीखने की अनुमति देने का मार्ग प्रशस्त करता है। जनरेटिव वीडियो मॉडलिंग या विरोधाभासी तरीकों की तुलना में जो केवल प्रतिनिधित्व करने वाले पुजारियों को प्राप्त करेंगे, वीपीटी सिर्फ भाषा की तुलना में अधिक डोमेन में बड़े पैमाने पर व्यवहारिक पुजारियों को सीधे सीखने की रोमांचक संभावना प्रदान करता है, ”ओपनएआई ने एक में समझाया ब्लॉग पोस्ट (नए टैब में खुलता है) .
"जबकि हम केवल Minecraft में प्रयोग करते हैं, खेल बहुत खुला है और मूल मानव इंटरफ़ेस (माउस और कीबोर्ड) बहुत सामान्य है, इसलिए हम मानते हैं कि हमारे परिणाम अन्य समान डोमेन, जैसे कंप्यूटर उपयोग के लिए अच्छे हैं।"
अंतरिक्ष में आगे के प्रयोग को प्रोत्साहित करने के लिए, OpenAI ने के साथ भागीदारी की है माइनआरएल न्यूरआईपीएस प्रतियोगिता , जटिल Minecraft कार्यों को हल करने के लिए AI का उपयोग करने का प्रयास करने वाले प्रतियोगियों को अपना ठेकेदार डेटा और मॉडल कोड दान करना। भव्य पुरस्कार: $ 100,000।