डीपमाइंड का 'गाटो' औसत दर्जे का है, तो उन्होंने इसे क्यों बनाया?

डीपमाइंड-गैटो-स्लैश-इमेज-क्लोजर-इन.पीएनजी

डीपमाइंड का "गैटो" न्यूरल नेटवर्क ब्लॉकों को ढेर करने वाले रोबोटिक हथियारों को नियंत्रित करने, अटारी 2600 गेम खेलने और छवियों को कैप्शन देने सहित कई कार्यों में उत्कृष्टता प्राप्त करता है।


Deepmind

दुनिया कृत्रिम बुद्धिमत्ता के गहन शिक्षण रूपों की नवीनतम सफलता के बारे में सुर्खियाँ देखने की आदी है। हालाँकि, Google के डीपमाइंड डिवीजन की नवीनतम उपलब्धि को संक्षेप में प्रस्तुत किया जा सकता है, "एक AI प्रोग्राम जो कई चीजों में बहुत अच्छा काम करता है।" 

गैटो, जैसा कि डीपमाइंड के कार्यक्रम को कहा जाता है, इस सप्ताह अनावरण किया गया एक तथाकथित मल्टीमॉडल प्रोग्राम के रूप में, जो वीडियो गेम खेल सकता है, चैट कर सकता है, रचनाएँ लिख सकता है, चित्र कैप्शन कर सकता है और रोबोटिक आर्म स्टैकिंग ब्लॉक को नियंत्रित कर सकता है। यह एक तंत्रिका नेटवर्क है जो कई प्रकार के कार्यों को करने के लिए कई प्रकार के डेटा के साथ काम कर सकता है। 

मुख्य लेखक स्कॉट रीड लिखते हैं, "वजन के एक सेट के साथ, गेटो संवाद, कैप्शन छवियां, वास्तविक रोबोट बांह के साथ स्टैक ब्लॉक, अटारी गेम खेलने में इंसानों से बेहतर प्रदर्शन, सिम्युलेटेड 3 डी वातावरण में नेविगेट, निर्देशों का पालन और बहुत कुछ कर सकता है।" और उनके पेपर, "ए जनरलिस्ट एजेंट," में सहकर्मी Arxiv प्रीप्रिंट सर्वर पर पोस्ट किया गया

डीपमाइंड के सह-संस्थापक डेमिस हसाबिस ने टीम का उत्साह बढ़ाया, एक ट्वीट में चिल्लाते हुए, “हमारा अब तक का सबसे सामान्य एजेंट!! टीम की ओर से शानदार काम!” 

इसके अलावा: एक नया प्रयोग: क्या एआई वास्तव में बिल्लियों या कुत्तों - या कुछ और को जानता है?

एकमात्र समस्या यह है कि गेटो वास्तव में कई कार्यों में उतना अच्छा नहीं है। 

एक ओर, यह प्रोग्राम ब्लॉकों को ढेर करने वाले रोबोटिक सॉयर आर्म को नियंत्रित करने में एक समर्पित मशीन लर्निंग प्रोग्राम से बेहतर करने में सक्षम है। दूसरी ओर, यह छवियों के लिए कैप्शन तैयार करता है जो कई मामलों में काफी खराब होते हैं। मानव वार्ताकार के साथ मानक चैट संवाद में इसकी क्षमता समान रूप से औसत दर्जे की है, कभी-कभी विरोधाभासी और निरर्थक कथनों को उजागर करती है। 

और अटारी 2600 वीडियो गेम खेलना बेंचमार्क में प्रतिस्पर्धा करने के लिए डिज़ाइन किए गए अधिकांश समर्पित एमएल कार्यक्रमों से नीचे है आर्केड सीखना पर्यावरण

आप ऐसा प्रोग्राम क्यों बनाएंगे जो कुछ चीज़ें बहुत अच्छी तरह से करता है और कई अन्य चीज़ें बहुत अच्छी तरह से नहीं करता है? लेखकों के अनुसार, मिसाल और अपेक्षा। 

एआई में अधिक सामान्य प्रकार के कार्यक्रमों के अत्याधुनिक बनने की मिसाल है, और ऐसी उम्मीद है कि भविष्य में कंप्यूटिंग शक्ति की बढ़ती मात्रा कमियों को पूरा करेगी। 

एआई में व्यापकता की जीत हो सकती है। जैसा कि लेखक एआई विद्वान रिचर्ड सटन का हवाला देते हुए कहते हैं, "ऐतिहासिक रूप से, सामान्य मॉडल जो गणना का लाभ उठाने में बेहतर हैं, अंततः अधिक विशिष्ट डोमेन-विशिष्ट दृष्टिकोणों से आगे निकल गए हैं।"

जैसा कि सटन ने लिखा है अपने स्वयं के ब्लॉग पोस्ट में, "70 वर्षों के एआई शोध से जो सबसे बड़ा सबक पढ़ा जा सकता है, वह यह है कि गणना का लाभ उठाने वाली सामान्य विधियां अंततः सबसे प्रभावी और बड़े अंतर से होती हैं।"

एक औपचारिक थीसिस में डालते हुए, रीड और टीम लिखते हैं कि “हम यहां इस परिकल्पना का परीक्षण करते हैं कि एक एजेंट को प्रशिक्षित करना जो आम तौर पर बड़ी संख्या में कार्यों में सक्षम है, संभव है; और यह कि इस सामान्य एजेंट को और भी बड़ी संख्या में कार्यों में सफल होने के लिए थोड़े अतिरिक्त डेटा के साथ अनुकूलित किया जा सकता है।

इसके अलावा: मेटा का एआई ल्यूमिनरी लेकुन गहन शिक्षण की ऊर्जा सीमा का पता लगाता है

इस मामले में, मॉडल वास्तव में बहुत सामान्य है। यह ट्रांसफार्मर का एक संस्करण है, प्रमुख प्रकार का ध्यान-आधारित मॉडल जो GPT-3 सहित कई कार्यक्रमों का आधार बन गया है। एक ट्रांसफॉर्मर कुछ तत्वों की संभावना को मॉडल करता है, जो इसके चारों ओर मौजूद तत्वों जैसे वाक्य में शब्द दिए जाते हैं। 

गैटो के मामले में, डीपमाइंड वैज्ञानिक कई डेटा प्रकारों पर समान सशर्त संभाव्यता खोज का उपयोग करने में सक्षम हैं। 

जैसा कि रीड और सहकर्मियों ने गैटो को प्रशिक्षित करने के कार्य का वर्णन किया है, 

गाटो के प्रशिक्षण चरण के दौरान, विभिन्न कार्यों और तौर-तरीकों के डेटा को एक बड़े भाषा मॉडल के समान एक ट्रांसफॉर्मर न्यूरल नेटवर्क द्वारा टोकन, बैच और संसाधित के एक फ्लैट अनुक्रम में क्रमबद्ध किया जाता है। नुकसान को छुपाया जाता है ताकि गैटो केवल कार्रवाई और टेक्स्ट लक्ष्यों की भविष्यवाणी कर सके।

दूसरे शब्दों में, गैटो टोकन के साथ अलग व्यवहार नहीं करता है, चाहे वे चैट में शब्द हों या ब्लॉक-स्टैकिंग अभ्यास में मूवमेंट वैक्टर हों। सभ एक ही है। 

Deepmind-how-gato-is-trained.png

गैटो प्रशिक्षण परिदृश्य।


रीड एट अल. 2022

रीड और टीम की परिकल्पना के भीतर दफन एक परिणाम है, अर्थात् अंततः अधिक से अधिक कंप्यूटिंग शक्ति जीतेगी। अभी, गैटो सॉयर रोबोट बांह की प्रतिक्रिया समय द्वारा सीमित है जो ब्लॉक स्टैकिंग करता है। 1.18 बिलियन नेटवर्क मापदंडों पर, गैटो जीपीटी-3 जैसे बहुत बड़े एआई मॉडल से काफी छोटा है। जैसे-जैसे गहन शिक्षण मॉडल बड़े होते जाते हैं, अनुमान लगाने में विलंब होता है जो वास्तविक दुनिया के रोबोट की गैर-नियतात्मक दुनिया में विफल हो सकता है। 

लेकिन, रीड और सहकर्मियों को उम्मीद है कि एआई हार्डवेयर के प्रसंस्करण में तेजी आने के कारण यह सीमा पार हो जाएगी।

उन्होंने लिखा, "हम अपने प्रशिक्षण को मॉडल स्केल के ऑपरेटिंग बिंदु पर केंद्रित करते हैं जो वास्तविक दुनिया के रोबोटों के वास्तविक समय पर नियंत्रण की अनुमति देता है, वर्तमान में गैटो के मामले में लगभग 1.2B पैरामीटर हैं।" "जैसे-जैसे हार्डवेयर और मॉडल आर्किटेक्चर में सुधार होता है, यह ऑपरेटिंग बिंदु स्वाभाविक रूप से व्यवहार्य मॉडल आकार में वृद्धि करेगा, सामान्यवादी मॉडल को स्केलिंग कानून वक्र से ऊपर धकेल देगा।"

इसलिए, गैटो वास्तव में एक मॉडल है कि कैसे सामान्य मॉडल को बड़ा और बड़ा बनाकर गणना का पैमाना मशीन सीखने के विकास का मुख्य वेक्टर बना रहेगा। दूसरे शब्दों में, बड़ा बेहतर है। 

स्केल.पीएनजी के साथ डीपमाइंड-बेहतर हो जाता है

जैसे-जैसे मापदंडों में तंत्रिका नेटवर्क का आकार बढ़ता है, गैटो बेहतर होता जाता है।


रीड एट अल. 2022

और लेखकों के पास इसके कुछ सबूत हैं। गैटो जैसे-जैसे बड़ा होता जाता है, वैसे-वैसे बेहतर होता जाता है। वे मापदंडों के अनुसार मॉडल के तीन आकारों के लिए सभी बेंचमार्क कार्यों में औसत स्कोर की तुलना करते हैं, 79 मिलियन, 364 मिलियन और मुख्य मॉडल, 1.18 बिलियन। लेखक लिखते हैं, "हम देख सकते हैं कि समतुल्य टोकन गणना के लिए, बढ़े हुए पैमाने के साथ प्रदर्शन में महत्वपूर्ण सुधार हुआ है।" 

एक दिलचस्प भविष्य का प्रश्न यह है कि क्या एक सामान्य कार्यक्रम अन्य प्रकार के एआई कार्यक्रमों की तुलना में अधिक खतरनाक है। लेखक इस तथ्य पर चर्चा करते हुए पेपर में काफी समय बिताते हैं कि ऐसे संभावित खतरे हैं जिन्हें अभी तक अच्छी तरह से नहीं समझा गया है।  

एक कार्यक्रम का विचार जो कई कार्यों को संभालता है, आम आदमी को एक प्रकार की मानवीय अनुकूलनशीलता का सुझाव देता है, लेकिन यह एक खतरनाक गलत धारणा हो सकती है। रीड और टीम लिखते हैं, "उदाहरण के लिए, भौतिक अवतार उपयोगकर्ताओं को एजेंट का मानवरूपीकरण करने के लिए प्रेरित कर सकता है, जिससे खराब प्रणाली के मामले में गलत विश्वास पैदा हो सकता है, या बुरे अभिनेताओं द्वारा इसका शोषण किया जा सकता है।" 

"इसके अतिरिक्त, जबकि क्रॉस-डोमेन ज्ञान हस्तांतरण अक्सर एमएल अनुसंधान में एक लक्ष्य होता है, अगर कुछ व्यवहार (जैसे आर्केड गेम फाइटिंग) को गलत संदर्भ में स्थानांतरित किया जाता है तो यह अप्रत्याशित और अवांछित परिणाम पैदा कर सकता है।"

इसलिए, वे लिखते हैं, "जैसे-जैसे सामान्यवादी प्रणालियाँ आगे बढ़ती हैं, ज्ञान हस्तांतरण की नैतिकता और सुरक्षा संबंधी विचारों को पर्याप्त नए शोध की आवश्यकता हो सकती है।"

(एक दिलचस्प साइड नोट के रूप में, गैटो पेपर पूर्व Google AI शोधकर्ता मार्गरेट मिशेल और उनके सहयोगियों द्वारा तैयार किए गए जोखिम का वर्णन करने के लिए एक योजना को नियोजित करता है, जिसे मॉडल कार्ड कहा जाता है। मॉडल कार्ड एक संक्षिप्त सारांश देते हैं कि AI प्रोग्राम क्या है, यह क्या करता है और क्या करता है कारक इसे प्रभावित करते हैं कि यह कैसे संचालित होता है। मिशेल ने पिछले साल लिखा था कि उन्हें अपने पूर्व सहयोगी टिमनिट गेब्रू का समर्थन करने के लिए Google से बाहर कर दिया गया था, जिनकी AI पर नैतिक चिंताएँ Google के AI नेतृत्व के कारण ख़राब थीं।)

गैटो अपनी सामान्यीकरण प्रवृत्ति में किसी भी तरह से अद्वितीय नहीं है। यह सामान्यीकरण की व्यापक प्रवृत्ति का हिस्सा है, और बड़े मॉडल जो अश्वशक्ति की बाल्टी का उपयोग करते हैं। दुनिया को इस दिशा में Google के झुकाव का पहला स्वाद पिछली गर्मियों में मिला, जब Google के "पर्सीवर" तंत्रिका नेटवर्क ने टेक्स्ट ट्रांसफॉर्मर कार्यों को छवियों, ध्वनि और LiDAR स्थानिक निर्देशांक के साथ जोड़ा।

इसके अलावा: Google का सुपरमॉडल: डीपमाइंड पर्सीवर एआई मशीन की ओर एक कदम है जो कुछ भी और सब कुछ संसाधित कर सकता है

इसके समकक्षों में PaLM, पाथवेज़ लैंग्वेज मॉडल है, इस वर्ष Google वैज्ञानिकों द्वारा पेश किया गया, एक 540-बिलियन पैरामीटर मॉडल जो हजारों चिप्स के समन्वय के लिए एक नई तकनीक का उपयोग करता है, पाथवे के नाम से जाना जाता है, का आविष्कार भी Google पर हुआ। मेटा द्वारा जनवरी में जारी एक तंत्रिका नेटवर्क, जिसे "डेटा2वेक" कहा जाता है, छवि डेटा, भाषण ऑडियो तरंगों और पाठ भाषा प्रतिनिधित्व के लिए ट्रांसफॉर्मर का एक साथ उपयोग करता है। 

ऐसा प्रतीत होता है कि गैटो के बारे में जो नया है, वह गैर-रोबोटिक्स कार्यों के लिए उपयोग किए जाने वाले एआई को लेने और इसे रोबोटिक्स क्षेत्र में धकेलने का इरादा है।

गेटो के निर्माता, पाथवेज़ और अन्य सामान्यवादी दृष्टिकोणों की उपलब्धियों को ध्यान में रखते हुए, एआई में अंतिम उपलब्धि देखते हैं जो वास्तविक दुनिया में किसी भी प्रकार के कार्यों के साथ काम कर सकता है। 

"भविष्य के काम में इस बात पर विचार किया जाना चाहिए कि इन पाठ क्षमताओं को एक पूर्ण सामान्यवादी एजेंट में कैसे एकीकृत किया जाए जो वास्तविक समय में, विविध वातावरण और अवतारों में भी कार्य कर सके।" 

फिर, आप गेटो को एआई की सबसे कठिन समस्या, रोबोटिक्स को हल करने की राह पर एक महत्वपूर्ण कदम मान सकते हैं। 



स्रोत