मेटा का 'data2vec' उन सभी पर शासन करने के लिए एक तंत्रिका नेटवर्क की ओर अगला कदम है

एक तंत्रिका नेटवर्क बनाने के लिए दौड़ जारी है जो कई प्रकार के डेटा को संसाधित कर सकता है, एक अधिक सामान्य कृत्रिम बुद्धिमत्ता की धारणा जो डेटा के प्रकारों के बारे में भेदभाव नहीं करती है, बल्कि उन सभी को एक ही मूल संरचना के भीतर क्रंच कर सकती है।

मल्टी-मोडलिटी की शैली, जैसा कि इन तंत्रिका नेटवर्क को कहा जाता है, गतिविधि की एक हड़बड़ी देख रही है जिसमें विभिन्न डेटा, जैसे कि छवि, पाठ और भाषण ऑडियो, एक ही एल्गोरिथ्म के माध्यम से विभिन्न परीक्षणों पर स्कोर बनाने के लिए पारित किए जाते हैं जैसे कि छवि पहचान, प्राकृतिक भाषा समझ या वाक् पहचान।

और ये उभयलिंगी नेटवर्क एआई के बेंचमार्क परीक्षणों पर स्कोर बढ़ा रहे हैं। नवीनतम उपलब्धि वह है जिसे 'data2vec' कहा जाता है, जिसे मेटा के एआई डिवीजन, फेसबुक, इंस्टाग्राम और व्हाट्सएप के जनक के शोधकर्ताओं द्वारा विकसित किया गया है। 

जैसा कि मेटा के वैज्ञानिक, एलेक्सी बेवस्की, वेई-निंग सू, कियानटोंग जू, अरुण बाबू, जियाताओ गु और माइकल औली लिखते हैं, सामान्य सीखने की क्षमता की तरह कुछ और दृष्टिकोण करना है जो मानव मन को घेरता है।

"जबकि लोग एक समान तरीके से सीखते दिखाई देते हैं, भले ही वे जानकारी कैसे प्राप्त करें - चाहे वे दृष्टि या ध्वनि का उपयोग करें, उदाहरण के लिए," लेखक लिखते हैं एक ब्लॉग पोस्ट में, "वर्तमान में रास्ते में बड़े अंतर हैं" तंत्रिका नेटवर्क विभिन्न प्रकार के डेटा जैसे छवियों, भाषण, पाठ, "और अन्य तौर-तरीकों को संभालते हैं।"

"इस दृष्टिकोण का मूल विचार," वे data2vec की घोषणा करते हैं, "अधिक सामान्य रूप से सीखना है: एआई को कई अलग-अलग कार्यों को करने में सक्षम होना चाहिए, जिनमें वे पूरी तरह से अपरिचित हैं।"

मेटा के सीईओ, मार्क जुकरबर्ग ने काम के बारे में एक उद्धरण की पेशकश की, इसे भविष्य के मेटावर्स से जोड़ दिया:

रोमांचक सफलता: मेटा एआई अनुसंधान ने एक ऐसी प्रणाली का निर्माण किया जो लेबल प्रशिक्षण डेटा की आवश्यकता के बिना भाषण, दृष्टि और पाठ से सीखती है। लोग दृष्टि, ध्वनि और शब्दों के संयोजन के माध्यम से दुनिया का अनुभव करते हैं, और इस तरह की प्रणालियां एक दिन दुनिया को समझ सकती हैं जैसे हम करते हैं। यह सब अंततः एआई सहायक के साथ एआर ग्लास में निर्मित हो जाएगा, उदाहरण के लिए, यह आपको रात का खाना पकाने में मदद कर सकता है, यह देखते हुए कि क्या आप एक घटक को याद करते हैं, आपको गर्मी को कम करने के लिए प्रेरित करते हैं, या अधिक जटिल कार्य करते हैं।

नाम data2vec भाषा "एम्बेडिंग" के लिए एक कार्यक्रम के नाम पर एक नाटक है 2013 में Google में विकसित किया गया "word2vec" कहा जाता है। उस कार्यक्रम ने भविष्यवाणी की थी कि कैसे शब्द एक साथ क्लस्टर करते हैं, और इसलिए word2vec यह एक विशिष्ट प्रकार के डेटा के लिए डिज़ाइन किए गए तंत्रिका नेटवर्क का प्रतिनिधि है, उस स्थिति में टेक्स्ट। 

इसके अलावा: पॉड बे दरवाजे खोलो, कृपया, एचएएल: मेटा का एआई लिप-रीडिंग का अनुकरण करता है

डेटा2vec के मामले में, हालांकि, बावेस्की और उनके सहयोगी आशीष वासवानी और उनके सहयोगियों द्वारा विकसित ट्रांसफॉर्मर का एक मानक संस्करण ले रहे हैं, जिसे ट्रांसफॉर्मर कहा जाता है। 2017 में गूगल पर और इसे कई डेटा प्रकारों के लिए उपयोग करने के लिए विस्तारित करना। 

ट्रांसफॉर्मर न्यूरल नेटवर्क मूल रूप से भाषा कार्यों के लिए विकसित किया गया था, लेकिन इसे कई प्रकार के डेटा के लिए वर्षों से व्यापक रूप से अनुकूलित किया गया है। बावेस्की एट अल। दिखाएँ कि ट्रांसफार्मर का उपयोग बिना बदले कई प्रकार के डेटा को संसाधित करने के लिए किया जा सकता है, और प्रशिक्षित तंत्रिका नेटवर्क जो परिणाम कई अलग-अलग कार्यों पर प्रदर्शन कर सकता है। 

औपचारिक पत्र में, "data2vec: भाषण, दृष्टि और भाषा में स्व-पर्यवेक्षित सीखने के लिए एक सामान्य ढांचा, "बावेस्की एट अल।, छवि डेटा, भाषण ऑडियो तरंगों और पाठ भाषा प्रतिनिधित्व के लिए ट्रांसफार्मर को प्रशिक्षित करें। 

Data2vec "पहला उच्च-प्रदर्शन स्व-पर्यवेक्षित एल्गोरिथ्म है जो कई तौर-तरीकों, जैसे भाषण, दृष्टि और पाठ के लिए काम करता है," ब्लॉग पोस्ट में Baevski और टीम को लिखें।

बहुत ही सामान्य ट्रांसफार्मर वह बन जाता है जिसे पूर्व-प्रशिक्षण कहा जाता है जिसे विशिष्ट कार्यों पर प्रदर्शन करने के लिए विशिष्ट तंत्रिका नेटवर्क पर लागू किया जा सकता है। उदाहरण के लिए, लेखक data2vec का उपयोग पूर्व-प्रशिक्षण के रूप में करते हैं, जिसे "ViT," "विज़न ट्रांसफ़ॉर्मर" कहा जाता है, जो विशेष रूप से दृष्टि कार्यों के लिए डिज़ाइन किया गया एक तंत्रिका नेटवर्क है। पिछले साल पेश किया गया था एलेक्सी डोसोवित्स्की और Google के सहयोगियों द्वारा। 

मेटा-2022-data2vec-scores-on-vit-test.jpg

मेटा आदरणीय इमेजनेट छवि-पहचान प्रतियोगिता के लिए शीर्ष स्कोर दिखाता है।


मेटा 2022

जब छवि पहचान के मानक इमेजनेट परीक्षण को हल करने का प्रयास करने के लिए वीआईटी पर उपयोग किया जाता है, तो उनके परिणाम पैक के शीर्ष पर आते हैं, 84.1% की सटीकता के साथ, माइक्रोसॉफ्ट में एक टीम द्वारा प्राप्त 83.2% के स्कोर से बेहतर है जो पूर्व-प्रशिक्षित है वीआईटी, हैंगबो बाओ के नेतृत्व में, पिछले साल.

और वही data2vec ट्रांसफॉर्मर ऐसे परिणाम देता है जो वाक् पहचान के लिए अत्याधुनिक हैं और जो प्राकृतिक भाषा सीखने के लिए प्रतिस्पर्धी हैं, यदि सर्वश्रेष्ठ नहीं हैं:

प्रायोगिक परिणाम दिखाते हैं कि डेटा2vec सभी तीन तौर-तरीकों में प्रभावी है, इमेजनेट-1K पर वीआईटी-बी और वीआईटी-एल के लिए एक नई कला की स्थापना, वाक् पहचान पर भाषण प्रसंस्करण में सर्वश्रेष्ठ पूर्व कार्य में सुधार और रॉबर्टा के बराबर प्रदर्शन करना GLUE प्राकृतिक भाषा समझ बेंचमार्क पर। 

क्रूक्स यह है कि यह तंत्रिका नेटवर्क के किसी भी संशोधन के बिना छवियों के बारे में हो रहा है, और भाषण और पाठ के लिए भी ऐसा ही है। इसके बजाय, प्रत्येक इनपुट प्रकार एक ही नेटवर्क में जा रहा है, और उसी सामान्य कार्य को पूरा कर रहा है। वह कार्य वही कार्य है जो ट्रांसफार्मर नेटवर्क हमेशा उपयोग करते हैं, जिसे "नकाबपोश भविष्यवाणी" के रूप में जाना जाता है। 

इसके अलावा: Google का सुपरमॉडल: डीपमाइंड पर्सीवर एआई मशीन की ओर एक कदम है जो कुछ भी और सब कुछ संसाधित कर सकता है

हालाँकि, data2vec जिस तरह से नकाबपोश भविष्यवाणी करता है, वह एक दृष्टिकोण है जिसे "स्व-पर्यवेक्षित" सीखने के रूप में जाना जाता है। स्व-पर्यवेक्षित सेटिंग में, एक तंत्रिका नेटवर्क को कई चरणों से गुजरने के लिए प्रशिक्षित या विकसित किया जाता है। 

सबसे पहले, नेटवर्क डेटा इनपुट की संयुक्त संभावना का प्रतिनिधित्व करता है, चाहे वह चित्र या भाषण या पाठ हो। फिर, नेटवर्क के दूसरे संस्करण में उनमें से कुछ इनपुट डेटा आइटम "मास्क आउट" हैं, जिन्हें खुलासा नहीं किया गया है। इसे उस संयुक्त संभावना का पुनर्निर्माण करना होगा जो नेटवर्क के पहले संस्करण का निर्माण किया था, जो इसे अनिवार्य रूप से रिक्त स्थान भरकर डेटा के बेहतर और बेहतर प्रतिनिधित्व बनाने के लिए मजबूर करता है। 

मेटा-2022-डेटा2vec-नेटवर्क-आर्किटेक्चर.jpg

Data2vec दृष्टिकोण का एक सिंहावलोकन।


मेटा 2022

दो नेटवर्क, एक संयुक्त संभाव्यता के पूर्ण पैटर्न के साथ, और एक अधूरा संस्करण के साथ जिसे वह पूरा करने का प्रयास कर रहा है, समझदारी से पर्याप्त, "शिक्षक" और "छात्र" कहलाते हैं। छात्र नेटवर्क डेटा की अपनी समझ को विकसित करने की कोशिश करता है, यदि आप करेंगे, तो शिक्षक ने पहले से ही जो हासिल किया है, उसका पुनर्निर्माण करके।

आप ऐसा कर सकते हैं गीथूब पर मॉडल के लिए कोड देखें.

तंत्रिका नेटवर्क तीन अलग-अलग प्रकार के डेटा के लिए शिक्षक और छात्र का प्रदर्शन कैसे कर रहा है? कुंजी यह है कि सभी तीन डेटा मामलों में संयुक्त संभाव्यता का "लक्ष्य", एक विशिष्ट आउटपुट डेटा प्रकार नहीं है, जैसा कि एक विशिष्ट डेटा प्रकार के लिए ट्रांसफॉर्मर के संस्करणों में होता है, जैसे कि Google का BERT या OpenAI का GPT-3 . 

बल्कि, data2vec तंत्रिका नेटवर्क परतों के कुछ समूह को हथिया रहा है जो हैं अंदर तंत्रिका नेटवर्क, कहीं बीच में, जो डेटा को अंतिम आउटपुट के रूप में उत्पादित करने से पहले दर्शाता है। 

जैसा कि लेखक लिखते हैं, "हमारी पद्धति के मुख्य अंतरों में से एक […] विशेष रूप से, "हम केवल शीर्ष परत के बजाय कई तंत्रिका नेटवर्क परत अभ्यावेदन को पुनः प्राप्त करते हैं," ताकि "data2vec इनपुट डेटा के अव्यक्त प्रतिनिधित्व की भविष्यवाणी करता है।"

वे कहते हैं, "हम आम तौर पर लक्ष्य के रूप में प्रत्येक ब्लॉक में अंतिम अवशिष्ट कनेक्शन से पहले एफएफएन [फीड-फॉरवर्ड नेटवर्क] के आउटपुट का उपयोग करते हैं," जहां एक "ब्लॉक" एक तंत्रिका नेटवर्क परत के बराबर ट्रांसफार्मर है।

मुद्दा यह है कि प्रत्येक डेटा प्रकार जो अंदर जाता है, छात्र नेटवर्क के लिए एक ही चुनौती बन जाता है कि वह तंत्रिका नेटवर्क के अंदर किसी चीज़ को फिर से संगठित करे जिसे शिक्षक ने बनाया था।

यह औसत सभी डेटा को क्रंच करने के लिए एक नेटवर्क बनाने के अन्य हालिया दृष्टिकोणों से अलग है। उदाहरण के लिए, पिछली गर्मियों में, Google की डीपमाइंड इकाई ने ट्रांसफॉर्मर के अपने स्वयं के बहु-मोडल संस्करण को "पर्सीवर" कहा था। Perceiver तंत्रिका नेटवर्क का प्रशिक्षण एक आउटपुट के उत्पादन की अधिक-मानक प्रक्रिया है जो इमेजनेट जैसे लेबल, पर्यवेक्षित कार्य का उत्तर है। स्व-पर्यवेक्षित दृष्टिकोण में, data2vec उन लेबलों का उपयोग नहीं कर रहा है, यह केवल डेटा के नेटवर्क के आंतरिक प्रतिनिधित्व को फिर से संगठित करने का प्रयास कर रहा है। 

और भी महत्वाकांक्षी प्रयास पंखों में हैं। अक्टूबर में Google के एआई प्रयासों के प्रमुख जेफ डीन ने "पाथवे" के बारे में चिढ़ाया, जो डीन का दावा है कि "अगली पीढ़ी एआई आर्किटेक्चर"मल्टी-मोडल डेटा प्रोसेसिंग के लिए।

ध्यान रहे, कई तौर-तरीकों के लिए एकल तंत्रिका जाल के लिए data2vec के बहुत सामान्य दृष्टिकोण में अभी भी विभिन्न डेटा प्रकारों के बारे में बहुत सारी जानकारी है। छवि, भाषण और पाठ सभी डेटा के पूर्व-प्रसंस्करण द्वारा तैयार किए जाते हैं। इस तरह, नेटवर्क का बहु-मोडल पहलू अभी भी डेटा के बारे में सुराग पर निर्भर करता है, जिसे टीम "छोटे तौर-तरीके-विशिष्ट इनपुट एन्कोडर" के रूप में संदर्भित करती है।

इसके अलावा: Google ने 'पाथवे' का अनावरण किया, एक अगली पीढ़ी का एआई जिसे मल्टीटास्क के लिए प्रशिक्षित किया जा सकता है

"एकीकृत शिक्षण व्यवस्था के बावजूद, हम अभी भी तौर-तरीके-विशिष्ट फीचर एक्सट्रैक्टर्स और मास्किंग रणनीतियों का उपयोग करते हैं," वे बताते हैं।

इसलिए, हम अभी तक ऐसी दुनिया में नहीं हैं जहां एक तंत्रिका जाल को प्रशिक्षित किया जाता है और इनपुट डेटा प्रकारों का कोई मतलब नहीं है। हम ऐसे समय में भी नहीं हैं जब तंत्रिका नेटवर्क एक प्रतिनिधित्व का निर्माण कर सकता है जो सभी विभिन्न डेटा प्रकारों को जोड़ता है, ताकि तंत्रिका जाल संयोजन में चीजों को सीख रहा हो।

के बीच हुए आदान-प्रदान से यह तथ्य स्पष्ट हो जाता है ZDNet और लेखकों। ZDNet बेवस्की और टीम के पास पहुंचे और पूछा, "क्या गुप्त अभ्यावेदन जो किसी भी समय कदम पर सभी तीन तौर-तरीकों के संयुक्त एन्कोडिंग को लक्षित करते हैं, या वे आमतौर पर केवल तौर-तरीकों में से एक हैं?"

बाएव्स्की और टीम का जवाब है कि यह बाद वाला मामला है, और उनका reply लंबाई में उद्धृत करना दिलचस्प है:

अव्यक्त चर तीन तौर-तरीकों के लिए एक संयुक्त एन्कोडिंग नहीं हैं। हम प्रत्येक तौर-तरीके के लिए अलग-अलग मॉडलों को प्रशिक्षित करते हैं लेकिन जिस प्रक्रिया से मॉडल सीखते हैं वह समान है। यह हमारी परियोजना का मुख्य नवाचार है क्योंकि पहले विभिन्न तौर-तरीकों में मॉडल को प्रशिक्षित करने के तरीके में बड़े अंतर थे। न्यूरोसाइंटिस्ट भी मानते हैं कि मनुष्य ध्वनि और दृश्य दुनिया के बारे में समान तरीके से सीखते हैं। हमारी परियोजना से पता चलता है कि स्व-पर्यवेक्षित शिक्षण भी अलग-अलग तौर-तरीकों के लिए उसी तरह काम कर सकता है।

data2vec की तौर-तरीके-विशिष्ट सीमाओं को देखते हुए, एक तंत्रिका नेटवर्क जो वास्तव में हो सकता है उन सभी पर शासन करने के लिए एक नेटवर्क भविष्य की तकनीक बनी हुई है।

स्रोत