मेटा के एआई गुरु लेकन: आज के अधिकांश एआई दृष्टिकोण कभी भी सच्ची बुद्धिमत्ता की ओर नहीं ले जाएंगे

यान-लेकुन-सितंबर-2022-1

"मुझे लगता है कि एआई सिस्टम को तर्क करने में सक्षम होना चाहिए," मेटा के मुख्य एआई वैज्ञानिक यान लेकन कहते हैं। आज के लोकप्रिय एआई दृष्टिकोण जैसे ट्रांसफॉर्मर, जिनमें से कई क्षेत्र में अपने स्वयं के अग्रणी कार्य पर आधारित हैं, पर्याप्त नहीं होंगे। लेकन कहते हैं, "आपको एक कदम पीछे हटना होगा और कहना होगा, ठीक है, हमने यह सीढ़ी बनाई है, लेकिन हम चाँद पर जाना चाहते हैं, और कोई रास्ता नहीं है कि यह सीढ़ी हमें वहां ले जाए।"

यान लेकन, मुख्य एआई वैज्ञानिक फेसबुक, इंस्टाग्राम और व्हाट्सएप के मालिक मेटा प्रॉपर्टीज के अपने क्षेत्र में बहुत से लोगों को टिक करने की संभावना है। 

एक थिंक पीस की जून में पोस्टिंग के साथ ओपन रिव्यू सर्वर पर, LeCun ने मशीनों में मानव-स्तर की बुद्धि प्राप्त करने का वादा करने वाले दृष्टिकोण का एक व्यापक अवलोकन प्रस्तुत किया। 

निहित अगर कागज में व्यक्त नहीं किया गया है तो यह तर्क है कि एआई में आज की अधिकांश बड़ी परियोजनाएं उस मानव-स्तर के लक्ष्य तक कभी नहीं पहुंच पाएंगी।

इस महीने चर्चा में ZDNet जूम के माध्यम से, LeCun ने स्पष्ट किया कि वह इस समय गहन शिक्षण में अनुसंधान के सबसे सफल तरीकों में से कई को बहुत संदेह के साथ देखता है।

"मुझे लगता है कि वे आवश्यक हैं लेकिन पर्याप्त नहीं हैं," ट्यूरिंग पुरस्कार विजेता ने कहा ZDNet अपने साथियों की खोज में। 

इनमें ट्रांसफॉर्मर-आधारित GPT-3 और उनके जैसे बड़े भाषा मॉडल शामिल हैं। जैसा कि LeCun इसकी विशेषता बताता है, ट्रांसफॉर्मर भक्तों का मानना ​​​​है, "हम सब कुछ टोकन करते हैं, और विशाल ट्रेन करते हैंअसतत भविष्यवाणियां करने के लिए मॉडल, और किसी तरह एआई इससे बाहर निकलेगा। ”

"वे गलत नहीं हैं," वे कहते हैं, "इस अर्थ में कि यह भविष्य की बुद्धिमान प्रणाली का एक घटक हो सकता है, लेकिन मुझे लगता है कि इसमें आवश्यक टुकड़े गायब हैं।"

इसके अलावा: मेटा का एआई ल्यूमिनरी लेकुन गहन शिक्षण की ऊर्जा सीमा का पता लगाता है

यह उस विद्वान की एक चौंकाने वाली आलोचना है जो उस विद्वान से आ रहा है जिसने दृढ़ तंत्रिका नेटवर्क के उपयोग को सिद्ध किया है, एक व्यावहारिक तकनीक जो गहन शिक्षण कार्यक्रमों में अविश्वसनीय रूप से उत्पादक रही है। 

LeCun अनुशासन के अन्य अत्यधिक सफल क्षेत्रों में खामियों और सीमाओं को देखता है। 

सुदृढीकरण सीखना भी कभी भी पर्याप्त नहीं होगा, वह बनाए रखता है। डीपमाइंड के डेविड सिल्वर जैसे शोधकर्ता, जिन्होंने शतरंज, शोगी और गो में महारत हासिल करने वाले अल्फाज़ेरो प्रोग्राम को विकसित किया, वे ऐसे कार्यक्रमों पर ध्यान केंद्रित कर रहे हैं जो "बहुत ही क्रिया-आधारित" हैं, लेकन का मानना ​​​​है, लेकिन "हम जो सीखते हैं, हम नहीं करते हैं वास्तव में कार्रवाई करके करते हैं, हम इसे देखकर करते हैं।" 

62 वर्षीय लेकन, दशकों की उपलब्धि के परिप्रेक्ष्य से, फिर भी उन अंधी गलियों का सामना करने के लिए एक तात्कालिकता व्यक्त करते हैं, जिनकी ओर कई लोग भाग रहे हैं, और अपने क्षेत्र को उस दिशा में मनाने की कोशिश करने के लिए जो उन्हें लगता है कि चीजों को जाना चाहिए। 

"हम बहुत सारे दावे देखते हैं कि मानव-स्तर एआई की ओर आगे बढ़ने के लिए हमें क्या करना चाहिए," वे कहते हैं। "और ऐसे विचार हैं जो मुझे लगता है कि गलत निर्देशित हैं।"

"हम उस बिंदु पर नहीं हैं जहां हमारी बुद्धिमान मशीनों में बिल्ली के समान सामान्य ज्ञान होता है," लेकन देखता है। "तो, हम वहाँ से शुरू क्यों नहीं करते?" 

उन्होंने वीडियो में अगले फ्रेम की भविष्यवाणी करने जैसी चीजों में जेनरेटिव नेटवर्क का उपयोग करने में अपना पूर्व विश्वास त्याग दिया है। "यह एक पूर्ण विफलता रही है," वे कहते हैं। 

LeCun उन लोगों की निंदा करता है जिन्हें वह "धार्मिक संभाव्यतावादी" कहते हैं, जो "सोचते हैं कि संभाव्यता सिद्धांत ही एकमात्र ढांचा है जिसका उपयोग आप मशीन सीखने की व्याख्या करने के लिए कर सकते हैं।" 

विशुद्ध रूप से सांख्यिकीय दृष्टिकोण अचूक है, वे कहते हैं। "विश्व मॉडल को पूरी तरह से संभाव्य होने के लिए कहना बहुत अधिक है; हम नहीं जानते कि यह कैसे करना है।"

LeCun का तर्क है कि न केवल शिक्षाविदों, बल्कि औद्योगिक AI को गहन पुनर्विचार की आवश्यकता है। सेल्फ-ड्राइविंग कार भीड़, वेव जैसे स्टार्टअप, "थोड़ा बहुत आशावादी" रहे हैं, वे कहते हैं, यह सोचकर कि वे "बड़े तंत्रिका नेटवर्क" पर डेटा फेंक सकते हैं "और आप बहुत कुछ सीख सकते हैं।"

"आप जानते हैं, मुझे लगता है कि यह पूरी तरह से संभव है कि हमारे पास सामान्य ज्ञान के बिना स्तर-पांच स्वायत्त कारें हों," वे कहते हैं, "एडीएएस" का जिक्र करते हुए, उन्नत ड्राइवर सहायता प्रणाली सेल्फ-ड्राइविंग के लिए शर्तें, "लेकिन आपको इससे बाहर निकलने के लिए इंजीनियर बनना होगा।"

उनका मानना ​​​​है कि इस तरह की ओवर-इंजीनियर सेल्फ-ड्राइविंग तकनीक सभी कंप्यूटर विज़न प्रोग्रामों की तरह अजीब और भंगुर होगी, जिन्हें गहरी शिक्षा से अप्रचलित बना दिया गया था।

"आखिरकार, एक अधिक संतोषजनक और संभवतः बेहतर समाधान होने जा रहा है जिसमें ऐसे सिस्टम शामिल हैं जो दुनिया के काम करने के तरीके को समझने का बेहतर काम करते हैं।"

साथ ही, LeCun अपने सबसे बड़े आलोचकों के बारे में कुछ मुरझाए हुए विचार प्रस्तुत करता है, जैसे NYU के प्रोफेसर गैरी मार्कस - "उन्होंने एआई में कभी कुछ योगदान नहीं दिया" - और आर्टिफिशियल इंटेलिजेंस रिसर्च के लिए डेल मोले इंस्टीट्यूट के सह-निदेशक जुर्गन श्मिधुबर - "यह है ध्वजारोहण करना बहुत आसान है।”

आलोचनाओं से परे, LeCun द्वारा किया गया अधिक महत्वपूर्ण बिंदु यह है कि कुछ मूलभूत समस्याएं सभी AI का सामना करती हैं, विशेष रूप से, सूचना को कैसे मापें।

"आपको एक कदम पीछे हटना होगा और कहना होगा, ठीक है, हमने इस सीढ़ी का निर्माण किया है, लेकिन हम चाँद पर जाना चाहते हैं, और कोई रास्ता नहीं है कि यह सीढ़ी हमें वहां ले जा रही है," लेकन ने पुनर्विचार करने की अपनी इच्छा के बारे में कहा। बुनियादी अवधारणाओं की। "मूल रूप से, मैं यहां जो लिख रहा हूं वह यह है कि हमें रॉकेट बनाने की जरूरत है, मैं आपको इसका विवरण नहीं दे सकता कि हम रॉकेट कैसे बनाते हैं, लेकिन यहां मूल सिद्धांत हैं।"

पेपर, और साक्षात्कार में LeCun के विचारों को इस साल की शुरुआत में LeCun के साक्षात्कार को पढ़कर बेहतर ढंग से समझा जा सकता है। ZDNet जिसमें उन्होंने ऊर्जा आधारित स्व-पर्यवेक्षित शिक्षण को गहन शिक्षा के लिए आगे बढ़ने के मार्ग के रूप में तर्क दिया। वे प्रतिबिंब मूल दृष्टिकोण की भावना देते हैं जो वह उन चीजों के विकल्प के रूप में बनाने की उम्मीद करता है जो वह दावा करता है कि वह इसे फिनिश लाइन तक नहीं पहुंचाएगा। 

इस प्रकार साक्षात्कार का एक हल्का संपादित प्रतिलेख है।

जेडडीनेट: हमारी चैट का विषय यह पेपर है, "ए पाथ टू ऑटोनॉमस मशीन इंटेलिजेंस", किस संस्करण का 0.9.2 मौजूदा संस्करण है, हाँ?

यान लेकुन: हाँ, मैं इसे एक कार्यशील दस्तावेज़ मानता हूँ। इसलिए, मैंने इसे ओपन रिव्यू पर पोस्ट किया, लोगों की टिप्पणियों और सुझावों की प्रतीक्षा में, शायद अतिरिक्त संदर्भ, और फिर मैं एक संशोधित संस्करण तैयार करूंगा। 

जेडडीनेट: मैं देख रहा हूं कि जुएर्गन श्मिडहुबर ने पहले ही ओपन रिव्यू में कुछ टिप्पणियां जोड़ दी हैं।

वाईएल: खैर, हाँ, वह हमेशा करता है। मैं अपने पेपर में उनके एक पेपर का हवाला देता हूं। मुझे लगता है कि उन्होंने सोशल नेटवर्क पर जो तर्क दिए कि उन्होंने मूल रूप से 1991 में इस सब का आविष्कार किया, जैसा कि उन्होंने अन्य मामलों में किया है, बस ऐसा नहीं है। मेरा मतलब है, यह करना बहुत आसान हैध्वजारोहण, और, बिना किसी प्रयोग के, बिना किसी सिद्धांत के एक विचार लिखने के लिए, बस सुझाव दें कि आप इसे इस तरह से कर सकते हैं। लेकिन, आप जानते हैं, केवल विचार रखने में, और फिर इसे एक खिलौने की समस्या पर काम करने के लिए, और फिर इसे एक वास्तविक समस्या पर काम करने के लिए, और फिर एक सिद्धांत करने के बीच एक बड़ा अंतर है जो दिखाता है कि यह क्यों काम करता है, और फिर इसे तैनात कर रहा है। एक पूरी श्रृंखला है, और वैज्ञानिक क्रेडिट के बारे में उनका विचार यह है कि यह पहला व्यक्ति है, जिसे आप जानते हैं, इसका विचार था, जिसे सारा श्रेय मिलना चाहिए। और यह हास्यास्पद है। 

जेडडीनेट: सोशल मीडिया पर जो कुछ भी आप सुनते हैं उस पर विश्वास न करें। 

वाईएल: मेरा मतलब है, जिस मुख्य पेपर का वह कहता है कि मुझे उद्धृत करना चाहिए, उसमें कोई भी मुख्य विचार नहीं है जिसके बारे में मैं पेपर में बात करता हूं। उसने GAN और अन्य चीजों के साथ भी ऐसा किया है, जो सच नहीं निकला। ध्वजारोहण करना आसान है, योगदान देना बहुत कठिन है। और, वैसे, इस विशेष पेपर में, मैंने स्पष्ट रूप से कहा है कि यह शब्द के सामान्य अर्थों में एक वैज्ञानिक पेपर नहीं है। यह एक स्थिति पत्र के बारे में अधिक है जहां यह बात जानी चाहिए। और वहाँ कुछ विचार हैं जो नए हो सकते हैं, लेकिन उनमें से अधिकांश नहीं हैं। मैं अनिवार्य रूप से उस पेपर में जो कुछ भी लिखा था, उस पर मैं किसी प्राथमिकता का दावा नहीं कर रहा हूं।

यान-लेकुन-सितंबर-2022-2

LeCun का कहना है कि सुदृढीकरण सीखना भी कभी भी पर्याप्त नहीं होगा। डीपमाइंड के डेविड सिल्वर जैसे शोधकर्ता, जिन्होंने शतरंज, शोगी और गो में महारत हासिल करने वाले अल्फाज़ेरो प्रोग्राम को विकसित किया, वे "बहुत ही क्रिया-आधारित" हैं, लेकन का मानना ​​​​है, लेकिन "हम जो सीखते हैं, हम वास्तव में इसे लेकर नहीं करते हैं। क्रियाएँ, हम इसे देखकर करते हैं। ” 

जेडडीनेट: और यह शायद शुरू करने के लिए एक अच्छी जगह है, क्योंकि मैं उत्सुक हूं कि आपने अभी इस रास्ते का अनुसरण क्यों किया? आपने इस बारे में क्या सोचा? आप यह क्यों लिखना चाहते थे?

वाईएल: खैर, इसलिए, मैं इस बारे में बहुत लंबे समय से सोच रहा हूं, मानव-स्तर या पशु-स्तर-प्रकार की बुद्धि या सीखने और क्षमताओं की ओर एक पथ के बारे में। और, मेरी बातचीत में मैं इस पूरी बात के बारे में बहुत मुखर रहा हूं कि पर्यवेक्षित शिक्षा और सुदृढीकरण सीखने दोनों ही जानवरों और मनुष्यों में सीखने के प्रकार का अनुकरण करने के लिए अपर्याप्त हैं। मैं ऐसा कुछ सात या आठ साल से कर रहा हूं। तो, यह हाल का नहीं है। मेरे पास कई साल पहले न्यूरआईपीएस में एक मुख्य वक्ता था, जहां मैंने उस बिंदु को बनाया था, अनिवार्य रूप से, और विभिन्न वार्ता, रिकॉर्डिंग है। अब, अब एक पेपर क्यों लिखें? मैं इस मुद्दे पर आया हूं - [गूगल ब्रेन शोधकर्ता] ज्योफ हिंटन ने कुछ ऐसा ही किया था - मेरा मतलब है, निश्चित रूप से, वह मुझसे ज्यादा है, हम देखते हैं कि समय समाप्त हो रहा है। हम युवा नहीं हैं।

जेडडीनेट: साठ नया पचास है। 

वाईएल: यह सच है, लेकिन बात यह है कि, हम बहुत सारे दावे देखते हैं कि एआई के मानव-स्तर की ओर आगे बढ़ने के लिए हमें क्या करना चाहिए। और ऐसे विचार हैं जो मुझे लगता है कि गलत दिशा में हैं। तो, एक विचार है, ओह, हमें तंत्रिका जाल के ऊपर केवल प्रतीकात्मक तर्क जोड़ना चाहिए। और मुझे नहीं पता कि यह कैसे करना है। तो, शायद जो मैंने पेपर में समझाया वह एक दृष्टिकोण हो सकता है जो स्पष्ट प्रतीक हेरफेर के बिना वही काम करेगा। यह दुनिया के पारंपरिक रूप से गैरी मार्कस की तरह है। गैरी मार्कस एआई व्यक्ति नहीं है, वैसे, वह एक मनोवैज्ञानिक है। उन्होंने एआई में कभी कुछ योगदान नहीं दिया। उन्होंने प्रायोगिक मनोविज्ञान में वास्तव में अच्छा काम किया है लेकिन उन्होंने कभी भी एआई पर एक सहकर्मी की समीक्षा का पेपर नहीं लिखा है। तो, वे लोग हैं। 

दुनिया के [डीपमाइंड सिद्धांत अनुसंधान वैज्ञानिक] डेविड सिल्वर हैं जो कहते हैं, आप जानते हैं, इनाम काफी है, मूल रूप से, यह सब सुदृढीकरण सीखने के बारे में है, हमें इसे थोड़ा और कुशल बनाने की जरूरत है, ठीक है? और, मुझे लगता है कि वे गलत नहीं हैं, लेकिन मुझे लगता है कि सुदृढीकरण सीखने को और अधिक कुशल बनाने की दिशा में आवश्यक कदम, मूल रूप से, केक पर एक चेरी को सॉर्ट करने के लिए सुदृढीकरण सीखने को हटा देगा। और मुख्य गायब हिस्सा यह सीख रहा है कि दुनिया कैसे काम करती है, ज्यादातर बिना कार्रवाई के अवलोकन के। सुदृढीकरण सीखना बहुत क्रिया-आधारित है, आप कार्रवाई करके और परिणाम देखकर दुनिया के बारे में चीजें सीखते हैं।

जेडडीनेट: और यह इनाम केंद्रित है।

वाईएल: यह इनाम-केंद्रित है, और यह क्रिया-केंद्रित भी है। तो, दुनिया के बारे में कुछ सीखने में सक्षम होने के लिए आपको दुनिया में कार्य करना होगा। और मुख्य दावा मैं स्व-पर्यवेक्षित सीखने के बारे में पेपर में करता हूं, हम जो सीखते हैं, हम वास्तव में कार्रवाई करके नहीं करते हैं, हम इसे देखकर करते हैं। और यह बहुत अपरंपरागत है, दोनों सुदृढीकरण सीखने वाले लोगों के लिए, विशेष रूप से, लेकिन बहुत से मनोवैज्ञानिकों और संज्ञानात्मक वैज्ञानिकों के लिए भी जो सोचते हैं कि, आप जानते हैं, कार्रवाई है - मैं यह नहीं कह रहा हूं कि कार्रवाई आवश्यक नहीं है, यह is ज़रूरी। लेकिन मुझे लगता है कि हम जो कुछ सीखते हैं वह ज्यादातर दुनिया की संरचना के बारे में है, और इसमें निश्चित रूप से, बातचीत और कार्रवाई और खेल शामिल है, और ऐसी चीजें शामिल हैं, लेकिन इसमें से बहुत कुछ अवलोकन है।

जेडडीनेट: आप एक ही समय में ट्रांसफॉर्मर लोगों, भाषा-प्रथम लोगों को भी चेक करने का प्रबंधन करेंगे। आप इसे पहले बिना भाषा के कैसे बना सकते हैं? आप बहुत से लोगों को चकमा देने का प्रबंधन कर सकते हैं। 

वाईएल: हाँ, मुझे इसकी आदत है। तो, हाँ, भाषा-प्रथम लोग हैं, जो कहते हैं, आप जानते हैं, बुद्धि भाषा के बारे में है, बुद्धि का आधार भाषा है, ब्ला, ब्ला, ब्ला। लेकिन वह, एक तरह से, पशु बुद्धि को खारिज करता है। आप जानते हैं, हम उस बिंदु पर नहीं हैं जहां हमारी बुद्धिमान मशीनों में बिल्ली की तरह सामान्य ज्ञान है। तो, हम वहां से शुरू क्यों नहीं करते? वह क्या है जो एक बिल्ली को आसपास की दुनिया को पकड़ने, बहुत स्मार्ट चीजें करने और योजना और सामान की अनुमति देता है, और कुत्तों को और भी बेहतर? 

फिर ऐसे सभी लोग हैं जो कहते हैं, ओह, बुद्धि एक सामाजिक चीज है, है ना? हम बुद्धिमान हैं क्योंकि हम एक दूसरे से बात करते हैं और सूचनाओं का आदान-प्रदान करते हैं, और ब्ला, ब्ला, ब्ला। सभी प्रकार की गैर-सामाजिक प्रजातियां हैं जो कभी भी अपने माता-पिता से नहीं मिलती हैं जो बहुत स्मार्ट हैं, जैसे ऑक्टोपस या ऑरंगुटान।मेरा मतलब है, वे [ऑरंगुटान] निश्चित रूप से अपनी मां द्वारा शिक्षित हैं, लेकिन वे सामाजिक जानवर नहीं हैं। 

लेकिन लोगों की दूसरी श्रेणी जिसे मैं पसंद कर सकता हूं, वे लोग हैं जो कहते हैं कि स्केलिंग पर्याप्त है। तो, मूल रूप से, हम केवल विशाल ट्रांसफॉर्मर का उपयोग करते हैं, हम उन्हें मल्टीमॉडल डेटा पर प्रशिक्षित करते हैं, जिसमें आप जानते हैं, वीडियो, टेक्स्ट, ब्लाह, ब्लाह, ब्लाह शामिल हैं। हम, तरह के, petrifyसब कुछ, और सब कुछ टोकन करें, और फिर विशाल को प्रशिक्षित करेंअसतत भविष्यवाणियां करने के लिए मॉडल, मूल रूप से, और किसी तरह एआई इससे बाहर निकलेगा। वे गलत नहीं हैं, इस अर्थ में कि यह भविष्य की बुद्धिमान प्रणाली का एक घटक हो सकता है। लेकिन मुझे लगता है कि इसमें आवश्यक टुकड़े गायब हैं। 

लोगों की एक और श्रेणी है जिसे मैं इस पेपर के साथ चिह्नित करने जा रहा हूं। और यह संभाव्यतावादी, धार्मिक संभाव्यतावादी हैं। इसलिए, जो लोग सोचते हैं कि संभाव्यता सिद्धांत ही एकमात्र ढांचा है जिसका उपयोग आप मशीन लर्निंग को समझाने के लिए कर सकते हैं। और जैसा कि मैंने टुकड़े में समझाने की कोशिश की, मूल रूप से विश्व मॉडल को पूरी तरह से संभाव्य होने के लिए कहना बहुत अधिक है। हम नहीं जानते कि यह कैसे करना है। कम्प्यूटेशनल इंट्रैक्टिबिलिटी है। इसलिए मैं इस पूरे विचार को छोड़ने का प्रस्ताव कर रहा हूं। और निश्चित रूप से, आप जानते हैं, यह न केवल मशीन लर्निंग का, बल्कि सभी आंकड़ों का एक विशाल स्तंभ है, जो मशीन लर्निंग के लिए सामान्य औपचारिकता होने का दावा करता है। 

दूसरी बात - 

जेडडीनेट: आप एक रोल पर हैं …

वाईएल: - जिसे जनरेटिव मॉडल कहा जाता है। तो, यह विचार कि आप भविष्यवाणी करना सीख सकते हैं, और आप शायद भविष्यवाणी करके दुनिया के बारे में बहुत कुछ सीख सकते हैं। इसलिए, मैं आपको वीडियो का एक अंश देता हूं और मैं सिस्टम से यह अनुमान लगाने के लिए कहता हूं कि वीडियो में आगे क्या होता है। और मैं आपसे सभी विवरणों के साथ वास्तविक वीडियो फ्रेम की भविष्यवाणी करने के लिए कह सकता हूं। लेकिन पेपर में मैं जो तर्क देता हूं वह वास्तव में पूछने के लिए बहुत अधिक है और बहुत जटिल है। और यह कुछ ऐसा है जिसके बारे में मैंने अपना विचार बदल दिया है। लगभग दो साल पहले तक, मैं इस बात का समर्थक हुआ करता था कि मैं अव्यक्त चर जनरेटिव मॉडल कहलाता हूं, ऐसे मॉडल जो भविष्यवाणी करते हैं कि आगे क्या होने वाला है या जो जानकारी गायब है, संभवतः एक गुप्त चर की मदद से, यदि भविष्यवाणी नहीं की जा सकती है नियतात्मक। और मैंने इसे छोड़ दिया है। और जिस कारण से मैंने इसे छोड़ दिया है वह अनुभवजन्य परिणामों पर आधारित है, जहां लोगों ने बीईआरटी में उपयोग किए जाने वाले प्रकार के प्रकार, प्रकार, भविष्यवाणी या पुनर्निर्माण-आधारित प्रशिक्षण को लागू करने का प्रयास किया है।और बड़े भाषा मॉडल, उन्होंने इसे छवियों पर लागू करने का प्रयास किया है, और यह पूरी तरह से विफल रहा है। और कारण यह एक पूर्ण विफलता है, फिर से, संभाव्य मॉडल की बाधाओं के कारण जहां शब्दों की तरह असतत टोकन की भविष्यवाणी करना अपेक्षाकृत आसान है क्योंकि हम शब्दकोश में सभी शब्दों पर संभाव्यता वितरण की गणना कर सकते हैं। वह सरल है। लेकिन अगर हम सिस्टम से सभी संभावित वीडियो फ़्रेमों पर संभाव्यता वितरण का उत्पादन करने के लिए कहते हैं, तो हमें नहीं पता कि इसे कैसे पैरामीटर करना है, या हमारे पास कुछ विचार है कि इसे कैसे पैरामीटर करना है, लेकिन हम नहीं जानते कि इसे कैसे सामान्य किया जाए। यह एक जटिल गणितीय समस्या को प्रभावित करता है जिसे हम नहीं जानते कि कैसे हल किया जाए। 

यान-लेकुन-सितंबर-2022-3

"हम उस बिंदु पर नहीं हैं जहां हमारी बुद्धिमान मशीनों में बिल्ली के समान सामान्य ज्ञान होता है," लेकन देखता है। "तो, हम वहाँ से शुरू क्यों नहीं करते? वह क्या है जो एक बिल्ली को आसपास की दुनिया को पकड़ने, बहुत स्मार्ट चीजें करने और योजना और सामान की अनुमति देता है, और कुत्तों को और भी बेहतर?"

इसलिए, इसलिए मैं कहता हूं कि चलो संभाव्यता सिद्धांत या उस तरह की चीजों के लिए ढांचे को छोड़ दें, कमजोर एक, ऊर्जा-आधारित मॉडल। मैं इसके लिए भी दशकों से वकालत कर रहा हूं, इसलिए यह कोई हाल की बात नहीं है। लेकिन साथ ही, जनरेटिव मॉडल के विचार को छोड़ देना क्योंकि दुनिया में बहुत सी चीजें हैं जो समझ में नहीं आती हैं और न ही अनुमान लगाया जा सकता है। यदि आप एक इंजीनियर हैं, तो आप इसे शोर कहते हैं। यदि आप भौतिक विज्ञानी हैं, तो आप इसे ऊष्मा कहते हैं। और अगर आप मशीन सीखने वाले व्यक्ति हैं, तो आप इसे अप्रासंगिक विवरण या जो कुछ भी जानते हैं, कहते हैं।

तो, उदाहरण मैंने पेपर में इस्तेमाल किया है, या मैंने बातचीत में इस्तेमाल किया है, क्या आप एक विश्व-पूर्वानुमान प्रणाली चाहते हैं जो एक सेल्फ-ड्राइविंग कार में मदद करेगी, है ना? यह भविष्यवाणी करने में सक्षम होना चाहता है, अग्रिम में, अन्य सभी कारों के प्रक्षेपवक्र, अन्य वस्तुओं के साथ क्या होने जा रहा है जो चल सकते हैं, पैदल चलने वाले, साइकिल, एक सॉकर बॉल के बाद दौड़ने वाला बच्चा, जैसी चीजें। तो, दुनिया के बारे में सभी प्रकार की चीजें। लेकिन सड़क के किनारे, पेड़ हो सकते हैं, और आज हवा है, इसलिए पत्ते हवा में चल रहे हैं, और पेड़ों के पीछे एक तालाब है, और तालाब में लहरें हैं। और वे, अनिवार्य रूप से, काफी हद तक अप्रत्याशित घटनाएं हैं। और, आप नहीं चाहते कि आपका मॉडल उन चीजों की भविष्यवाणी करने के लिए महत्वपूर्ण मात्रा में संसाधनों को खर्च करे जो भविष्यवाणी करना मुश्किल और अप्रासंगिक दोनों हैं। इसलिए मैं संयुक्त एम्बेडिंग आर्किटेक्चर की वकालत कर रहा हूं, वे चीजें जहां वेरिएबल को आप मॉडल करने की कोशिश कर रहे हैं, आप इसकी भविष्यवाणी करने की कोशिश नहीं कर रहे हैं, आप इसे मॉडल करने की कोशिश कर रहे हैं, लेकिन यह एक एन्कोडर के माध्यम से चलता है, और वह एनकोडर इनपुट के बारे में बहुत सारे विवरणों को समाप्त कर सकता है जो अप्रासंगिक या बहुत जटिल हैं - मूल रूप से, शोर के बराबर।

जेडडीनेट: हमने इस साल की शुरुआत में ऊर्जा आधारित मॉडल, जेईपीए और एच-जेईपीए पर चर्चा की। मेरी समझ, अगर मैं आपको सही ढंग से समझता हूं, तो क्या आप कम ऊर्जा का बिंदु ढूंढ रहे हैं जहां एक्स और वाई एम्बेडिंग की ये दो भविष्यवाणियां सबसे समान हैं, जिसका अर्थ है कि अगर एक में एक पेड़ में कबूतर है, और इसमें कुछ है एक दृश्य की पृष्ठभूमि, वे आवश्यक बिंदु नहीं हो सकते हैं जो इन एम्बेडिंग को एक दूसरे के करीब बनाते हैं।

वाईएल: सही। इसलिए, जेईपीए आर्किटेक्चर वास्तव में एक ट्रेडऑफ़, एक समझौता खोजने की कोशिश करता है, जो कि इनपुट के बारे में अधिकतम जानकारीपूर्ण है, लेकिन कुछ स्तर की सटीकता या विश्वसनीयता के साथ एक दूसरे से अनुमानित है। यह एक ट्रेडऑफ़ पाता है। इसलिए, यदि उसके पास पत्तियों की गति के विवरण सहित संसाधनों की एक बड़ी राशि खर्च करने और फिर गतिशीलता को मॉडलिंग करने के बीच विकल्प है जो तय करेगा कि पत्तियां अब से एक सेकंड कैसे आगे बढ़ रही हैं, या बस इसे फर्श पर गिरा दें बस मूल रूप से Y चर को एक भविष्यवक्ता के माध्यम से चला रहा है जो उन सभी विवरणों को समाप्त कर देता है, यह शायद इसे समाप्त कर देगा क्योंकि यह मॉडल और कैप्चर करना बहुत कठिन है।

जेडडीनेट: एक बात जो आश्चर्यचकित करती है, वह यह है कि आप यह कहने के एक महान प्रस्तावक थे कि "यह काम करता है, हम इसे समझाने के लिए बाद में थर्मोडायनामिक्स के सिद्धांत का पता लगाएंगे।" यहां आपने एक दृष्टिकोण लिया है, "मुझे नहीं पता कि हम इसे कैसे हल करने जा रहे हैं, लेकिन मैं इसके बारे में सोचने के लिए कुछ विचार सामने रखना चाहता हूं," और शायद एक सिद्धांत या एक परिकल्पना के करीब भी, कम से कम। यह दिलचस्प है क्योंकि कार पर काम करने के लिए बहुत सारे लोग बहुत पैसा खर्च करते हैं जो पैदल चलने वालों को देख सकते हैं, भले ही कार में सामान्य ज्ञान हो। और मैं कल्पना करता हूं कि उनमें से कुछ लोगों को चुना नहीं जाएगा, लेकिन वे कहेंगे, "यह ठीक है, हमें परवाह नहीं है अगर इसमें सामान्य ज्ञान नहीं है, हमने एक अनुकरण बनाया है, अनुकरण अद्भुत है, और हम सुधार करते रहेंगे, हम अनुकरण को बढ़ाते रहेंगे।" 

और इसलिए यह दिलचस्प है कि अब आप कहने की स्थिति में हैं, आइए एक कदम पीछे हटें और सोचें कि हम क्या कर रहे हैं। और उद्योग कह रहा है कि हम सिर्फ स्केल, स्केल, स्केल, स्केल पर जा रहे हैं, क्योंकि वह क्रैंक वास्तव में काम करता है। मेरा मतलब है, GPU का सेमीकंडक्टर क्रैंक वास्तव में काम करता है।

वाईएल: जैसे, वहाँ पाँच प्रश्न हैं। तो, मेरा मतलब है, स्केलिंग आवश्यक है। मैं इस तथ्य की आलोचना नहीं कर रहा हूं कि हमें पैमाना बनाना चाहिए। हमें स्केल करना चाहिए। जैसे-जैसे वे बड़े होते जाते हैं वे तंत्रिका जाल बेहतर होते जाते हैं। कोई सवाल नहीं है कि हमें स्केल करना चाहिए। और जिनके पास सामान्य ज्ञान का कुछ स्तर होगा वे बड़े होंगे। इसके आसपास कोई रास्ता नहीं है, मुझे लगता है। तो स्केलिंग अच्छा है, यह आवश्यक है, लेकिन पर्याप्त नहीं है। मैं यही बात बना रहा हूं। यह सिर्फ स्केलिंग नहीं है। वह पहला बिंदु है। 

दूसरा बिंदु, क्या सिद्धांत पहले आता है और ऐसी ही बातें। इसलिए, मुझे लगता है कि ऐसी अवधारणाएं हैं जो पहले आती हैं, आपको एक कदम पीछे हटना होगा और कहना होगा, ठीक है, हमने यह सीढ़ी बनाई है, लेकिन हम चाँद पर जाना चाहते हैं और ऐसा कोई रास्ता नहीं है जिससे यह सीढ़ी हमें वहाँ ले जा सके। तो, मूल रूप से, जो मैं यहाँ लिख रहा हूँ, वह यह है कि हमें रॉकेट बनाने की आवश्यकता है। हम रॉकेट कैसे बनाते हैं, इसका विवरण मैं आपको नहीं दे सकता, लेकिन यहां बुनियादी सिद्धांत दिए गए हैं। और मैं इसके लिए या कुछ भी सिद्धांत नहीं लिख रहा हूं, लेकिन, यह एक रॉकेट बनने जा रहा है, ठीक है? या एक अंतरिक्ष लिफ्ट या जो कुछ भी। हो सकता है कि हमारे पास सभी तकनीक का पूरा विवरण न हो। हम उन चीजों में से कुछ को काम करने की कोशिश कर रहे हैं, जैसे मैं जेईपीए पर काम कर रहा हूं। संयुक्त एम्बेडिंग छवि पहचान के लिए वास्तव में अच्छी तरह से काम करता है, लेकिन विश्व मॉडल को प्रशिक्षित करने के लिए इसका उपयोग करने में कठिनाइयां होती हैं। हम इस पर काम कर रहे हैं, हमें उम्मीद है कि हम इसे काम करने जा रहे हैं soon, लेकिन हमें वहाँ कुछ बाधाओं का सामना करना पड़ सकता है जिन्हें हम संभवतः पार नहीं कर सकते। 

फिर तर्क के बारे में पेपर में एक महत्वपूर्ण विचार है, जहां अगर हम चाहते हैं कि सिस्टम योजना बनाने में सक्षम हों, जिसे आप तर्क के एक सरल रूप के रूप में सोच सकते हैं, तो उनके पास गुप्त चर होना चाहिए। दूसरे शब्दों में, ऐसी चीजें जिनकी गणना किसी तंत्रिका जाल द्वारा नहीं की जाती है, लेकिन वे चीजें हैं - जिनके मूल्य का अनुमान लगाया जाता है ताकि कुछ उद्देश्य फ़ंक्शन, कुछ लागत फ़ंक्शन को कम किया जा सके। और फिर आप सिस्टम के व्यवहार को चलाने के लिए इस लागत फ़ंक्शन का उपयोग कर सकते हैं। और यह बिल्कुल नया विचार नहीं है, है ना? यह बहुत ही शास्त्रीय, इष्टतम नियंत्रण है जहां इसका आधार '50 के दशक के उत्तरार्ध में, 60 के दशक की शुरुआत में वापस जाता है। इसलिए, यहां किसी नवीनता का दावा नहीं कर रहा हूं। लेकिन मैं जो कह रहा हूं वह यह है कि इस प्रकार के अनुमान को एक बुद्धिमान प्रणाली का हिस्सा होना चाहिए जो कि योजना बनाने में सक्षम हो, और जिसका व्यवहार निर्दिष्ट या नियंत्रित किया जा सकता है, कठोर व्यवहार से नहीं, नकली झुकाव से नहीं, बल्कि एक उद्देश्य कार्य द्वारा व्यवहार को संचालित करता है - आवश्यक रूप से सीखने को प्रेरित नहीं करता है, लेकिन यह व्यवहार को संचालित करता है। आप जानते हैं, हमारे दिमाग में यह है, और हर जानवर की चीजों के लिए आंतरिक लागत या आंतरिक प्रेरणा होती है। यह नौ महीने के बच्चों को खड़ा होना चाहता है। जब आप खड़े होते हैं तो खुश रहने की लागत, लागत फ़ंक्शन में वह शब्द हार्डवायर्ड होता है। लेकिन आप कैसे खड़े होते हैं, यह सीखना नहीं है।

यान-लेकुन-सितंबर-2022-4

"स्केलिंग अच्छा है, यह आवश्यक है, लेकिन पर्याप्त नहीं है," GPT-3 किस्म के ट्रांसफॉर्मर-आधारित कार्यक्रमों जैसे विशाल भाषा मॉडल के LeCun कहते हैं। ट्रांसफॉर्मर भक्तों का मानना ​​है, "हम सब कुछ टोकन करते हैं, और विशाल ट्रेन करते हैं"असतत भविष्यवाणियां करने के लिए मॉडल, और किसी तरह एआई इससे बाहर निकलेगा … लेकिन मुझे लगता है कि इसमें आवश्यक टुकड़े गायब हैं। ”

जेडडीनेट: बस उस बिंदु को पूरा करने के लिए, गहन शिक्षण समुदाय का अधिकांश भाग किसी ऐसी चीज़ के साथ आगे बढ़ना ठीक लगता है जिसमें सामान्य ज्ञान नहीं है। ऐसा लगता है कि आप यहां एक स्पष्ट तर्क दे रहे हैं कि किसी बिंदु पर यह गतिरोध बन जाता है। कुछ लोग कहते हैं कि हमें सामान्य ज्ञान के साथ एक स्वायत्त कार की आवश्यकता नहीं है क्योंकि स्केलिंग यह करेगी। ऐसा लगता है कि आप कह रहे हैं कि उस रास्ते पर चलते रहना ठीक नहीं है?

वाईएल: आप जानते हैं, मुझे लगता है कि यह पूरी तरह से संभव है कि हमारे पास सामान्य ज्ञान के बिना स्तर-पांच स्वायत्त कारें हों। लेकिन इस दृष्टिकोण के साथ समस्या, यह अस्थायी होने जा रही है, क्योंकि आपको इससे बाहर निकलना होगा। तो, आप जानते हैं, पूरी दुनिया को मैप करें, सभी प्रकार के विशिष्ट कोने-केस व्यवहार को हार्ड-वायर करें, पर्याप्त डेटा एकत्र करें कि आपके पास सड़कों पर आने वाली सभी तरह की अजीब स्थितियां हों, ब्लाह, ब्लाह, ब्लाह। और मेरा अनुमान है कि पर्याप्त निवेश और समय के साथ, आप इससे बाहर निकल सकते हैं। लेकिन अंततः, एक अधिक संतोषजनक और संभवतः बेहतर समाधान होने जा रहा है जिसमें ऐसे सिस्टम शामिल हैं जो दुनिया के काम करने के तरीके को समझने का बेहतर काम करते हैं, और आप जानते हैं, कुछ स्तर जिसे हम सामान्य ज्ञान कहते हैं। यह मानव-स्तर का सामान्य ज्ञान होने की आवश्यकता नहीं है, लेकिन कुछ प्रकार का ज्ञान है जिसे सिस्टम देखकर प्राप्त कर सकता है, लेकिन किसी को ड्राइव करते हुए नहीं देख रहा है, बस सामान को इधर-उधर घूमते हुए देख रहा है और दुनिया के बारे में बहुत कुछ समझ रहा है, पृष्ठभूमि की नींव का निर्माण कर रहा है। दुनिया कैसे काम करती है, इसके बारे में ज्ञान, जिसके ऊपर आप गाड़ी चलाना सीख सकते हैं। 

मैं इसका एक ऐतिहासिक उदाहरण लेता हूं। शास्त्रीय कंप्यूटर दृष्टि बहुत सारे हार्डवेयर्ड, इंजीनियर मॉड्यूल पर आधारित थी, जिसके शीर्ष पर आपके पास सीखने की एक पतली परत होगी। इसलिए, 2012 में एलेक्सनेट द्वारा जो सामान पीटा गया था, उसमें मूल रूप से एक पहला चरण, तरह का, दस्तकारी फीचर एक्सट्रैक्शन था, जैसे SIFTs [स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (SIFT), एक छवि में मुख्य वस्तुओं की पहचान करने के लिए एक क्लासिक विज़न तकनीक] और एचओजी [ओरिएंटेड ग्रैडिएंट्स का हिस्टोग्राम, एक और क्लासिक तकनीक] और कई अन्य चीजें। और फिर फीचर कर्नेल और जो कुछ भी, और किसी प्रकार की अनुपयोगी विधि के आधार पर दूसरी परत, सॉर्ट-ऑफ, मध्य-स्तरीय सुविधाएं। और फिर इसके ऊपर, आप एक सपोर्ट वेक्टर मशीन, या फिर एक अपेक्षाकृत सरल क्लासिफायरियर लगाते हैं। और वह, 2000 के दशक के मध्य से 2012 तक की मानक पाइपलाइन थी। और उसकी जगह एंड-टू-एंड कनवल्शनल नेट्स ने ले ली, जहां आप इनमें से किसी को भी हार्डवायर नहीं करते हैं, आपके पास बस बहुत सारा डेटा है, और आप चीजों को अंत से अंत तक प्रशिक्षित करते हैं, जिस दृष्टिकोण की मैं लंबे समय से वकालत कर रहा था, लेकिन आप जानते हैं, तब तक, बड़ी समस्याओं के लिए व्यावहारिक नहीं था। 

भाषण मान्यता में एक ऐसी ही कहानी रही है, जहां, फिर से, आप डेटा को पूर्व-संसाधित करने के लिए विस्तृत इंजीनियरिंग की एक बड़ी मात्रा में थे, आप बड़े पैमाने पर सेपस्ट्रम निकालते हैं [सिग्नल प्रोसेसिंग के लिए फास्ट फूरियर ट्रांसफॉर्म का उलटा], और फिर आपके पास छिपे हुए मार्कोव मॉडल हैं, सॉर्ट-ऑफ़, प्री-सेट आर्किटेक्चर, ब्लाह, ब्लाह, ब्लाह, गॉसियन के मिश्रण के साथ। और इसलिए, यह दृष्टि के समान वास्तुकला का एक सा है जहां आपने फ्रंट-एंड को दस्तकारी किया है, और फिर कुछ हद तक असुरक्षित, प्रशिक्षित, मध्यम परत, और फिर शीर्ष पर एक पर्यवेक्षित परत है। और अब वह, मूल रूप से, एंड-टू-एंड न्यूरल नेट द्वारा मिटा दिया गया है। तो मैं सब कुछ सीखने की कोशिश करने के समान कुछ देख रहा हूं, लेकिन आपके पास सही पूर्व, सही वास्तुकला, सही संरचना होनी चाहिए।

यान-लेकुन-सितंबर-2022-5

सेल्फ-ड्राइविंग कार भीड़, वेमो और वेव जैसे स्टार्टअप, "थोड़ा बहुत आशावादी" रहे हैं, वे कहते हैं, यह सोचकर कि वे "इस पर डेटा फेंक सकते हैं, और आप बहुत कुछ सीख सकते हैं।" ADAS के स्तर 5 पर सेल्फ-ड्राइविंग कारें संभव हैं, "लेकिन आपको इससे बाहर निकलना होगा" और प्रारंभिक कंप्यूटर विज़न मॉडल की तरह "भंगुर" होंगे।

जेडडीनेट: आप जो कह रहे हैं, वह यह है कि कुछ लोग इंजीनियरिंग करने की कोशिश करेंगे जो वर्तमान में उद्योग में प्रयोज्यता के लिए गहन सीखने के साथ काम नहीं करता है, और वे कुछ ऐसा बनाना शुरू करने जा रहे हैं जो कंप्यूटर दृष्टि में अप्रचलित हो गया है?

वाईएल: सही। और यह आंशिक रूप से है कि पिछले कुछ वर्षों में स्वायत्त ड्राइविंग पर काम करने वाले लोग थोड़े बहुत आशावादी रहे हैं, क्योंकि, आप जानते हैं, आपके पास ये, सामान्य चीजें जैसे कि कनवल्शनल नेट और ट्रांसफॉर्मर हैं, जिससे आप इस पर डेटा फेंक सकते हैं , और यह बहुत कुछ बहुत कुछ सीख सकता है। तो, आप कहते हैं, ठीक है, मेरे पास उस समस्या का समाधान है। पहली चीज जो आप करते हैं वह यह है कि आप एक डेमो बनाते हैं जहां कार बिना किसी को चोट पहुंचाए कुछ मिनटों के लिए खुद को चलाती है। और फिर आप महसूस करते हैं कि बहुत सारे कोने के मामले हैं, और आप वक्र को प्लॉट करने की कोशिश करते हैं कि मैं कितना बेहतर हो रहा हूं क्योंकि मैं प्रशिक्षण सेट को दोगुना कर देता हूं, और आप महसूस करते हैं कि आप वहां कभी नहीं पहुंचेंगे क्योंकि सभी प्रकार के कोने के मामले हैं . और आपके पास एक ऐसी कार होनी चाहिए जो हर 200 करोड़ किलोमीटर से भी कम समय में एक घातक दुर्घटना का कारण बने, है ना? तो तुम क्या करते हो? ठीक है, आप दो दिशाओं में चलते हैं। 

पहली दिशा यह है कि, मैं अपने सिस्टम को सीखने के लिए आवश्यक डेटा की मात्रा को कैसे कम कर सकता हूं? और यहीं से स्व-पर्यवेक्षित शिक्षा आती है। इसलिए, बहुत से सेल्फ-ड्राइविंग कार संगठन स्व-पर्यवेक्षित सीखने में बहुत रुचि रखते हैं क्योंकि यह अभी भी नकल सीखने के लिए पर्यवेक्षी डेटा की विशाल मात्रा का उपयोग करने का एक तरीका है, लेकिन बेहतर प्रदर्शन प्राप्त करना पूर्व-प्रशिक्षण, अनिवार्य रूप से। और यह अभी तक पूरी तरह से बाहर नहीं निकला है, लेकिन यह होगा। और फिर दूसरा विकल्प है, जिसे इस बिंदु पर अधिक उन्नत कंपनियों ने अपनाया है, जो ठीक है, हम एंड-टू-एंड प्रशिक्षण कर सकते हैं, लेकिन बहुत सारे कोने के मामले हैं जो हम कर सकते हैं' t हैंडल, इसलिए हम केवल इंजीनियर सिस्टम पर जा रहे हैं जो उन कोने के मामलों का ध्यान रखेंगे, और, मूल रूप से, उन्हें विशेष मामलों के रूप में मानते हैं, और नियंत्रण को हार्डवायर करते हैं, और फिर विशेष परिस्थितियों को संभालने के लिए बहुत सारे बुनियादी व्यवहार को हार्डवायर करते हैं। और अगर आपके पास इंजीनियरों की एक बड़ी टीम है, तो आप इसे खींच सकते हैं। लेकिन इसमें एक लंबा समय लगेगा, और अंत में, यह अभी भी थोड़ा भंगुर होगा, शायद इतना विश्वसनीय कि आप इसे तैनात कर सकें, लेकिन कुछ स्तर की भंगुरता के साथ, जो कि अधिक सीखने-आधारित दृष्टिकोण के साथ प्रकट हो सकता है। भविष्य, कारों के पास नहीं होगा क्योंकि इसमें सामान्य ज्ञान और समझ का कुछ स्तर हो सकता है कि दुनिया कैसे काम करती है। 

अल्पावधि में, सॉर्ट-ऑफ़, इंजीनियर दृष्टिकोण जीत जाएगा - यह पहले से ही जीत गया है। वह दुनिया का वायमो और क्रूज है और वेवेऔर जो कुछ भी, वे यही करते हैं। फिर स्व-पर्यवेक्षित सीखने का दृष्टिकोण है, जो संभवतः इंजीनियर दृष्टिकोण को प्रगति करने में मदद करेगा। लेकिन फिर, लंबे समय में, जो उन कंपनियों के लिए प्रतीक्षा करने के लिए बहुत लंबा हो सकता है, शायद, एक अधिक एकीकृत स्वायत्त बुद्धिमान ड्राइविंग सिस्टम की तरह होगा।

जेडडीनेट: हम ज्यादातर निवेशकों के निवेश क्षितिज से परे कहते हैं।

वाईएल: सही बात है। तो, सवाल यह है कि क्या प्रदर्शन वांछित स्तर तक पहुंचने से पहले लोग धैर्य खो देंगे या पैसे से बाहर हो जाएंगे।

जेडडीनेट: क्या यह कहना दिलचस्प है कि आपने मॉडल में चुने गए कुछ तत्वों को क्यों चुना? क्योंकि आप केनेथ क्रेक का हवाला देते हैं [1943,व्याख्या की प्रकृति], और आप ब्रायसन और हो का हवाला देते हैं [1969, लागू इष्टतम नियंत्रण], और मैं इस बारे में उत्सुक हूं कि आपने इन प्रभावों के साथ शुरुआत क्यों की, यदि आप विशेष रूप से मानते हैं कि इन लोगों ने इसे उतना ही आगे बढ़ाया है जितना उन्होंने किया था। आपने वहां क्यों शुरू किया?

वाईएल: खैर, मुझे नहीं लगता, निश्चित रूप से, उनके पास सभी विवरण थे। तो, ब्रायसन और हो, यह एक किताब है जिसे मैंने 1987 में वापस पढ़ा था जब मैं टोरंटो में जेफ्री हिंटन के साथ पोस्टडॉक था। लेकिन जब मैं अपनी पीएचडी लिख रहा था, तब मुझे इस काम की लाइन के बारे में पहले से पता था, और अनिवार्य रूप से इष्टतम नियंत्रण और बैकप्रॉप के बीच संबंध बनाया। यदि आप वास्तव में बनना चाहते थे, तो आप जानते हैं, एक और श्मिटुबर, आप कहेंगे कि बैकप्रॉप के वास्तविक आविष्कारक वास्तव में इष्टतम नियंत्रण सिद्धांतकार हेनरी जे। केली, आर्थर ब्रायसन और शायद लेव पोंट्रीगिन भी थे, जो कि इष्टतम नियंत्रण के रूसी सिद्धांतकार हैं। 50 के दशक के उत्तरार्ध में। 

तो, उन्होंने इसका पता लगा लिया, और वास्तव में, आप वास्तव में इसके मूल को देख सकते हैं, इसके नीचे का गणित, लैग्रैन्जियन यांत्रिकी है। तो आप वास्तव में यूलर और लैग्रेंज पर वापस जा सकते हैं, और वास्तव में लैग्रैन्जियन शास्त्रीय यांत्रिकी की उनकी परिभाषा में इसका एक प्रकार ढूंढ सकते हैं। इसलिए, इष्टतम नियंत्रण के संदर्भ में, इन लोगों की रुचि मूल रूप से रॉकेट प्रक्षेपवक्र की गणना करने में थी। आप जानते हैं, यह प्रारंभिक अंतरिक्ष युग था। और अगर आपके पास रॉकेट का मॉडल है, तो यह आपको बताता है कि समय पर रॉकेट की स्थिति क्या है t, और यहाँ वह क्रिया है जो मैं करने जा रहा हूँ, इसलिए, विभिन्न प्रकार के थ्रस्ट और एक्चुएटर्स, यहाँ समय पर रॉकेट की स्थिति है टी + 1.

जेडडीनेट: एक राज्य-क्रिया मॉडल, एक मूल्य मॉडल।

वाईएल: यह सही है, नियंत्रण का आधार। तो, अब आप कमांड के अनुक्रम की कल्पना करके अपने रॉकेट की शूटिंग का अनुकरण कर सकते हैं, और फिर आपके पास कुछ लागत फ़ंक्शन है, जो रॉकेट की अपने लक्ष्य की दूरी, एक अंतरिक्ष स्टेशन या जो कुछ भी है। और फिर किसी प्रकार के क्रमिक वंश द्वारा, आप यह पता लगा सकते हैं कि मैं अपने कार्य क्रम को कैसे अपडेट कर सकता हूं ताकि मेरा रॉकेट वास्तव में लक्ष्य के जितना करीब हो सके। और यह समय में पीछे की ओर संकेतों को पीछे-प्रसारित करके आना है। और वह है बैक-प्रोपेगेशन, ग्रेडिएंट बैक-प्रोपेगेशन। वे संकेत, उन्हें लैग्रैंगियन यांत्रिकी में संयुग्म चर कहा जाता है, लेकिन वास्तव में, वे ग्रेडिएंट हैं। इसलिए, उन्होंने बैकप्रॉप का आविष्कार किया, लेकिन उन्हें इस बात का एहसास नहीं था कि इस सिद्धांत का इस्तेमाल एक मल्टी-स्टेज सिस्टम को प्रशिक्षित करने के लिए किया जा सकता है जो पैटर्न पहचान या ऐसा कुछ कर सकता है। यह वास्तव में शायद 70 के दशक के अंत तक, 80 के दशक की शुरुआत तक महसूस नहीं किया गया था, और फिर वास्तव में इसे लागू नहीं किया गया था और मध्य -80 के दशक तक काम करने के लिए बनाया गया था। ठीक है, तो, यह वह जगह है जहां बैकप्रॉप वास्तव में, दयालु, बंद हो गया क्योंकि लोगों ने यहां कोड की कुछ पंक्तियों को दिखाया है कि आप एक तंत्रिका जाल, अंत से अंत, बहुपरत को प्रशिक्षित कर सकते हैं। और यह परसेप्ट्रोन की सीमाओं को हटा देता है। और, हाँ, इष्टतम नियंत्रण के साथ संबंध हैं, लेकिन यह ठीक है।

जेडडीनेट: तो, यह कहने का एक लंबा रास्ता है कि आपने जिन प्रभावों के साथ शुरुआत की थी, वे बैकप्रॉप पर वापस जा रहे थे, और यह आपके लिए शुरुआती बिंदु के रूप में महत्वपूर्ण था?

वाईएल: हाँ, लेकिन मुझे लगता है कि लोग किस बारे में थोड़ा भूल गए थे, इस पर काफी काम था, आप जानते हैं, 90 के दशक में, या यहां तक ​​​​कि 80 के दशक में, माइकल जॉर्डन [MIT Dept. of Brain] जैसे लोग भी शामिल थे। और संज्ञानात्मक विज्ञान] और ऐसे लोग जो अब तंत्रिका जाल नहीं कर रहे हैं, लेकिन यह विचार है कि आप नियंत्रण के लिए तंत्रिका जाल का उपयोग कर सकते हैं, और आप इष्टतम नियंत्रण के शास्त्रीय विचारों का उपयोग कर सकते हैं। इसलिए, मॉडल-प्रेडिक्टिव कंट्रोल, जिसे अब मॉडल-प्रेडिक्टिव कंट्रोल कहा जाता है, जैसी चीजें, यह विचार कि आप क्रियाओं के अनुक्रम के परिणाम का अनुकरण या कल्पना कर सकते हैं यदि आपके पास सिस्टम का एक अच्छा मॉडल है जिसे आप नियंत्रित करने का प्रयास कर रहे हैं और जिस वातावरण में यह है। और फिर क्रमिक वंश द्वारा, अनिवार्य रूप से - यह सीखना नहीं है, यह अनुमान है - आप यह पता लगा सकते हैं कि क्रियाओं का सबसे अच्छा क्रम क्या है जो मेरे उद्देश्य को कम कर देगा। तो, अनुमान के लिए एक गुप्त चर के साथ एक लागत समारोह का उपयोग, मुझे लगता है, कुछ ऐसा है जो बड़े पैमाने पर तंत्रिका जाल की वर्तमान फसलें भूल गई हैं। लेकिन यह लंबे समय तक मशीन लर्निंग का एक बहुत ही शास्त्रीय घटक था। इसलिए, प्रत्येक बायेसियन नेट या ग्राफिकल मॉडल या संभाव्य ग्राफिकल मॉडल ने इस प्रकार के अनुमान का उपयोग किया। आपके पास एक मॉडल है जो चर के एक समूह के बीच निर्भरता को पकड़ता है, आपको कुछ चर के मूल्य के बारे में बताया जाता है, और फिर आपको शेष चर के सबसे संभावित मूल्य का अनुमान लगाना होगा। ग्राफिकल मॉडल और बायेसियन नेट्स और इस तरह की चीजों में अनुमान का मूल सिद्धांत यही है। और मुझे लगता है कि मूल रूप से तर्क, तर्क और योजना के बारे में क्या होना चाहिए।

जेडडीनेट: आप एक कोठरी बायेसियन हैं।

वाईएल: मैं एक गैर-संभाव्य बायेसियन हूं। मैंने पहले वह मजाक किया था। मैं वास्तव में कुछ साल पहले न्यूरिप्स में था, मुझे लगता है कि यह 2018 या 2019 में था, और मुझे एक बायेसियन द्वारा वीडियो पर पकड़ा गया था जिसने मुझसे पूछा था कि क्या मैं बायेसियन था, और मैंने कहा, हां, मैं बायेसियन हूं, लेकिन मैं यदि आप चाहें तो एक गैर-संभाव्य बायेसियन, सॉर्ट-ऑफ, एक ऊर्जा-आधारित बायेसियन हूं। 

जेडडीनेट: जो निश्चित रूप से कुछ ऐसा लगता है स्टार ट्रेक. आपने इस पत्र के अंत में उल्लेख किया है, आप जो कल्पना करते हैं उसे महसूस करने में वास्तव में वर्षों की मेहनत लगेगी। मुझे इस बारे में बताएं कि इस समय उस काम में से कुछ में क्या शामिल है।

वाईएल: इसलिए, मैं समझाता हूं कि आप पेपर में जेईपीए को कैसे प्रशिक्षित और तैयार करते हैं। और जिस मानदंड की मैं वकालत कर रहा हूं, वह सूचना सामग्री को अधिकतम करने का कोई तरीका है जो निकाले गए अभ्यावेदन में इनपुट के बारे में है। और फिर दूसरा भविष्यवाणी त्रुटि को कम कर रहा है। और यदि आपके पास भविष्यवक्ता में एक गुप्त चर है जो भविष्यवक्ता को गैर नियतात्मक होने की अनुमति देता है, तो आपको इसकी सूचना सामग्री को कम करके इस गुप्त चर को भी नियमित करना होगा। तो, अब आपके पास दो मुद्दे हैं, यह है कि आप कुछ न्यूरल नेट के आउटपुट की सूचना सामग्री को अधिकतम कैसे करते हैं, और दूसरा यह है कि आप कुछ गुप्त चर की सूचना सामग्री को कैसे कम करते हैं? और यदि आप उन दो कामों को नहीं करते हैं, तो व्यवस्था चरमरा जाएगी। यह कुछ भी दिलचस्प नहीं सीखेगा। यह हर चीज को शून्य ऊर्जा देगा, कुछ ऐसा, जो निर्भरता का अच्छा मॉडल नहीं है। यह पतन-रोकथाम समस्या है जिसका मैं उल्लेख करता हूं। 

और मैं उन सभी चीजों के बारे में कह रहा हूं जो लोगों ने कभी की हैं, पतन को रोकने के तरीकों की केवल दो श्रेणियां हैं। एक है विरोधाभासी विधियाँ, और दूसरी है वे नियमित विधियाँ। तो, दो इनपुट के प्रतिनिधित्व की सूचना सामग्री को अधिकतम करने और गुप्त चर की सूचना सामग्री को कम करने का यह विचार, जो नियमित तरीकों से संबंधित है। लेकिन उन संयुक्त एम्बेडिंग आर्किटेक्चर में बहुत सारे काम विपरीत तरीकों का उपयोग कर रहे हैं। वास्तव में, वे शायद इस समय सबसे लोकप्रिय हैं। तो, सवाल यह है कि आप सूचना सामग्री को इस तरह से कैसे मापते हैं कि आप अनुकूलित या कम कर सकें? और यहीं चीजें जटिल हो जाती हैं क्योंकि हम वास्तव में नहीं जानते कि सूचना सामग्री को कैसे मापना है। हम इसका अनुमान लगा सकते हैं, हम इसे ऊपरी-बाध्य कर सकते हैं, हम इस तरह की चीजें कर सकते हैं। लेकिन वे वास्तव में सूचना सामग्री को नहीं मापते हैं, जो वास्तव में, कुछ हद तक अच्छी तरह से परिभाषित भी नहीं है।

जेडडीनेट: यह शैनन का नियम नहीं है? यह सूचना सिद्धांत नहीं है? आपके पास एक निश्चित मात्रा में एन्ट्रॉपी, अच्छी एन्ट्रॉपी और खराब एन्ट्रॉपी है, और अच्छी एन्ट्रॉपी एक प्रतीक प्रणाली है जो काम करती है, खराब एन्ट्रॉपी शोर है। क्या यह सब शैनन द्वारा हल नहीं किया गया है?

वाईएल: आप सही कह रहे हैं, लेकिन इसके पीछे एक बड़ी खामी है। आप इस अर्थ में सही हैं कि यदि आपके पास डेटा आ रहा है और आप किसी तरह डेटा को असतत प्रतीकों में माप सकते हैं, और फिर आप उन प्रतीकों में से प्रत्येक की संभावना को माप सकते हैं, तो उन प्रतीकों द्वारा की गई अधिकतम जानकारी है के संभावित प्रतीकों का योग पाई लॉग पाई, सही? कहाँ पे Pi प्रतीक की संभावना है मैं - वह शैनन एन्ट्रापी है। [शैनन का नियम आमतौर पर H = - pi log pi के रूप में तैयार किया जाता है।]

यहाँ समस्या है, यद्यपि: क्या है Pi? यह तब आसान होता है जब प्रतीकों की संख्या कम होती है और प्रतीकों को स्वतंत्र रूप से खींचा जाता है। जब कई प्रतीक और निर्भरताएँ होती हैं, तो यह बहुत कठिन होता है। इसलिए, यदि आपके पास बिट्स का अनुक्रम है और आप मानते हैं कि बिट्स एक-दूसरे से स्वतंत्र हैं और संभावना एक और शून्य या जो कुछ भी बराबर है, तो आप आसानी से एन्ट्रॉपी को माप सकते हैं, कोई समस्या नहीं। लेकिन अगर आपके पास आने वाली चीजें उच्च-आयामी वैक्टर हैं, जैसे, आप जानते हैं, डेटा फ्रेम, या ऐसा कुछ, क्या है Pi? वितरण क्या है? सबसे पहले आपको उस स्थान को परिमाणित करना होगा, जो एक उच्च-आयामी, निरंतर स्थान है। आपको नहीं पता कि इसे ठीक से कैसे मापें। आप k- साधन आदि का उपयोग कर सकते हैं। यह वही है जो लोग वीडियो संपीड़न और छवि संपीड़न करते समय करते हैं। लेकिन यह सिर्फ एक अनुमान है। और फिर आपको स्वतंत्रता की धारणा बनानी होगी। तो, यह स्पष्ट है कि एक वीडियो में, लगातार फ़्रेम स्वतंत्र नहीं होते हैं। निर्भरताएं हैं, और वह फ्रेम एक घंटे पहले देखे गए किसी अन्य फ्रेम पर निर्भर हो सकता है, जो उसी चीज़ की एक तस्वीर थी। तो, आप जानते हैं, आप माप नहीं सकते Pi. मापने के लिए Pi, आपके पास एक मशीन लर्निंग सिस्टम होना चाहिए जो भविष्यवाणी करना सीखता है। और इसलिए आप पिछली समस्या पर वापस आ गए हैं। तो, आप अनिवार्य रूप से केवल सूचना के माप का अनुमान लगा सकते हैं। 

यान-लेकुन-सितंबर-2022-6

"सवाल यह है कि आप सूचना सामग्री को इस तरह से कैसे मापते हैं कि आप अनुकूलित या कम कर सकें?" लेकन कहते हैं। "और यहीं चीजें जटिल हो जाती हैं क्योंकि हम नहीं जानते कि वास्तव में सूचना सामग्री को कैसे मापना है।" अब तक जो सबसे अच्छा किया जा सकता है, वह एक ऐसा प्रॉक्सी ढूंढना है जो "उस कार्य के लिए पर्याप्त हो जो हम चाहते हैं।"

मैं एक और ठोस उदाहरण लेता हूं। हम जिस एल्गोरिथम के साथ खेल रहे हैं, और मैंने इस टुकड़े के बारे में बात की है, वह है इस चीज़ को VICReg, विचरण-इनवेरिएंस-सहप्रसरण नियमितीकरण कहा जाता है। यह एक अलग पेपर में है जो ICLR में प्रकाशित हुआ था, और इसे arXiv . पर रखा गया था लगभग एक साल पहले, 2021। और वहाँ का विचार सूचना को अधिकतम करना है। और यह विचार वास्तव में मेरे समूह द्वारा पहले के एक पेपर से निकला था जिसे कहा जाता है बार्लो जुड़वां. आप मूल रूप से एक तंत्रिका जाल से निकलने वाले वेक्टर की सूचना सामग्री को अधिकतम करते हैं, यह मानते हुए कि चर के बीच एकमात्र निर्भरता सहसंबंध, रैखिक निर्भरता है। इसलिए, यदि आप मानते हैं कि एकमात्र निर्भरता जो चर के जोड़े के बीच, या आपके सिस्टम में चर के बीच संभव है, क़ीमती सामानों के जोड़े के बीच सहसंबंध है, जो बेहद मोटा अनुमान है, तो आप अपने सिस्टम से निकलने वाली सूचना सामग्री को अधिकतम कर सकते हैं यह सुनिश्चित करके कि सभी चरों में गैर-शून्य विचरण है - मान लीजिए, विचरण एक, इससे कोई फर्क नहीं पड़ता कि यह क्या है - और फिर उन्हें वापस-सहसंबद्ध करना, वही प्रक्रिया जिसे श्वेत करना कहा जाता है, यह नया भी नहीं है। इसके साथ समस्या यह है कि आप चर के समूहों या यहां तक ​​​​कि केवल चर के जोड़े के बीच बेहद जटिल निर्भरताएं प्राप्त कर सकते हैं जो रैखिक निर्भरता नहीं हैं, और वे सहसंबंधों में दिखाई नहीं देते हैं। इसलिए, उदाहरण के लिए, यदि आपके पास दो चर हैं, और उन दो चर के सभी बिंदु किसी प्रकार के सर्पिल में पंक्तिबद्ध हैं, तो उन दो चरों के बीच एक बहुत मजबूत निर्भरता है, है ना? लेकिन वास्तव में, यदि आप उन दो चरों के बीच सहसंबंध की गणना करते हैं, तो वे सहसंबद्ध नहीं होते हैं। तो, यहां एक उदाहरण दिया गया है जहां इन दो चरों की सूचना सामग्री वास्तव में बहुत छोटी है, यह केवल एक मात्रा है क्योंकि यह सर्पिल में आपकी स्थिति है। वे डी-सहसंबद्ध हैं, इसलिए आपको लगता है कि आपके पास उन दो चरों से बहुत सारी जानकारी आ रही है जब वास्तव में आप नहीं करते हैं, केवल आपके पास है, आप जानते हैं, आप अनिवार्य रूप से दूसरे से एक चर की भविष्यवाणी कर सकते हैं। तो, यह दर्शाता है कि हमारे पास सूचना सामग्री को मापने के बहुत ही अनुमानित तरीके हैं।

जेडडीनेट: और इसलिए यह उन चीजों में से एक है जिस पर आपको अभी काम करना है? यह बड़ा सवाल है कि जब हम सूचना सामग्री को अधिकतम और न्यूनतम कर रहे हैं तो हम कैसे जानते हैं?

वाईएल:  या इसके लिए हम जिस प्रॉक्सी का उपयोग कर रहे हैं वह उस कार्य के लिए पर्याप्त है जो हम चाहते हैं। वास्तव में, हम इसे हर समय मशीन लर्निंग में करते हैं। हम जिन लागत कार्यों को कम करते हैं, वे कभी भी नहीं होते हैं जिन्हें हम वास्तव में कम करना चाहते हैं। तो, उदाहरण के लिए, आप वर्गीकरण करना चाहते हैं, ठीक है? क्लासिफायरियर को प्रशिक्षित करते समय आप जिस लागत फ़ंक्शन को कम करना चाहते हैं, वह क्लासिफायर द्वारा की जाने वाली गलतियों की संख्या है। लेकिन यह एक गैर-भिन्न, भयानक लागत कार्य है जिसे आप कम नहीं कर सकते क्योंकि आप जानते हैं कि आप अपने तंत्रिका जाल के वजन को बदलने जा रहे हैं, कुछ भी नहीं बदलने वाला है जब तक कि उन नमूनों में से एक ने अपना निर्णय फ़्लिप नहीं किया, और फिर एक छलांग त्रुटि में, सकारात्मक या नकारात्मक।

जेडडीनेट: तो आपके पास एक प्रॉक्सी है जो एक उद्देश्य कार्य है जिसे आप निश्चित रूप से कह सकते हैं, हम निश्चित रूप से इस चीज़ के ग्रेडियेंट प्रवाहित कर सकते हैं।

वाईएल: सही बात है। तो लोग इस क्रॉस-एन्ट्रॉपी लॉस, या सॉफ़्टमैक्स का उपयोग करते हैं, आपके पास इसके लिए कई नाम हैं, लेकिन यह वही बात है। और यह मूल रूप से सिस्टम द्वारा की जाने वाली त्रुटियों की संख्या का एक सहज अनुमान है, जहां चौरसाई द्वारा किया जाता है, मूल रूप से, उस स्कोर को ध्यान में रखते हुए जो सिस्टम प्रत्येक श्रेणी को देता है।

जेडडीनेट: क्या ऐसा कुछ है जिसे हमने कवर नहीं किया है जिसे आप कवर करना चाहेंगे?

वाईएल: यह शायद मुख्य बिंदुओं पर जोर दे रहा है। मुझे लगता है कि एआई सिस्टम को तर्क करने में सक्षम होना चाहिए, और इसके लिए मैं जिस प्रक्रिया की वकालत कर रहा हूं वह कुछ गुप्त चर के संबंध में कुछ उद्देश्य को कम कर रही है। यह सिस्टम को योजना बनाने और तर्क करने की अनुमति देता है। मुझे लगता है कि हमें संभाव्य ढांचे को छोड़ देना चाहिए क्योंकि जब हम उच्च-आयामी, निरंतर चर के बीच निर्भरता को पकड़ने जैसी चीजें करना चाहते हैं तो यह कठिन है। और मैं जनरेटिव मॉडल को छोड़ने की वकालत कर रहा हूं क्योंकि सिस्टम को उन चीजों की भविष्यवाणी करने के लिए बहुत सारे संसाधनों को समर्पित करना होगा जो भविष्यवाणी करना बहुत मुश्किल है और शायद बहुत अधिक संसाधनों का उपभोग करते हैं। और बस यही सब है। यदि आप चाहें तो यही मुख्य संदेश है। और फिर समग्र वास्तुकला। फिर चेतना की प्रकृति और विन्यासकर्ता की भूमिका के बारे में वे अटकलें हैं, लेकिन यह वास्तव में अटकलें हैं।

जेडडीनेट: हम अगली बार उस पर पहुंचेंगे। मैं आपसे पूछने जा रहा था, आप इस चीज़ को कैसे बेंचमार्क करते हैं? लेकिन मुझे लगता है कि आप अभी बेंचमार्किंग से थोड़ा आगे हैं?

वाईएल: जरूरी नहीं कि बहुत दूर, क्रमबद्ध, सरलीकृत संस्करण। आप वह कर सकते हैं जो हर कोई नियंत्रण या सुदृढीकरण सीखने में करता है, यानी, आप अटारी गेम या ऐसा कुछ या कुछ अन्य गेम खेलने के लिए प्रशिक्षित करते हैं जिसमें कुछ अनिश्चितता होती है।

जेडडीनेट: आपके समय के लिए धन्यवाद, यान।

स्रोत