LeCun ، خبير الذكاء الاصطناعي في Meta: لن تؤدي معظم أساليب الذكاء الاصطناعي الحالية إلى ذكاء حقيقي

يان ليكون سبتمبر 2022-1

يقول Yann LeCun ، كبير علماء الذكاء الاصطناعي في Meta: "أعتقد أن أنظمة الذكاء الاصطناعي بحاجة إلى أن تكون قادرة على التفكير". لن تكون مناهج الذكاء الاصطناعي الشائعة اليوم مثل Transformers ، والتي يعتمد الكثير منها على عمله الرائد في هذا المجال ، كافية. "عليك أن تأخذ خطوة إلى الوراء وتقول ، حسنًا ، لقد بنينا هذا السلم ، لكننا نريد الذهاب إلى القمر ، ولا توجد طريقة يقودنا هذا السلم إلى هناك ،" يقول LeCun.

يان ليكون ، كبير علماء الذكاء الاصطناعي من Meta Properties ، مالك Facebook و Instagram و WhatsApp ، من المرجح أن يثير الكثير من الأشخاص في مجاله. 

مع نشر في يونيو من قطعة فكرية على خادم Open Review، قدم LeCun نظرة عامة واسعة على نهج يعتقد أنه يحمل وعدًا بتحقيق ذكاء على مستوى الإنسان في الآلات. 

ضمنيًا ، إن لم يتم توضيحه في الورقة البحثية ، هو الجدل القائل بأن معظم مشاريع الذكاء الاصطناعي الكبيرة اليوم لن تتمكن أبدًا من الوصول إلى هذا الهدف على المستوى البشري.

في مناقشة هذا الشهر مع زدنيت عبر Zoom ، أوضح LeCun أنه ينظر بشك كبير إلى العديد من أكثر السبل نجاحًا للبحث في التعلم العميق في الوقت الحالي.

قال الفائز بجائزة تورينج: "أعتقد أنها ضرورية ولكنها ليست كافية" زدنيت من مساعي أقرانه. 

وتشمل هذه النماذج اللغوية الكبيرة مثل GPT-3 المستندة إلى المحولات وأمثالها. كما يميزها LeCun ، يعتقد محبو Transformer ، "نحن نقوم بترميز كل شيء ، وندرب العملاقنماذج لعمل تنبؤات منفصلة ، وبطريقة ما سيخرج الذكاء الاصطناعي من هذا ".

يقول: "إنهم ليسوا مخطئين ، بمعنى أن ذلك قد يكون مكونًا لنظام ذكي في المستقبل ، لكنني أعتقد أنه يفتقد إلى أجزاء أساسية".

أيضا: يستكشف LeCun النجمي من Meta الذكاء الاصطناعي حدود طاقة التعلم العميق

إنه نقد مذهل لما يبدو أنه عمل قادم من الباحث الذي أتقن استخدام الشبكات العصبية التلافيفية ، وهي تقنية عملية كانت مثمرة بشكل لا يصدق في برامج التعلم العميق. 

يرى LeCun عيوبًا وقيودًا في الكثير من المجالات الأخرى الناجحة للغاية في التخصص. 

ويؤكد أن التعلم المعزز لن يكون كافيًا أبدًا. يركز باحثون مثل David Silver من DeepMind ، الذين طوروا برنامج AlphaZero الذي أتقن لعبة الشطرنج وشوجي وجو ، على البرامج "القائمة على العمل للغاية" ، كما يلاحظ LeCun ، ولكن "معظم التعلم الذي نقوم به ، لا نفعل ذلك من خلال اتخاذ إجراءات فعلية ، ونحن نفعل ذلك من خلال الملاحظة ". 

Lecun ، 62 عامًا ، من منظور عقود من الإنجاز ، يعبر مع ذلك عن الحاجة الملحة لمواجهة ما يعتقد أنها الأزقة العمياء التي قد يندفع الكثيرون نحوها ، ومحاولة إقناع مجاله في الاتجاه الذي يعتقد أنه يجب أن تسير الأمور فيه. 

يقول: "نرى الكثير من الادعاءات حول ما يجب علينا فعله للمضي قدمًا نحو الذكاء الاصطناعي على المستوى البشري". "وهناك أفكار أعتقد أنها مضللة".

يلاحظ Lecun: "لم نصل إلى النقطة التي تمتلك فيها آلاتنا الذكية نفس القدر من الحس السليم مثل القطط". "إذن ، لماذا لا نبدأ من هناك؟" 

لقد تخلى عن إيمانه السابق باستخدام الشبكات التوليدية في أشياء مثل توقع الإطار التالي في مقطع فيديو. يقول: "لقد كان فشلًا تامًا". 

يدين LeCun أولئك الذين يسميهم "الاحتماليين الدينيين" ، الذين "يعتقدون أن نظرية الاحتمالات هي الإطار الوحيد الذي يمكنك استخدامه لشرح التعلم الآلي". 

وهو يقول إن النهج الإحصائي البحت مستعصي على الحل. "من المبالغة أن نطلب نموذجًا عالميًا ليكون احتماليًا تمامًا ؛ نحن لا نعرف كيف نفعل ذلك ".

لا يقتصر الأمر على الأكاديميين فحسب ، بل يحتاج الذكاء الاصطناعي الصناعي إلى إعادة تفكير عميق ، كما يقول LeCun. حشد السيارات ذاتية القيادة ، الشركات الناشئة مثل Wayve ، كانوا "متفائلين بعض الشيء" ، كما يقول ، من خلال التفكير في أنهم يستطيعون "إلقاء البيانات على" الشبكات العصبية الكبيرة "ويمكنك تعلم أي شيء إلى حد كبير".

"كما تعلم ، أعتقد أنه من الممكن تمامًا أن يكون لدينا سيارات مستقلة من المستوى الخامس بدون حس سليم" ، كما يقول ، مشيرًا إلى "أداس" ، نظام متقدم لمساعدة السائق مصطلحات للقيادة الذاتية ، "لكن عليك أن تهندس بها الجحيم."

وهو يعتقد أن تقنية القيادة الذاتية المبالغة في هندستها ستكون شيئًا صعبًا وهشًا مثل جميع برامج الرؤية الحاسوبية التي عفا عليها الزمن بسبب التعلم العميق.

"في النهاية ، سيكون هناك حل أكثر إرضاءًا وربما أفضل يتضمن أنظمة تقوم بعمل أفضل لفهم الطريقة التي يعمل بها العالم."

على طول الطريق ، يقدم LeCun بعض الآراء المهلكة لأكبر منتقديه ، مثل أستاذ جامعة نيويورك غاري ماركوس - "لم يساهم بأي شيء في الذكاء الاصطناعي أبدًا" - ويورغن شميدهوبر ، المدير المشارك لمعهد Dalle Molle لأبحاث الذكاء الاصطناعي - "إنه من السهل جدًا القيام برفع الأعلام ".

وبعيدًا عن الانتقادات ، فإن النقطة الأكثر أهمية التي أثارها LeCun هي أن بعض المشكلات الأساسية تواجه كل الذكاء الاصطناعي ، على وجه الخصوص ، كيفية قياس المعلومات.

"عليك أن تأخذ خطوة إلى الوراء وتقول ، حسنًا ، لقد بنينا هذا السلم ، لكننا نريد الذهاب إلى القمر ، ولا توجد طريقة يقودنا هذا السلم إلى هناك ،" يقول LeCun عن رغبته في إعادة التفكير من المفاهيم الأساسية. "في الأساس ، ما أكتبه هنا هو ، نحن بحاجة إلى صنع صواريخ ، لا يمكنني أن أقدم لكم تفاصيل عن كيفية صنعنا للصواريخ ، ولكن هذه هي المبادئ الأساسية."

يمكن فهم الورقة وأفكار LeCun في المقابلة بشكل أفضل من خلال قراءة مقابلة LeCun في وقت سابق من هذا العام مع زدنيت الذي يناقش فيه التعلم الذاتي القائم على الطاقة كمسار للتعلم العميق. تعطي هذه الانعكاسات إحساسًا بالنهج الأساسي لما يأمل في بنائه كبديل للأشياء التي يدعي أنها لن تصل إلى خط النهاية. 

ما يلي هو نسخة منقحة قليلاً من المقابلة.

زد نت: موضوع محادثتنا هو هذه الورقة ، "مسار نحو ذكاء الآلة المستقل" ، أي الإصدار 0.9.2 هو الإصدار الموجود ، أليس كذلك؟

يان ليكون: أجل ، أنا أعتبر هذا ، نوعًا ما ، وثيقة عمل. لذلك ، قمت بنشره على Open Review ، في انتظار أن يقدم الناس تعليقاتهم واقتراحاتهم ، وربما مراجع إضافية ، وبعد ذلك سأنتج نسخة منقحة. 

زد نت: أرى أن Juergen Schmidhuber أضاف بالفعل بعض التعليقات إلى Open Review.

ييل: حسنًا ، نعم ، هو دائمًا يفعل. أذكر إحدى أوراقه هناك في ورقي. أعتقد أن الحجج التي قدمها على الشبكات الاجتماعية بأنه اخترع كل هذا بشكل أساسي في عام 1991 ، كما فعل في حالات أخرى ، ليست كذلك. أعني ، من السهل جدًا القيام بذلكغرس العلم ، وكتابة فكرة دون أي تجارب ، بدون أي نظرية ، اقترح فقط أنه يمكنك القيام بذلك بهذه الطريقة. لكن ، كما تعلمون ، هناك فرق كبير بين مجرد امتلاك الفكرة ، ثم جعلها تعمل على مشكلة لعبة ، ثم جعلها تعمل على مشكلة حقيقية ، ثم عمل نظرية توضح سبب نجاحها ، ثم نشرها. هناك سلسلة كاملة ، وفكرته عن الفضل العلمي هي أنه أول شخص ، نوعًا ما ، كان لديه فكرة عن ذلك ، يجب أن يحصل على كل الفضل. وهذا سخيف. 

زد نت: لا تصدق كل ما تسمعه على وسائل التواصل الاجتماعي. 

ييل: أعني ، الورقة الرئيسية التي يقول أنه يجب علي الاستشهاد بها لا تحتوي على أي من الأفكار الرئيسية التي أتحدث عنها في الورقة. لقد فعل ذلك أيضًا مع شبكات GAN وأشياء أخرى ، والتي لم تكن صحيحة. من السهل القيام برفع الأعلام ، ومن الأصعب بكثير تقديم مساهمة. وبالمناسبة ، في هذه الورقة بالذات ، قلت صراحة أن هذه ليست ورقة علمية بالمعنى المعتاد للمصطلح. إنها عبارة عن ورقة موقف حول المكان الذي يجب أن يتجه إليه هذا الشيء. وهناك بعض الأفكار التي قد تكون جديدة ، لكن معظمها ليس كذلك. أنا لا أطالب بأي أولوية لمعظم ما كتبته في تلك الورقة ، بشكل أساسي.

يان ليكون سبتمبر 2022-2

يؤكد LeCun أن التعلم المعزز لن يكون كافيًا أبدًا. يلاحظ LeCun أن الباحثين مثل David Silver من DeepMind ، الذين طوروا برنامج AlphaZero الذي أتقن لعبة الشطرنج ، Shogi و Go ، "يعتمدون جدًا على الحركة" ، ولكن "معظم التعلم الذي نقوم به ، لا نقوم به من خلال أخذ الأفعال ، نحن نفعل ذلك من خلال المراقبة ". 

زد نت: وربما يكون هذا مكانًا جيدًا للبدء ، لأنني أشعر بالفضول لماذا اتبعت هذا المسار الآن؟ ما الذي جعلك تفكر في هذا؟ لماذا أردت كتابة هذا؟

ييل: حسنًا ، لقد كنت أفكر في هذا لفترة طويلة جدًا ، حول مسار نحو الذكاء أو التعلم والقدرات على مستوى الإنسان أو الحيوان. وفي محادثاتي ، كنت صريحًا جدًا حول هذا الأمر برمته ، حيث إن كل من التعلم تحت الإشراف والتعلم المعزز غير كافيين لمحاكاة نوع التعلم الذي نلاحظه في الحيوانات والبشر. لقد كنت أفعل ذلك منذ سبع أو ثماني سنوات. لذا فهي ليست حديثة. لقد تلقيت كلمة رئيسية في NeurIPS منذ سنوات عديدة حيث أوضحت هذه النقطة ، بشكل أساسي ، ومحادثات مختلفة ، هناك تسجيلات. الآن ، لماذا تكتب ورقة الآن؟ لقد وصلت إلى هذه النقطة - [الباحث في الدماغ في Google] جيف هينتون قد فعل شيئًا مشابهًا - أعني بالتأكيد أنه أكثر مني ، نرى الوقت ينفد. نحن لسنا صغارًا.

زد نت: الستون هي الخمسون الجديدة. 

ييل: هذا صحيح ، لكن النقطة المهمة هي أننا نرى الكثير من الادعاءات حول ما يجب علينا فعله للمضي قدمًا نحو المستوى البشري للذكاء الاصطناعي. وهناك أفكار أعتقد أنها مضللة. لذا ، هناك فكرة واحدة ، أوه ، يجب علينا فقط إضافة التفكير الرمزي فوق الشبكات العصبية. ولا أعرف كيف أفعل ذلك. لذا ، ربما ما شرحته في الورقة البحثية قد يكون أسلوبًا واحدًا من شأنه أن يفعل الشيء نفسه دون التلاعب الواضح بالرمز. هذا هو نوع غاري ماركوس تقليديًا في العالم. غاري ماركوس ليس شخصًا في مجال الذكاء الاصطناعي ، بالمناسبة ، هو عالم نفس. لم يساهم أبدًا بأي شيء في الذكاء الاصطناعي. لقد قام بعمل جيد حقًا في علم النفس التجريبي لكنه لم يكتب أبدًا ورقة بحثية تمت مراجعتها من قِبل الزملاء حول الذكاء الاصطناعي. إذاً ، هناك هؤلاء الأشخاص. 

هناك [عالم أبحاث DeepMind] ديفيد سيلفرز من العالم الذي يقول ، كما تعلمون ، المكافأة كافية ، في الأساس ، الأمر كله يتعلق بالتعلم المعزز ، نحتاج فقط إلى جعله أكثر فاعلية ، حسنًا؟ وأعتقد أنهم ليسوا مخطئين ، لكنني أعتقد أن الخطوات الضرورية نحو جعل التعلم المعزز أكثر كفاءة ، بشكل أساسي ، من شأنه أن يحول التعلم المعزز إلى نوع من الكرز على الكعكة. والجزء المفقود الرئيسي هو تعلم كيف يعمل العالم ، في الغالب عن طريق الملاحظة دون فعل. يعتمد التعلم المعزز على الإجراءات ، حيث تتعلم أشياء عن العالم من خلال اتخاذ الإجراءات ورؤية النتائج.

زد نت: وهي تركز على المكافأة.

ييل: إنه يركز على المكافأة ويركز على العمل أيضًا. لذا ، عليك أن تتصرف في العالم لتتعلم شيئًا عن العالم. والادعاء الرئيسي الذي أطرحه في الورقة حول التعلم تحت الإشراف الذاتي هو ، أن معظم التعلم الذي نقوم به ، لا نقوم به من خلال اتخاذ الإجراءات الفعلية ، بل نقوم بذلك من خلال الملاحظة. وهو أمر غير تقليدي للغاية ، سواء بالنسبة للتعلم المعزز للناس ، على وجه الخصوص ، ولكن أيضًا للعديد من علماء النفس والعلماء الإدراكيين الذين يعتقدون ، كما تعلمون ، العمل هو - لا أقول أن الفعل ليس ضروريًا ، إنه is ضروري. لكني أعتقد أن الجزء الأكبر مما نتعلمه يتعلق في الغالب ببنية العالم ، ويتضمن ، بالطبع ، التفاعل والعمل واللعب ، وأشياء من هذا القبيل ، لكن الكثير منها يتعلق بالمراقبة.

زد نت: ستتمكن أيضًا من تمييز الأشخاص المتحولين ، أول الأشخاص اللغويين ، في نفس الوقت. كيف يمكنك بناء هذا بدون لغة أولاً؟ قد تتمكن من التخلص من الكثير من الناس. 

ييل: نعم ، أنا معتاد على ذلك. لذا ، نعم ، هناك الأشخاص الذين يتحدثون اللغة أولاً ، والذين يقولون ، كما تعلمون ، الذكاء يتعلق باللغة ، وركيزة الذكاء هي اللغة ، بلاه ، بلاه ، بلاه. لكن هذا ، نوعًا ما ، يرفض ذكاء الحيوان. كما تعلمون ، نحن لسنا إلى النقطة التي تمتلك فيها أجهزتنا الذكية نفس القدر من الحس السليم مثل القطة. فلماذا لا نبدأ من هناك؟ ما الذي يسمح للقطة بفهم العالم المحيط ، والقيام بأشياء ذكية جدًا ، والتخطيط وأشياء من هذا القبيل ، والكلاب أفضل؟ 

ثم هناك كل الناس الذين يقولون ، أوه ، الذكاء هو شيء اجتماعي ، أليس كذلك؟ نحن أذكياء لأننا نتحدث مع بعضنا البعض ونتبادل المعلومات ، وكذا وكذا وكذا. هناك أنواع مختلفة من الأنواع غير الاجتماعية التي لا تلتقي أبدًا بوالديها وهي ذكية جدًا ، مثل الأخطبوط أو إنسان الغاب.أعني ، إنهم [إنسان الغاب] بالتأكيد تلقوا تعليمهم من قبل أمهم ، لكنهم ليسوا حيوانات اجتماعية. 

لكن الفئة الأخرى من الأشخاص الذين قد أوقفهم هم الأشخاص الذين يقولون إن التوسع كافي. لذلك ، في الأساس ، نحن فقط نستخدم المحولات العملاقة ، نحن ندربهم على البيانات متعددة الوسائط التي تتضمن ، كما تعلمون ، فيديو ، نص ، بلاه ، بلاه ، بلاه. نحن ، نوعًا ما ، نتحجركل شيء ، ورمز كل شيء ، ثم تدريب عملاقنماذج لعمل تنبؤات منفصلة ، بشكل أساسي ، وبطريقة ما سيخرج الذكاء الاصطناعي من هذا. إنهم ليسوا مخطئين ، بمعنى أن ذلك قد يكون مكونًا لنظام ذكي في المستقبل. لكنني أعتقد أنها تفتقد إلى قطع أساسية. 

هناك فئة أخرى من الأشخاص سأقوم بالتعامل معها بهذه الورقة. وهم الاحتماليون ، الاحتماليون الدينيون. لذا ، فإن الأشخاص الذين يعتقدون أن نظرية الاحتمالات هي الإطار الوحيد الذي يمكنك استخدامه لشرح التعلم الآلي. وكما حاولت أن أشرح في المقالة ، من المبالغة أن نطلب نموذجًا عالميًا ليكون احتماليًا تمامًا. نحن لا نعرف كيف نفعل ذلك. هناك استعصاء حسابي. لذلك أقترح التخلي عن هذه الفكرة بأكملها. وبالطبع ، كما تعلمون ، هذا ركيزة هائلة ليس فقط للتعلم الآلي ، ولكن كل الإحصائيات ، التي تدعي أنها الشكلية العادية للتعلم الآلي. 

الشيء الآخر - 

زد نت: أنت في بداية الطريق ...

ييل: - ما يسمى بالنماذج التوليدية. لذا ، فكرة أنه يمكنك تعلم التنبؤ ، وربما يمكنك معرفة الكثير عن العالم من خلال التنبؤ. لذا ، أعطيك مقطع فيديو وأطلب من النظام أن يتنبأ بما سيحدث بعد ذلك في الفيديو. وقد أطلب منك توقع إطارات الفيديو الفعلية بكل التفاصيل. لكن ما أجادل بشأنه في الورقة هو أن هذا في الواقع كثير جدًا على الطلب ومعقد للغاية. وهذا شيء غيرت رأيي بشأنه. حتى قبل عامين تقريبًا ، اعتدت أن أكون مؤيدًا لما أسميه النماذج التوليدية المتغيرة الكامنة ، النماذج التي تتنبأ بما سيحدث بعد ذلك أو المعلومات المفقودة ، ربما بمساعدة متغير كامن ، إذا كان التنبؤ لا يمكن أن يكون حتمية. وقد تخليت عن هذا. والسبب الذي جعلني أتخلى عن هذا يعتمد على النتائج التجريبية ، حيث حاول الناس تطبيق ، أو نوع ، أو توقع ، أو تدريب قائم على إعادة الإعمار من النوع المستخدم في BERTونماذج اللغات الكبيرة ، لقد حاولوا تطبيق هذا على الصور ، وكان هذا فشلًا تامًا. والسبب في الفشل التام هو ، مرة أخرى ، بسبب قيود النماذج الاحتمالية حيث يكون من السهل نسبيًا التنبؤ بالرموز المميزة المنفصلة مثل الكلمات لأنه يمكننا حساب توزيع الاحتمالات على جميع الكلمات في القاموس. هذا سهل. لكن إذا طلبنا من النظام إنتاج التوزيع الاحتمالي على جميع إطارات الفيديو الممكنة ، فليس لدينا أي فكرة عن كيفية تحديده ، أو لدينا فكرة عن كيفية تحديده ، لكننا لا نعرف كيفية تطبيعه. إنه يواجه مشكلة رياضية مستعصية على الحل ولا نعرف كيفية حلها. 

يان ليكون سبتمبر 2022-3

يلاحظ Lecun: "لم نصل إلى النقطة التي تمتلك فيها آلاتنا الذكية نفس القدر من الحس السليم مثل القطط". "إذن ، لماذا لا نبدأ من هناك؟ ما الذي يسمح للقطة بفهم العالم المحيط ، والقيام بأشياء ذكية جدًا ، والتخطيط وأشياء من هذا القبيل ، والكلاب أفضل؟ "

لذا ، لهذا السبب أقول دعونا نتخلى عن نظرية الاحتمالات أو إطار عمل أشياء من هذا القبيل ، النموذج الأضعف ، الذي يعتمد على الطاقة. لقد كنت أدافع عن هذا ، أيضًا ، منذ عقود ، لذلك هذا ليس شيئًا حديثًا. لكن في نفس الوقت ، التخلي عن فكرة النماذج التوليدية لأن هناك الكثير من الأشياء في العالم غير مفهومة ولا يمكن التنبؤ بها. إذا كنت مهندسًا ، فأنت تسميها ضوضاء. إذا كنت فيزيائيًا ، فأنت تسميها بالحرارة. وإذا كنت شخصًا يتعلم الآلة ، فأنت تسميه ، كما تعلم ، تفاصيل غير ذات صلة أو أيا كان.

لذا ، المثال الذي استخدمته في الورقة ، أو الذي استخدمته في المحادثات ، هو ، هل تريد نظامًا للتنبؤ بالعالم من شأنه أن يساعد في سيارة ذاتية القيادة ، أليس كذلك؟ إنه يريد أن يكون قادرًا على التنبؤ مسبقًا بمسارات جميع السيارات الأخرى ، وما الذي سيحدث للأشياء الأخرى التي قد تتحرك ، والمشاة ، والدراجات ، وطفل يركض خلف كرة قدم ، وأشياء من هذا القبيل. لذلك ، كل أنواع الأشياء عن العالم. لكن على حدود الطريق ، قد تكون هناك أشجار ، وهناك رياح اليوم ، لذا الأوراق تتحرك في مهب الريح ، وخلف الأشجار توجد بركة ، وهناك تموجات في البركة. وهذه ، في الأساس ، ظواهر غير متوقعة إلى حد كبير. وأنت لا تريد أن ينفق نموذجك قدرًا كبيرًا من الموارد على التنبؤ بتلك الأشياء التي يصعب التنبؤ بها وغير ذات صلة. لهذا السبب أنا أدافع عن بنية التضمين المشتركة ، تلك الأشياء حيث المتغير الذي تحاول نمذجته ، أنت لا تحاول التنبؤ به ، تحاول تصميمه ، لكنه يمر عبر مشفر ، و يمكن لبرنامج التشفير هذا التخلص من الكثير من التفاصيل حول المدخلات التي لا صلة لها بالموضوع أو معقدة للغاية - بشكل أساسي ، مكافئة للضوضاء.

زد نت: ناقشنا في وقت سابق من هذا العام النماذج القائمة على الطاقة ، JEPA و H-JEPA. إن إحساسي ، إذا فهمتك بشكل صحيح ، هو أنك تجد نقطة انخفاض الطاقة حيث يتشابه هذان التنبؤان لـ X و Y في حفلات الزفاف ، مما يعني أنه إذا كان هناك حمامة في شجرة في واحدة ، وهناك شيء ما في خلفية المشهد ، قد لا تكون هذه هي النقاط الأساسية التي تجعل حفلات الزفاف هذه قريبة من بعضها البعض.

ييل: الصحيح. لذلك ، تحاول بنية JEPA في الواقع إيجاد مفاضلة ، حل وسط ، بين استخراج التمثيلات التي تكون مفيدة للغاية حول المدخلات ولكن يمكن التنبؤ بها أيضًا من بعضها البعض بمستوى معين من الدقة أو الموثوقية. يجد مقايضة. لذلك ، إذا كان لديه الاختيار بين إنفاق قدر كبير من الموارد بما في ذلك تفاصيل حركة الأوراق ، ثم نمذجة الديناميكيات التي ستقرر كيفية تحرك الأوراق بعد ثانية من الآن ، أو مجرد إسقاط ذلك على الأرض من خلال مجرد تشغيل المتغير Y بشكل أساسي من خلال متنبئ يزيل كل تلك التفاصيل ، فمن المحتمل أنه سيقضي عليه لأنه من الصعب جدًا تصميمه والتقاطه.

زد نت: الشيء الوحيد الذي فاجأته هو أنك كنت مؤيدًا عظيمًا لقول "إنه يعمل ، سنكتشف لاحقًا نظرية الديناميكا الحرارية لشرحها." لقد اتبعت هنا مقاربة ، "لا أعرف كيف سنحل هذا الأمر بالضرورة ، لكني أريد طرح بعض الأفكار للتفكير في الأمر" ، وربما حتى الاقتراب من نظرية أو فرضية ، على الأقل. هذا مثير للاهتمام لأن هناك الكثير من الأشخاص ينفقون الكثير من المال في العمل على السيارة التي يمكنها رؤية المشاة بغض النظر عما إذا كانت السيارة تتمتع بالفطرة السليمة أم لا. وأتخيل أن بعض هؤلاء الأشخاص لن يتم إيقاف تشغيلهم ، لكنهم سيقولون ، "هذا جيد ، لا نهتم إذا لم يكن لديها الفطرة السليمة ، لقد قمنا ببناء محاكاة ، والمحاكاة رائعة ، وسنواصل التحسين ، وسنواصل توسيع نطاق المحاكاة ". 

ومن المثير للاهتمام أنك في وضع يسمح لك الآن بالقول ، دعنا نتراجع خطوة إلى الوراء ونفكر فيما نفعله. والصناعة تقول إننا سنقوم فقط بالتوسيع ، والنطاق ، والنطاق ، والنطاق ، لأن هذا الكرنك يعمل حقًا. أعني ، أن كرنك أشباه الموصلات لوحدات معالجة الرسومات يعمل حقًا.

ييل: هناك ، مثل ، خمسة أسئلة هناك. لذا ، أعني ، التحجيم ضروري. أنا لا أنتقد حقيقة أنه يجب علينا التوسع. يجب علينا القياس. تتحسن هذه الشبكات العصبية كلما كبرت. ليس هناك شك في أننا يجب أن نوسع. وتلك التي سيكون لديها مستوى معين من الفطرة ستكون كبيرة. لا توجد طريقة للتغلب على ذلك ، على ما أعتقد. لذا فإن القياس جيد ، إنه ضروري ، لكنه غير كافٍ. هذه هي النقطة التي أثيرها. إنه ليس مجرد توسيع نطاق. هذه هي النقطة الأولى. 

النقطة الثانية ، ما إذا كانت النظرية تأتي أولاً وأشياء من هذا القبيل. لذلك ، أعتقد أن هناك مفاهيم تأتي أولاً ، عليك أن تأخذ خطوة إلى الوراء وتقول ، حسنًا ، لقد بنينا هذا السلم ، لكننا نريد الذهاب إلى القمر ولا توجد طريقة يقودنا هذا السلم إلى هناك. إذن ، ما أكتبه هنا هو أننا نحتاج إلى صنع صواريخ. لا أستطيع أن أعطيكم تفاصيل عن كيفية صنعنا للصواريخ ، لكن ها هي المبادئ الأساسية. وأنا لا أكتب نظرية لها أو أي شيء آخر ، لكنها ستكون صاروخًا ، حسنًا؟ أو مصعد فضائي أو أيا كان. قد لا نمتلك كل التفاصيل الخاصة بكل التقنيات. نحاول أن نجعل بعض هذه الأشياء تعمل ، مثلما كنت أعمل على JEPA. يعمل التضمين المشترك جيدًا للتعرف على الصور ، ولكن لاستخدامه لتدريب نموذج عالمي ، هناك صعوبات. نحن نعمل على ذلك ، ونأمل أن نجعله يعمل soon، لكننا قد نواجه بعض العقبات التي لا يمكننا التغلب عليها ، ربما. 

ثم هناك فكرة أساسية في الورقة حول التفكير حيث إذا أردنا أن تكون الأنظمة قادرة على التخطيط ، والتي يمكنك التفكير فيها على أنها شكل بسيط من التفكير ، فإنها تحتاج إلى متغيرات كامنة. بعبارة أخرى ، الأشياء التي لم يتم حسابها بواسطة أي شبكة عصبية ولكن الأشياء - التي يتم استنتاج قيمتها لتقليل بعض الوظائف الموضوعية ، وبعض وظائف التكلفة. وبعد ذلك يمكنك استخدام دالة التكلفة هذه لتوجيه سلوك النظام. وهذه ليست فكرة جديدة على الإطلاق ، أليس كذلك؟ هذا هو التحكم الأمثل الكلاسيكي للغاية حيث يعود أساس ذلك إلى أواخر الخمسينيات وأوائل الستينيات. لذلك ، لا يدعي أي جديد هنا. لكن ما أقوله هو أن هذا النوع من الاستدلال يجب أن يكون جزءًا من نظام ذكي قادر على التخطيط ، ويمكن تحديد سلوكه أو التحكم فيه ليس من خلال سلوك متماسك ، وليس عن طريق تقليد الميول ، ولكن من خلال وظيفة موضوعية يقود السلوك - لا يقود التعلم ، بالضرورة ، لكنه يقود السلوك. كما تعلم ، لدينا ذلك في دماغنا ، ولكل حيوان تكلفة جوهرية أو دوافع داخلية للأشياء. هذا يدفع الأطفال بعمر تسعة أشهر إلى الوقوف. تكلفة أن تكون سعيدًا عند الوقوف ، هذا المصطلح في دالة التكلفة هو أمر صعب. لكن الطريقة التي تقف بها ليست كذلك ، هذا هو التعلم.

يان ليكون سبتمبر 2022-4

يقول LeCun عن نماذج اللغات العملاقة مثل البرامج المستندة إلى Transformer من مجموعة GPT-3: "القياس جيد ، إنه ضروري ، لكنه غير كاف". يعتقد محبو Transformer ، "نحن نضع كل شيء في شكل رمزي ، ونقوم بتدريب عملاقنماذج لعمل تنبؤات منفصلة ، وبطريقة ما سيخرج الذكاء الاصطناعي من هذا ... لكنني أعتقد أنه يفتقد لأجزاء أساسية ".

زد نت: فقط لتقريب هذه النقطة ، يبدو أن الكثير من مجتمع التعلم العميق على ما يرام في المضي قدمًا في شيء ليس له الحس السليم. يبدو أنك تقدم حجة واضحة هنا مفادها أنه في مرحلة ما يصبح الطريق مسدودًا. يقول بعض الناس أننا لسنا بحاجة إلى سيارة ذاتية القيادة بحس سليم لأن القياس سيفي بالغرض. يبدو أنك تقول أنه ليس من المقبول الاستمرار في السير على هذا الطريق؟

ييل: كما تعلم ، أعتقد أنه من الممكن تمامًا أن يكون لدينا المستوى الخامس من السيارات ذاتية القيادة بدون الفطرة السليمة. لكن المشكلة في هذا النهج ، ستكون مؤقتة ، لأنك ستضطر إلى هندسة الجحيم للخروج منه. لذا ، كما تعلم ، ارسم خريطة للعالم بأسره ، وقم بتوصيل جميع أنواع سلوك حالات الركن المحددة ، واجمع ما يكفي من البيانات التي لديك جميع المواقف الغريبة التي يمكن أن تواجهها على الطرق ، بلاه ، بلاه ، بلاه. وأعتقد أنه مع وجود استثمار ووقت كافيين ، يمكنك فقط هندسة الجحيم للخروج منه. لكن في النهاية ، سيكون هناك حل أكثر إرضاء وربما أفضل يتضمن أنظمة تقوم بعمل أفضل لفهم الطريقة التي يعمل بها العالم ، ولديها ، كما تعلمون ، مستوى معين مما يمكن أن نطلق عليه الفطرة السليمة. لا يحتاج الأمر إلى أن يكون الفطرة السليمة على مستوى الإنسان ، ولكن نوعًا من المعرفة يمكن أن يكتسبه النظام من خلال المشاهدة ، ولكن عدم مشاهدة شخص ما يقود سيارته ، فقط مشاهدة الأشياء تتحرك وفهم الكثير عن العالم ، وبناء أساس للخلفية معرفة كيفية عمل العالم ، وفوق ذلك يمكنك تعلم القيادة. 

اسمحوا لي أن آخذ مثالا تاريخيا على هذا. استندت رؤية الكمبيوتر الكلاسيكية إلى الكثير من الوحدات النمطية المصممة هندسيًا ، والتي سيكون لديك فوقها طبقة رقيقة من التعلم. لذا ، فإن الأشياء التي هزمت من قبل AlexNet في عام 2012 ، كانت في الأساس عبارة عن مرحلة أولى ، نوعًا من ، عمليات استخراج الميزات المصنوعة يدويًا ، مثل SIFTs [Scale-Invariant Feature Transform (SIFT) ، وهي تقنية رؤية كلاسيكية لتحديد الأشياء البارزة في الصورة] و HOG [الرسم البياني للتدرجات الموجهة ، تقنية كلاسيكية أخرى] وأشياء أخرى مختلفة. ثم الطبقة الثانية من الميزات ذات المستوى المتوسط ​​، الفرز من نوع ، استنادًا إلى نواة الميزة وأي شيء آخر ، ونوع من الأساليب غير الخاضعة للإشراف. وفوق كل ذلك ، تضع آلة متجه داعمة ، أو مصنِّفًا بسيطًا نسبيًا. وكان هذا نوعًا ما هو خط الأنابيب القياسي من منتصف العقد الأول من القرن الحادي والعشرين إلى عام 2000. وقد تم استبدال ذلك بشبكات تلافيفية من طرف إلى طرف ، حيث لم تقم بتوصيل أي من هذا ، فلديك فقط الكثير من البيانات ، وأنت تدرب الشيء من النهاية إلى النهاية ، وهو النهج الذي كنت أؤيده منذ فترة طويلة ، لكنك تعلم ، حتى ذلك الحين ، لم يكن عمليًا للمشكلات الكبيرة. 

كانت هناك قصة مماثلة في التعرف على الكلام حيث ، مرة أخرى ، كان هناك قدر هائل من الهندسة التفصيلية لكيفية معالجة البيانات مسبقًا ، واستخراج cepstrum على نطاق واسع [عكس تحويل فورييه السريع لمعالجة الإشارات] ، ثم لديك نماذج ماركوف المخفية ، مع نوع من الهندسة المعمارية المحددة مسبقًا ، بلاه ، بلاه ، بلاه ، مع مزيج من Gaussians. وبالتالي ، فهي تشبه إلى حد ما بنية الرؤية حيث قمت بصنع الواجهة الأمامية يدويًا ، ثم طبقة وسطى غير خاضعة للإشراف إلى حد ما ، ومدربة إلى حد ما ، ثم طبقة خاضعة للإشراف في الأعلى. والآن تم القضاء على ذلك ، بشكل أساسي ، بواسطة شبكات عصبية من طرف إلى طرف. لذلك أرى نوعًا ما شيئًا مشابهًا هناك لمحاولة تعلم كل شيء ، لكن يجب أن يكون لديك الحق في السابق ، الهندسة المعمارية الصحيحة ، الهيكل الصحيح.

يان ليكون سبتمبر 2022-5

حشد السيارات ذاتية القيادة ، الشركات الناشئة مثل Waymo و Wayve ، كانوا "متفائلين بعض الشيء" ، كما يقول ، من خلال التفكير في أنه يمكنهم "إلقاء البيانات عليها ، ويمكنك تعلم أي شيء إلى حد كبير". السيارات ذاتية القيادة في المستوى الخامس من أداس ممكنة ، "لكن عليك أن تهندس الجحيم للخروج منه" وستكون "هشة" مثل نماذج الرؤية الحاسوبية المبكرة.

زد نت: ما تقوله هو أن بعض الأشخاص سيحاولون هندسة ما لا يعمل حاليًا مع التعلم العميق من أجل التطبيق ، على سبيل المثال ، في الصناعة ، وسيبدأون في إنشاء شيء أصبح شيئًا قديمًا في رؤية الكمبيوتر؟

ييل: الصحيح. وهذا جزئيًا سبب تفاؤل الأشخاص الذين يعملون على القيادة الذاتية قليلاً خلال السنوات القليلة الماضية ، لأنه ، كما تعلمون ، لديك هذه الأشياء العامة مثل الشبكات التلافيفية والمحولات ، التي يمكنك إلقاء البيانات عليها ، ويمكن أن تتعلم أي شيء تقريبًا. لذا ، تقول ، حسنًا ، لدي الحل لهذه المشكلة. أول شيء تفعله هو إنشاء عرض توضيحي حيث تقود السيارة نفسها لبضع دقائق دون إيذاء أي شخص. وبعد ذلك تدرك أن هناك الكثير من حالات الركن ، وتحاول رسم منحنى إلى أي مدى أحصل على أفضل عندما أضاعف مجموعة التدريب ، وتدرك أنك لن تصل إلى هناك أبدًا لأن هناك جميع أنواع حالات الزاوية . وأنت بحاجة إلى سيارة تتسبب في وقوع حادث مميت أقل من كل 200 مليون كيلومتر ، أليس كذلك؟ اذن ماذا تفعل؟ حسنًا ، أنت تمشي في اتجاهين. 

الاتجاه الأول هو كيف يمكنني تقليل كمية البيانات الضرورية لنظامي للتعلم؟ وهنا يأتي دور التعلم تحت الإشراف الذاتي. لذلك ، يهتم الكثير من مجموعات السيارات ذاتية القيادة كثيرًا بالتعلم تحت الإشراف الذاتي لأن هذه طريقة لا تزال تستخدم كميات هائلة من البيانات الإشرافية لتعلم المحاكاة ، ولكن الحصول على أداء أفضل من خلال التدريب المسبق ، بشكل أساسي. وهي لم تنتهِ بعد ، لكنها ستفعل. ثم هناك الخيار الآخر ، الذي تبنته معظم الشركات الأكثر تقدمًا في هذه المرحلة ، وهو ، حسنًا ، يمكننا إجراء تدريب شامل ، ولكن هناك الكثير من الحالات الجانبية التي يمكننا ' t التعامل ، لذلك سنقوم فقط بهندسة الأنظمة التي ستهتم بحالات الركن تلك ، وبشكل أساسي ، التعامل معها كحالات خاصة ، والتحكم في الأسلاك ، ثم ربط الكثير من السلوك الأساسي للتعامل مع المواقف الخاصة. وإذا كان لديك فريق كبير بما يكفي من المهندسين ، فقد تنجح في ذلك. لكن الأمر سيستغرق وقتًا طويلاً ، وفي النهاية ، سيظل هشًا بعض الشيء ، وربما يمكن الاعتماد عليه بدرجة كافية بحيث يمكنك نشره ، ولكن بمستوى معين من الهشاشة ، والتي ، مع اتباع نهج قائم على التعلم قد يظهر في المستقبل ، لن تمتلك السيارات لأنه قد يكون لديها مستوى معين من الفطرة السليمة والفهم حول كيفية عمل العالم. 

على المدى القصير ، سينتصر النهج المصمم بطريقة هندسية - فهو يفوز بالفعل. هذا هو Waymo و Cruise في العالم و Wayveومهما يكن ، هذا ما يفعلونه. ثم هناك نهج التعلم تحت الإشراف الذاتي ، والذي من المحتمل أن يساعد النهج الهندسي على إحراز تقدم. ولكن بعد ذلك ، على المدى الطويل ، والذي قد يكون طويلاً للغاية بالنسبة لتلك الشركات التي تنتظرها ، من المحتمل أن يكون نوعًا ما نظام قيادة ذكيًا أكثر تكاملاً واستقلالية.

زد نت: نقول ما وراء أفق الاستثمار لمعظم المستثمرين.

ييل: هذا صحيح. لذا ، السؤال هو ، هل سيفقد الناس صبرهم أو ينفد المال قبل أن يصل الأداء إلى المستوى المطلوب.

زد نت: هل هناك أي شيء مثير للاهتمام يمكن قوله حول سبب اختيارك لبعض العناصر التي اخترتها في النموذج؟ لأنك تقتبس من كينيث كريك [1943 ،طبيعة التفسير] ، وأنت تستشهد بـ Bryson and Ho [1969 ، تطبيق التحكم الأمثل] ، ويساورني الفضول لمعرفة سبب بدءك بهذه التأثيرات ، إذا كنت تعتقد بشكل خاص أن هؤلاء الأشخاص قد سمروها بقدر ما فعلوا. لماذا بدأت هناك؟

ييل: حسنًا ، لا أعتقد ، بالتأكيد ، أنهم سمحوا بكل التفاصيل. إذن ، برايسون وهو ، هذا كتاب قرأته مرة أخرى في عام 1987 عندما كنت باحثًا في مرحلة ما بعد الدكتوراة مع جيفري هينتون في تورنتو. لكنني كنت أعرف عن هذا النوع من العمل مسبقًا عندما كنت أكتب رسالة الدكتوراه ، ووجدت الصلة بين التحكم الأمثل و backprop ، بشكل أساسي. إذا كنت تريد حقًا أن تكون ، كما تعلم ، شميدهوبر آخر ، فستقول أن المخترعين الحقيقيين لل backprop كانوا في الواقع منظري التحكم الأمثل هنري جي كيلي ، وآرثر برايسون ، وربما حتى ليف بونترياجين ، وهو المنظر الروسي للتحكم الأمثل بالعودة في أواخر الخمسينيات. 

لقد اكتشفوا ذلك ، وفي الواقع ، يمكنك بالفعل رؤية جذر هذا ، الرياضيات التي تحته ، هي ميكانيكا لاغرانج. لذا يمكنك العودة إلى أويلر ولاغرانج ، في الواقع ، وتجد نوعًا ما من هذا في تعريفهما لميكانيكا لاغرانج الكلاسيكية ، حقًا. لذلك ، في سياق التحكم الأمثل ، ما كان هؤلاء الرجال مهتمين به كان أساسًا حساب مسارات الصواريخ. كما تعلم ، كان هذا هو عصر الفضاء المبكر. وإذا كان لديك نموذج للصاروخ ، فإنه يخبرك هنا بحالة الصاروخ في الوقت المناسب t، وهذا هو الإجراء الذي سأقوم به ، لذا ، الدفع والمحركات من مختلف الأنواع ، ها هي حالة الصاروخ في الوقت المناسب t + 1.

زد نت: نموذج عمل الدولة ، نموذج القيمة.

ييل: هذا صحيح ، أساس السيطرة. لذا ، يمكنك الآن محاكاة إطلاق صاروخك عن طريق تخيل سلسلة من الأوامر ، ومن ثم لديك بعض وظائف التكلفة ، وهي مسافة الصاروخ إلى هدفه ، أو محطة فضائية أو أيًا كان. وبعد ذلك من خلال نوع من الانحدار المتدرج ، يمكنك معرفة كيف يمكنني تحديث تسلسل عملي بحيث يقترب صاروخي من الهدف قدر الإمكان. ويجب أن يأتي ذلك من خلال إشارات الانتشار العكسي في الوقت المناسب. وهذا هو الانتشار العكسي والانتشار الخلفي المتدرج. تسمى هذه الإشارات بالمتغيرات المقترنة في ميكانيكا لاغرانج ، لكنها في الحقيقة تدرجات. لذلك ، اخترعوا backprop ، لكنهم لم يدركوا أنه يمكن استخدام هذا المبدأ لتدريب نظام متعدد المراحل يمكنه التعرف على الأنماط أو شيء من هذا القبيل. لم يتحقق هذا حقًا حتى أواخر السبعينيات وأوائل الثمانينيات ، ثم لم يتم تنفيذه فعليًا وجعله يعمل حتى منتصف الثمانينيات. حسنًا ، هذا هو المكان الذي انطلق فيه backprop حقًا ، نوعًا ما ، لأن الناس أظهروا هنا بضعة أسطر من التعليمات البرمجية التي يمكنك تدريب شبكة عصبية ، من البداية إلى النهاية ، متعددة الطبقات. وهذا يرفع حدود Perceptron. نعم ، هناك اتصالات بتحكم مثالي ، لكن هذا جيد.

زد نت: إذن ، هذه طريقة طويلة للقول أن هذه التأثيرات التي بدأت بها كانت تعود إلى backprop ، وكان ذلك مهمًا كنقطة انطلاق بالنسبة لك؟

ييل: نعم ، لكني أعتقد أن ما نسيه الناس قليلاً ، كان هناك قدر كبير من العمل على هذا ، كما تعلمون ، في التسعينيات أو حتى الثمانينيات ، بما في ذلك من قبل أشخاص مثل مايكل جوردان [MIT Dept. of Brain و Cognitive Sciences] وأشخاص مثل هؤلاء الذين لم يعودوا يعملون شبكات عصبية بعد الآن ، ولكن فكرة أنه يمكنك استخدام الشبكات العصبية للتحكم ، ويمكنك استخدام الأفكار الكلاسيكية للتحكم الأمثل. لذلك ، أشياء مثل ما يسمى بالتحكم التنبئي بالنموذج ، ما يسمى الآن بالتحكم التنبئي بالنموذج ، هذه الفكرة أنه يمكنك محاكاة أو تخيل نتيجة سلسلة من الإجراءات إذا كان لديك نموذج جيد للنظام الذي تحاول التحكم فيه والبيئة التي توجد فيها. وبعد ذلك عن طريق النسب المتدرج ، بشكل أساسي - هذا ليس تعلمًا ، هذا استنتاج - يمكنك معرفة أفضل تسلسل للإجراءات التي ستقلل من هدفي. لذا ، فإن استخدام دالة التكلفة مع متغير كامن للاستدلال هو ، على ما أعتقد ، شيء نسيته المحاصيل الحالية للشبكات العصبية واسعة النطاق. لكنها كانت مكونًا كلاسيكيًا جدًا للتعلم الآلي لفترة طويلة. لذلك ، استخدم كل نموذج بايزي أو نموذج رسومي أو نموذج رسومي احتمالي هذا النوع من الاستدلال. لديك نموذج يلتقط التبعيات بين مجموعة من المتغيرات ، ويتم إخبارك بقيمة بعض المتغيرات ، ومن ثم يتعين عليك استنتاج القيمة الأكثر احتمالًا لبقية المتغيرات. هذا هو المبدأ الأساسي للاستدلال في النماذج الرسومية وشبكات Bayesian ، وأشياء من هذا القبيل. وأعتقد أن هذا هو الأساس الذي يجب أن يدور حوله المنطق والتفكير والتخطيط.

زد نت: أنت خزانة بايزي.

ييل: أنا شخص بايزي غير احتمالي. لقد جعلت تلك النكتة من قبل. كنت في الواقع في NeurIPS منذ بضع سنوات ، وأعتقد أن ذلك كان في 2018 أو 2019 ، وقد التقطني شخص بايزي على شريط فيديو سألني إذا كنت بايزي ، وقلت ، نعم ، أنا بايزي ، لكنني أنا بايزي غير احتمالي ، نوعا ما ، بايزي قائم على الطاقة ، إذا كنت تريد. 

زد نت: الذي يبدو بالتأكيد وكأنه شيء من ستار تريك. ذكرت في نهاية هذه الورقة ، أن الأمر سيستغرق سنوات من العمل الشاق حقًا لتحقيق ما تتصوره. أخبرني عما يتكون منه بعض هذا العمل في الوقت الحالي.

ييل: لذا ، أشرح كيف تتدرب وتبني JEPA في الورقة. والمعيار الذي أدافع عنه هو وجود طريقة ما لتعظيم محتوى المعلومات الذي تحتويه التمثيلات المستخرجة حول المدخلات. ثم الثاني هو التقليل من خطأ التنبؤ. وإذا كان لديك متغير كامن في المتنبئ والذي يسمح للمتنبئ بأن يكون غير حتمي ، فيجب عليك تنظيم هذا المتغير الكامن أيضًا عن طريق تقليل محتوى المعلومات الخاص به. إذن ، لديك مشكلتان الآن ، وهما كيفية تعظيم محتوى المعلومات لمخرجات بعض الشبكات العصبية ، والآخر هو كيف يمكنك تقليل محتوى المعلومات لبعض المتغيرات الكامنة؟ وإذا لم تفعل هذين الأمرين ، فسوف ينهار النظام. لن تتعلم أي شيء مثير للاهتمام. سوف يعطي طاقة صفرية لكل شيء ، شيء من هذا القبيل ، وهو ليس نموذجًا جيدًا للتبعية. إنها مشكلة منع الانهيار التي أذكرها. 

وأنا أقول عن كل الأشياء التي فعلها الناس على الإطلاق ، هناك فئتان فقط من الأساليب لمنع الانهيار. أحدهما طرق تباينية ، والآخر هو تلك الطرق المنتظمة. لذلك ، فإن فكرة تعظيم محتوى المعلومات لتمثيل المدخلين وتقليل محتوى المعلومات للمتغير الكامن ، الذي ينتمي إلى الأساليب المنظمة. لكن الكثير من العمل في معماريات التضمين المشتركة تلك تستخدم طرقًا تباينية. في الواقع ، هم على الأرجح الأكثر شعبية في الوقت الحالي. إذن ، السؤال هو بالضبط كيف تقيس محتوى المعلومات بطريقة يمكنك تحسينها أو تقليلها؟ وهنا تصبح الأمور معقدة لأننا لا نعرف في الواقع كيفية قياس محتوى المعلومات. يمكننا تقريبه ، يمكننا تقييده ، يمكننا القيام بأشياء من هذا القبيل. لكنهم لا يقيسون في الواقع محتوى المعلومات ، والذي ، في الواقع ، إلى حد ما غير محدد جيدًا.

زد نت: هذا ليس قانون شانون؟ إنها ليست نظرية معلومات؟ لديك قدر معين من الانتروبيا ، والأنتروبيا الجيدة ، والأنتروبيا السيئة ، والنتروبيا الجيدة هي نظام رموز يعمل ، والنتروبيا السيئة هي الضوضاء. ألا يتم حلها بالكامل بواسطة شانون؟

ييل: أنت على حق ، لكن هناك عيبًا كبيرًا وراء ذلك. أنت محق بمعنى أنه إذا كانت لديك بيانات قادمة إليك ويمكنك بطريقة ما تقسيم البيانات إلى رموز منفصلة ، ثم تقيس احتمالية كل من هذه الرموز ، فإن الحد الأقصى من المعلومات التي تحملها هذه الرموز هو جمع على الرموز المحتملة لـ Pi سجل Pi، حقا؟ أين Pi هو احتمال الرمز أنا - هذا هو إنتروبيا شانون. [قانون شانون تتم صياغته بشكل عام على أنه H = - ∑ pi log pi.]

هنا تكمن المشكلة ، على الرغم من: ما هو Pi؟ يكون الأمر سهلاً عندما يكون عدد الرموز صغيرًا ويتم رسم الرموز بشكل مستقل. عندما يكون هناك العديد من الرموز والتبعيات ، يكون الأمر صعبًا للغاية. لذلك ، إذا كان لديك سلسلة من البتات وتفترض أن البتات مستقلة عن بعضها البعض وأن الاحتمال متساوٍ بين واحد وصفر أو أي شيء آخر ، فيمكنك بسهولة قياس الانتروبيا ، ولا توجد مشكلة. ولكن إذا كانت الأشياء التي تأتي إليك عبارة عن نواقل عالية الأبعاد ، مثل ، كما تعلم ، إطارات البيانات ، أو شيء من هذا القبيل ، فما هو Pi؟ ما هو التوزيع؟ أولا عليك أن تكمم هذا الفضاء ، وهو فضاء متواصل عالي الأبعاد. ليس لديك فكرة عن كيفية تحديد هذا بشكل صحيح. يمكنك استخدام الوسائل k ، إلخ. هذا ما يفعله الأشخاص عندما يقومون بضغط الفيديو وضغط الصور. لكنها تقريبية فقط. ومن ثم عليك أن تضع افتراضات بشأن الاستقلال. لذلك ، من الواضح أن الإطارات المتتالية في الفيديو ليست مستقلة. هناك تبعيات ، وقد يعتمد هذا الإطار على إطار آخر رأيته قبل ساعة ، والذي كان صورة لنفس الشيء. لذا ، كما تعلم ، لا يمكنك القياس Pi. لقياس Pi، يجب أن يكون لديك نظام تعلم آلي يتعلم التنبؤ. وهكذا عدت إلى المشكلة السابقة. لذلك ، يمكنك فقط تقريب مقياس المعلومات بشكل أساسي. 

يان ليكون سبتمبر 2022-6

"السؤال هو بالضبط كيف تقيس محتوى المعلومات بطريقة يمكنك تحسينها أو تقليلها؟" يقول LeCun. "وهذا هو المكان الذي تصبح فيه الأمور معقدة لأننا لا نعرف في الواقع كيفية قياس محتوى المعلومات." أفضل ما يمكن القيام به حتى الآن هو العثور على وكيل "جيد بما يكفي للمهمة التي نريدها".

اسمحوا لي أن آخذ مثالا أكثر واقعية. إحدى الخوارزمية التي كنا نلعب بها ، والتي تحدثت عنها في المقالة ، هي هذا الشيء المسمى VICReg ، تنظيم التباين - الثبات - التغاير. إنه في ورقة منفصلة تم نشرها في ICLR ، و تم وضعه على arXiv قبل حوالي عام ، 2021. والفكرة هناك تعظيم المعلومات. وقد جاءت الفكرة بالفعل من ورقة بحثية سابقة قدمتها مجموعتي تسمى التوائم بارلو. أنت تعظم محتوى معلومات ناقل يخرج من شبكة عصبية ، بشكل أساسي ، بافتراض أن التبعية الوحيدة بين المتغيرات هي الارتباط ، التبعية الخطية. لذلك ، إذا افترضت أن التبعية الوحيدة الممكنة بين أزواج من المتغيرات ، أو بين المتغيرات في نظامك ، هي الارتباطات بين أزواج من الأشياء الثمينة ، وهو تقريب تقريبي للغاية ، فيمكنك زيادة محتوى المعلومات الخارج من نظامك إلى أقصى حد من خلال التأكد من أن جميع المتغيرات لها تباين غير صفري - دعنا نقول ، التباين واحد ، لا يهم ما هو - ثم ربطها مرة أخرى ، نفس العملية التي تسمى التبييض ، فهي ليست جديدة أيضًا. تكمن المشكلة في هذا في أنه يمكن أن يكون لديك تبعيات معقدة للغاية بين أي من مجموعات المتغيرات أو حتى مجرد أزواج من المتغيرات التي ليست تبعيات خطية ، ولا تظهر في الارتباطات. لذا ، على سبيل المثال ، إذا كان لديك متغيرين ، وجميع نقاط هذين المتغيرين تصطف في شكل حلزوني ما ، فهناك تبعية قوية للغاية بين هذين المتغيرين ، أليس كذلك؟ لكن في الواقع ، إذا قمت بحساب الارتباط بين هذين المتغيرين ، فإنهما غير مرتبطين. إذن ، هذا مثال حيث يكون محتوى المعلومات لهذين المتغيرين صغيرًا جدًا في الواقع ، إنها كمية واحدة فقط لأنها موضعك في اللولب. إنهم غير مترابطين ، لذلك تعتقد أن لديك الكثير من المعلومات التي تخرج من هذين المتغيرين بينما في الواقع لا يمكنك ذلك ، لديك فقط ، كما تعلم ، يمكنك التنبؤ بأحد المتغيرات من الآخر ، بشكل أساسي. لذلك ، هذا يدل على أن لدينا طرقًا تقريبية جدًا لقياس محتوى المعلومات.

زد نت: وهذا أحد الأشياء التي يجب أن تعمل عليها الآن مع هذا؟ هذا هو السؤال الأكبر حول كيف نعرف متى نقوم بتعظيم وتقليل محتوى المعلومات؟

ييل:  أو ما إذا كان الوكيل الذي نستخدمه لهذا الأمر جيدًا بما يكفي للمهمة التي نريدها. في الواقع ، نحن نفعل هذا طوال الوقت في التعلم الآلي. وظائف التكلفة التي نقوم بتقليلها ليست هي الوظائف التي نريد بالفعل تقليلها. لذا ، على سبيل المثال ، تريد التصنيف ، حسنًا؟ وظيفة التكلفة التي تريد تقليلها عند تدريب المصنف هي عدد الأخطاء التي يرتكبها المصنف. لكن هذه دالة تكلفة رهيبة غير قابلة للتفاضل ولا يمكنك تقليلها لأنك تعلم أنك ستغير أوزان شبكتك العصبية ، فلن يتغير شيء حتى قلبت إحدى هذه العينات قرارها ، ثم قفزة في الخطأ ، موجب أو سلبي.

زد نت: إذن لديك وكيل وهو وظيفة موضوعية يمكنك القول بالتأكيد ، يمكننا بالتأكيد تدفق تدرجات هذا الشيء.

ييل: هذا صحيح. لذلك يستخدم الناس هذه الخسارة عبر الانتروبيا ، أو SOFTMAX ، لديك عدة أسماء لها ، لكنها نفس الشيء. وهو في الأساس تقريب سلس لعدد الأخطاء التي يرتكبها النظام ، حيث يتم التسوية ، بشكل أساسي ، مع مراعاة الدرجة التي يعطيها النظام لكل فئة من الفئات.

زد نت: هل هناك أي شيء لم نقم بتغطيته وتريد تغطيته؟

ييل: ربما يؤكد على النقاط الرئيسية. أعتقد أن أنظمة الذكاء الاصطناعي بحاجة إلى أن تكون قادرة على التفكير ، والعملية الخاصة بذلك التي أدافع عنها هي تقليل بعض الأهداف فيما يتعلق ببعض المتغيرات الكامنة. هذا يسمح للأنظمة بالتخطيط والعقل. أعتقد أننا يجب أن نتخلى عن إطار العمل الاحتمالي لأنه صعب الحل عندما نريد القيام بأشياء مثل التقاط التبعيات بين المتغيرات المستمرة عالية الأبعاد. وأنا أدعو إلى التخلي عن النماذج التوليدية لأن النظام سيضطر إلى تخصيص الكثير من الموارد للتنبؤ بالأشياء التي يصعب التنبؤ بها وربما تستهلك الكثير من الموارد. وهذا كل ما في الأمر. هذه هي الرسائل الرئيسية ، إذا كنت تريد. ثم العمارة الشاملة. ثم هناك تلك التكهنات حول طبيعة الوعي ودور المُكوِّن ، لكن هذا في الحقيقة تخمين.

زد نت: سنصل إلى ذلك في المرة القادمة. كنت أسألك ، كيف تقيس هذا الشيء؟ لكن أعتقد أنك أبعد قليلاً عن القياس الآن؟

ييل: ليس بالضرورة أن يكون ذلك بعيدًا في الإصدارات المبسطة. يمكنك أن تفعل ما يفعله الجميع في التحكم أو التعلم المعزز ، وهو تدريب الشيء على لعب ألعاب أتاري أو شيء من هذا القبيل أو بعض الألعاب الأخرى التي لديها بعض عدم اليقين فيها.

زد نت: شكرا على وقتك ، يان.

مصدر