LeCun، استاد هوش مصنوعی متا: بیشتر رویکردهای هوش مصنوعی امروزی هرگز به هوش واقعی منتهی نمی‌شوند

yann-lecun-sept-2022-1

Yann LeCun، دانشمند ارشد هوش مصنوعی متا می‌گوید: «من فکر می‌کنم سیستم‌های هوش مصنوعی باید بتوانند استدلال کنند. رویکردهای رایج هوش مصنوعی امروزی مانند Transformers که بسیاری از آنها بر اساس کار پیشگامانه خود او در این زمینه بنا شده اند، کافی نخواهند بود. لیکان می گوید: "شما باید یک قدم به عقب بردارید و بگویید، خوب، ما این نردبان را ساختیم، اما می خواهیم به ماه برویم، و هیچ راهی وجود ندارد که این نردبان ما را به آنجا برساند."

یان لیکان، دانشمند ارشد هوش مصنوعی Meta Properties، صاحب فیس‌بوک، اینستاگرام و واتس‌اپ، احتمالاً افراد زیادی را در حوزه کاری خود انتخاب می‌کند. 

با ارسال در ماه ژوئن یک قطعه فکر در سرور بازبینیLeCun یک مرور کلی از رویکردی ارائه کرد که فکر می‌کند نویدبخش دستیابی به هوش در سطح انسان در ماشین‌ها است. 

اگر در مقاله بیان نشده باشد، این ادعا وجود دارد که اکثر پروژه های بزرگ امروزی در هوش مصنوعی هرگز نمی توانند به آن هدف در سطح انسانی برسند.

در گفتگوی این ماه با ZDNet LeCun از طریق Zoom روشن کرد که با شک و تردید فراوان به بسیاری از موفق ترین راه های تحقیق در زمینه یادگیری عمیق در حال حاضر نگاه می کند.

برنده جایزه تورینگ گفت: "من فکر می کنم آنها ضروری هستند اما کافی نیستند." ZDNet از پیگیری های همسالانش 

اینها شامل مدل های زبان بزرگ مانند GPT-3 مبتنی بر ترانسفورماتور و مشابه آنها می شود. همانطور که LeCun آن را توصیف می کند، طرفداران Transformer معتقدند: "ما همه چیز را نشانه گذاری می کنیم و غول پیکر تمرین می کنیم.مدل‌هایی برای پیش‌بینی‌های گسسته، و به نوعی هوش مصنوعی از آن بیرون خواهد آمد.»

او می‌گوید: «آنها اشتباه نمی‌کنند، به این معنا که ممکن است این جزء یک سیستم هوشمند آینده باشد، اما من فکر می‌کنم که قطعات ضروری را از دست داده است.»

بنابراین: LeCun، درخشان هوش مصنوعی متا، مرز انرژی یادگیری عمیق را بررسی می کند

این یک انتقاد شگفت‌انگیز از آنچه به نظر می‌رسد از سوی محققی است که استفاده از شبکه‌های عصبی کانولوشنال را به کمال رساند، تکنیکی عملی که در برنامه‌های یادگیری عمیق فوق‌العاده سازنده بوده است. 

LeCun نقص ها و محدودیت ها را در بسیاری از زمینه های بسیار موفق دیگر این رشته می بیند. 

او معتقد است که یادگیری تقویتی نیز هرگز کافی نخواهد بود. محققانی مانند دیوید سیلور از DeepMind، که برنامه AlphaZero را توسعه داد که به شطرنج، شوگی و گو تسلط داشت، بر برنامه‌هایی تمرکز می‌کنند که «بسیار مبتنی بر اکشن» هستند، لیکان می‌گوید: «بیشتر یادگیری‌هایی که انجام می‌دهیم، ما انجام نمی‌دهیم. آن را با انجام عملی انجام دهید، ما آن را با مشاهده انجام می دهیم.» 

لکون، 62 ساله، از منظر چندین دهه دستاورد، با این وجود ابراز اضطرار می کند که با آنچه که فکر می کند راه های کوری است که ممکن است بسیاری به سمت آن هجوم ببرند، مقابله کند و تلاش کند رشته خود را در مسیری که فکر می کند همه چیز باید پیش برود، ترغیب کند. 

او می‌گوید: «ما ادعاهای زیادی را می‌بینیم که چه کاری باید انجام دهیم تا به سمت هوش مصنوعی در سطح انسانی پیش برویم. "و ایده هایی وجود دارد که به نظر من اشتباه است."

لکون می‌گوید: «ما در حدی نیستیم که ماشین‌های هوشمند ما به اندازه یک گربه عقل سلیم داشته باشند. "پس، چرا ما از آنجا شروع نمی کنیم؟" 

او اعتقاد قبلی خود را به استفاده از شبکه های مولد در مواردی مانند پیش بینی فریم بعدی در یک ویدیو رها کرده است. او می گوید: «این یک شکست کامل بوده است. 

لیکان کسانی را که او آنها را «احتمال‌گرایان مذهبی» می‌خواند، که «تئوری احتمالات را تنها چارچوبی می‌دانند که می‌توانید برای توضیح یادگیری ماشینی استفاده کنید، مورد انتقاد قرار می‌دهد». 

او می گوید که رویکرد صرفاً آماری غیرقابل حل است. «این خیلی زیاد است که بخواهیم یک مدل جهانی کاملاً احتمالی باشد. ما نمی دانیم چگونه این کار را انجام دهیم.»

LeCun استدلال می کند که نه تنها دانشگاهیان، بلکه هوش مصنوعی صنعتی نیز نیاز به بازاندیشی عمیق دارد. او می‌گوید که جمعیت خودروهای خودران، استارت‌آپ‌هایی مانند Wayve، «کمی بیش از حد خوش‌بین» بوده‌اند و فکر می‌کنند که می‌توانند «داده‌ها» را به شبکه‌های عصبی بزرگ «پرتاب کنند و شما تقریباً هر چیزی را می‌توانید یاد بگیرید».

او با اشاره به «ADAS» می‌گوید: «می‌دانید، من فکر می‌کنم کاملاً ممکن است که ما خودروهای خودران سطح پنج بدون عقل سلیم داشته باشیم. سیستم پیشرفته کمک راننده شرایط برای خودرانی، "اما شما مجبور خواهید بود که این کار را مهندسی کنید."

او معتقد است که چنین فناوری خودراننده بیش از حد مهندسی شده چیزی به اندازه تمام برنامه‌های بینایی رایانه‌ای که با یادگیری عمیق منسوخ شده‌اند، ترش‌کننده و شکننده خواهد بود.

در نهایت، راه حل رضایت‌بخش‌تر و احتمالاً بهتری وجود خواهد داشت که شامل سیستم‌هایی می‌شود که کار بهتری در درک نحوه کار جهان انجام می‌دهند.»

در طول مسیر، لکان دیدگاه‌های پژمرده‌ای را از بزرگترین منتقدان خود، مانند گری مارکوس، استاد دانشگاه نیویورک - «او هرگز به هوش مصنوعی کمک نکرده است» - و یورگن اشمیدهابر، یکی از مدیران مؤسسه تحقیقات هوش مصنوعی Dalle Molle ارائه می‌کند - «این کاشت پرچم بسیار آسان است.

فراتر از نقدها، نکته مهم‌تری که LeCun بیان کرد این است که برخی از مشکلات اساسی با تمام هوش مصنوعی، به‌ویژه نحوه اندازه‌گیری اطلاعات مواجه است.

لیکان در مورد تمایل خود به بازاندیشی می گوید: "شما باید یک قدم به عقب بردارید و بگویید، خوب، ما این نردبان را ساختیم، اما می خواهیم به ماه برویم، و هیچ راهی وجود ندارد که این نردبان ما را به آنجا برساند." از مفاهیم اساسی اساساً چیزی که من اینجا می نویسم این است که ما باید موشک بسازیم، نمی توانم جزئیاتی در مورد نحوه ساخت موشک به شما بدهم، اما در اینجا اصول اولیه وجود دارد.

این مقاله و افکار لیکان در مصاحبه را می توان با خواندن مصاحبه لکان در اوایل سال جاری بهتر درک کرد. ZDNet که در آن او برای یادگیری خود نظارتی مبتنی بر انرژی به عنوان مسیری رو به جلو برای یادگیری عمیق استدلال می کند. آن تأملات حسی از رویکرد اصلی به آنچه او امیدوار است به عنوان جایگزینی برای چیزهایی که ادعا می کند به خط پایان نمی رسد بسازد، می دهد. 

آنچه در ادامه می آید متن مصاحبه با ویرایش اندکی است.

ZDNet: موضوع گفتگوی ما این مقاله است، "مسیری به سوی هوش ماشینی خودمختار"، بله، کدام نسخه 0.9.2 نسخه موجود است؟

یان لکون: بله، من این را یک سند کاری می دانم. بنابراین، من آن را در Open Review پست کردم، منتظر نظرات و پیشنهادات، شاید منابع اضافی، و سپس نسخه اصلاح شده آن هستم. 

ZDNet: من می بینم که یورگن اشمیدهابر قبلاً نظراتی را به Open Review اضافه کرده است.

YL: خوب، بله، او همیشه این کار را می کند. من در مقاله خود به یکی از مقالات او اشاره می کنم. من فکر می‌کنم استدلال‌هایی که او در شبکه‌های اجتماعی مطرح کرد مبنی بر اینکه اساساً همه اینها را در سال 1991 اختراع کرده است، همانطور که در موارد دیگر انجام داده است، اینطور نیست. منظورم این است که انجام آن بسیار آسان استکاشت پرچم، و به نوعی، ایده ای را بدون هیچ آزمایشی، بدون هیچ نظریه ای بنویسید، فقط پیشنهاد کنید که می توانید این کار را به این طریق انجام دهید. اما، می دانید، تفاوت بزرگی بین داشتن ایده، و سپس وادار کردن آن به کار بر روی یک مشکل اسباب بازی، و سپس انجام دادن یک نظریه که نشان می دهد چرا کار می کند، وجود دارد، و سپس استقرار آن یک زنجیره کامل وجود دارد، و ایده او از اعتبار علمی این است که این اولین کسی است که به نوعی، می دانید، ایده آن را داشت، که باید تمام اعتبار را به دست آورد. و این مسخره است. 

ZDNet: هر چیزی که در شبکه های اجتماعی می شنوید را باور نکنید. 

YL: منظورم این است که مقاله اصلی که او می گوید من باید استناد کنم هیچ یک از ایده های اصلی را که من در مورد آن صحبت می کنم ندارد. او این کار را با GAN و چیزهای دیگر نیز انجام داده است که درست نبود. کاشت پرچم آسان است، کمک کردن بسیار دشوارتر است. و اتفاقاً در این مقاله خاص، من به صراحت گفتم که این یک مقاله علمی به معنای معمول کلمه نیست. این بیشتر یک مقاله موضعی در مورد اینکه این چیز باید به کجا برسد است. و چند ایده وجود دارد که ممکن است جدید باشند، اما بیشتر آنها اینطور نیستند. اساساً من ادعای هیچ اولویتی برای بیشتر آنچه در آن مقاله نوشتم ندارم.

yann-lecun-sept-2022-2

LeCun معتقد است که یادگیری تقویتی نیز هرگز کافی نخواهد بود. محققینی مانند دیوید سیلور از DeepMind، که برنامه AlphaZero را توسعه دادند که به شطرنج، شوگی و گو تسلط داشت، "بسیار مبتنی بر اکشن" هستند، LeCun می‌گوید: "بیشتر یادگیری‌هایی که انجام می‌دهیم، آن را با استفاده واقعی انجام نمی‌دهیم. اعمال، ما آن را با مشاهده انجام می دهیم.» 

ZDNet: و شاید این مکان خوبی برای شروع باشد، زیرا کنجکاو هستم که چرا اکنون این مسیر را دنبال کردید؟ چه شد که در این مورد فکر کردی؟ چرا می خواستی این را بنویسی؟

YL: خوب، بنابراین، من مدت زیادی است که به این موضوع فکر می کنم، در مورد مسیری به سوی هوش یا یادگیری و توانایی های سطح انسان یا حیوان. و در صحبت‌هایم درباره این موضوع کاملاً پر سر و صدا بوده‌ام که هم یادگیری تحت نظارت و هم یادگیری تقویتی برای تقلید از نوع یادگیری که در حیوانات و انسان‌ها مشاهده می‌کنیم کافی نیستند. من حدود هفت هشت سال است که این کار را انجام می دهم. بنابراین، جدید نیست. من سال ها پیش در NeurIPS یک سخنرانی کلیدی داشتم که در آن به این نکته اشاره کردم، اساسا، و صحبت های مختلف، ضبط شده وجود دارد. حالا چرا مقاله بنویسید؟ من به این نکته رسیدم - جف هینتون [محقق مغز گوگل] کاری مشابه انجام داده بود - منظورم این است که مطمئناً او بیش از من، ما زمان رو به پایان می بینیم. ما جوان نیستیم

ZDNet: شصت پنجاه جدید است. 

YL: این درست است، اما نکته اینجاست که ما ادعاهای زیادی را می بینیم که چه کاری باید انجام دهیم تا به سمت سطح انسانی هوش مصنوعی پیش برویم. و ایده هایی وجود دارد که فکر می کنم به اشتباه هدایت می شوند. بنابراین، یک ایده این است، اوه، ما فقط باید استدلال نمادین را در بالای شبکه های عصبی اضافه کنیم. و من نمی دانم چگونه این کار را انجام دهم. بنابراین، شاید آنچه در مقاله توضیح دادم ممکن است رویکردی باشد که همان کار را بدون دستکاری نمادهای صریح انجام دهد. این همان گری مارکوسس سنتی جهان است. گری مارکوس یک فرد هوش مصنوعی نیست، اتفاقاً او یک روانشناس است. او هرگز به هوش مصنوعی کمک نکرده است. او در روانشناسی تجربی کار بسیار خوبی انجام داده است، اما هرگز مقاله ای در مورد هوش مصنوعی ننوشته است. بنابراین، آن افراد وجود دارند. 

دیوید سیلورز، [دانشمند پژوهشی اصلی DeepMind] از جهان است که می گوید، می دانید، پاداش کافی است، اساساً همه چیز در مورد یادگیری تقویتی است، ما فقط باید آن را کمی کارآمدتر کنیم، خوب؟ و، فکر می‌کنم آنها اشتباه نمی‌کنند، اما فکر می‌کنم گام‌های لازم برای کارآمدتر کردن یادگیری تقویتی، اساساً یادگیری تقویتی را به نوعی گیلاس روی کیک کاهش می‌دهد. و بخش اصلی گمشده، یادگیری نحوه عملکرد جهان است، عمدتاً با مشاهده بدون عمل. یادگیری تقویتی بسیار مبتنی بر عمل است، شما با انجام اقدامات و دیدن نتایج، چیزهایی در مورد جهان یاد می گیرید.

ZDNet: و بر پاداش متمرکز است.

YL: این بر پاداش متمرکز است، و همچنین متمرکز بر عمل است. بنابراین، شما باید در جهان عمل کنید تا بتوانید چیزی در مورد جهان بیاموزید. و ادعای اصلی من در مقاله در مورد یادگیری خود نظارتی این است که بیشتر یادگیری هایی که انجام می دهیم، آن را با انجام عملی انجام نمی دهیم، بلکه با مشاهده انجام می دهیم. و این بسیار نامتعارف است، هم برای تقویت افراد یادگیرنده، به ویژه، بلکه برای بسیاری از روانشناسان و دانشمندان علوم شناختی که فکر می کنند، می دانید، عمل است - من نمی گویم عمل ضروری نیست، بلکه is ضروری است. اما من فکر می‌کنم بخش عمده‌ای از چیزهایی که یاد می‌گیریم بیشتر در مورد ساختار جهان است و البته شامل تعامل و کنش و بازی و مواردی از این دست است، اما بسیاری از آن‌ها مشاهده‌ای هستند.

ZDNet: همچنین می‌توانید همزمان افراد Transformer، افرادی که زبان اول هستند را علامت بزنید. چگونه می توانید این را بدون زبان اول بسازید؟ ممکن است بتوانید افراد زیادی را تیک بزنید. 

YL: آره من عادت دارم بنابراین، بله، افراد اول زبان هستند، که می‌گویند، می‌دانید، هوش در مورد زبان است، زیرلایه هوش زبان است، بل، بل، بل، بلا. اما این به نوعی هوش حیوانات را رد می کند. می دانید، ما به آن نقطه ای نیستیم که ماشین های هوشمند ما به اندازه یک گربه عقل سلیم داشته باشند. پس چرا از آنجا شروع نکنیم؟ چه چیزی به یک گربه اجازه می دهد تا دنیای اطراف را درک کند، کارهای بسیار هوشمندانه انجام دهد و برنامه ریزی کند و از این قبیل چیزها، و سگ ها حتی بهتر؟ 

بعد همه کسانی هستند که می گویند، اوه، هوش یک چیز اجتماعی است، درست است؟ ما باهوشیم چون با هم صحبت می کنیم و اطلاعات را رد و بدل می کنیم، و بلا، بل، بلا. انواع و اقسام گونه های غیراجتماعی وجود دارند که هرگز والدین خود را که بسیار باهوش هستند، مانند اختاپوس یا اورانگوتان ملاقات نمی کنند.منظورم این است که آنها [اورانگوتان ها] مطمئناً توسط مادرشان آموزش دیده اند، اما آنها حیوانات اجتماعی نیستند. 

اما دسته دیگری از افرادی که ممکن است آنها را علامت بزنم افرادی هستند که می گویند مقیاس بندی کافی است. بنابراین، اساسا، ما فقط از ترانسفورماتورهای غول پیکر استفاده می کنیم، آنها را بر روی داده های چندوجهی آموزش می دهیم که شامل ویدئو، متن، بلا، بلا، بلا، می شود. ما به نوعی متحجر می شویمهمه چیز، و نشانه گذاری همه چیز، و سپس آموزش غول پیکرمدل هایی برای پیش بینی های گسسته، اساسا، و به نحوی AI از این پدیدار خواهد شد. آنها اشتباه نمی کنند، به این معنا که ممکن است جزء یک سیستم هوشمند آینده باشد. اما فکر می‌کنم قطعات ضروری را از دست داده است. 

دسته دیگری از افراد وجود دارد که من با این مقاله تیک می زنم. و این احتمال گرایان، احتمال گرایان مذهبی هستند. بنابراین، افرادی که فکر می کنند نظریه احتمال تنها چارچوبی است که می توانید برای توضیح یادگیری ماشین استفاده کنید. و همانطور که سعی کردم در قطعه توضیح دهم، اساساً درخواست برای یک مدل جهانی که کاملاً احتمالی باشد بیش از حد است. ما نمی دانیم چگونه آن را انجام دهیم. غیرقابل حل بودن محاسباتی وجود دارد. بنابراین من پیشنهاد می کنم کل این ایده را کنار بگذارم. و البته، می دانید، این یک ستون عظیم نه تنها یادگیری ماشین، بلکه همه آمار است که ادعا می کند فرمالیسم معمولی برای یادگیری ماشین است. 

مورد دیگر - 

ZDNet: شما در حال چرخش هستید…

YL: - چیزی است که مدل های مولد نامیده می شود. بنابراین، این ایده که شما می توانید یاد بگیرید که پیش بینی کنید، و شاید بتوانید با پیش بینی چیزهای زیادی در مورد جهان بیاموزید. بنابراین، من یک تکه ویدیو را به شما می‌دهم و از سیستم می‌خواهم تا پیش‌بینی کند که در این ویدیو چه اتفاقی می‌افتد. و ممکن است از شما بخواهم که فریم های ویدیویی واقعی را با تمام جزئیات پیش بینی کنید. اما چیزی که در مقاله درباره آن بحث می‌کنم این است که در واقع خیلی زیاد و پیچیده است. و این چیزی است که من نظرم را در مورد آن تغییر دادم. تا حدود دو سال پیش، من طرفدار چیزی بودم که آن را مدل‌های مولد متغیر پنهان می‌نامم، مدل‌هایی که پیش‌بینی می‌کنند چه اتفاقی می‌افتد یا اطلاعاتی که از دست می‌رود، احتمالاً با کمک یک متغیر پنهان، در صورتی که پیش‌بینی امکان‌پذیر نباشد. قطعی و من از این کار منصرف شدم و دلیلی که من از این کار صرف نظر کرده‌ام بر اساس نتایج تجربی است، جایی که افراد سعی کرده‌اند آموزش‌های مبتنی بر پیش‌بینی یا بازسازی از نوعی را اعمال کنند که در BERT استفاده می‌شود.و مدل های زبان بزرگ، آنها سعی کرده اند این را روی تصاویر اعمال کنند، و این یک شکست کامل بوده است. و دلیل شکست کامل آن، مجدداً به دلیل محدودیت‌های مدل‌های احتمالی است که پیش‌بینی نشانه‌های گسسته مانند کلمات نسبتاً آسان است زیرا می‌توانیم توزیع احتمال را روی همه کلمات در فرهنگ لغت محاسبه کنیم. آسان است. اما اگر از سیستم بخواهیم توزیع احتمال را روی تمام فریم‌های ویدئویی ممکن تولید کند، نمی‌دانیم چگونه آن را پارامتر کنیم، یا ایده‌ای داریم که چگونه آن را پارامترسازی کنیم، اما نمی‌دانیم چگونه آن را عادی کنیم. به یک مسئله ریاضی حل نشدنی برخورد می کند که ما نمی دانیم چگونه آن را حل کنیم. 

yann-lecun-sept-2022-3

لکون می‌گوید: «ما در حدی نیستیم که ماشین‌های هوشمند ما به اندازه یک گربه عقل سلیم داشته باشند. پس چرا از آنجا شروع نکنیم؟ چه چیزی به یک گربه اجازه می‌دهد دنیای اطراف را درک کند، کارهای بسیار هوشمندانه انجام دهد، برنامه‌ریزی کند و کارهایی از این دست، و سگ‌ها حتی بهتر؟»

بنابراین، به همین دلیل است که می گویم بیایید نظریه احتمال یا چارچوب چیزهایی مانند آن را کنار بگذاریم، مدل های ضعیف تر، مدل های مبتنی بر انرژی. من نیز برای چندین دهه از این امر دفاع کرده ام، بنابراین این یک چیز اخیر نیست. اما در عین حال، ایده مدل‌های مولد را کنار گذاشت، زیرا چیزهای زیادی در جهان وجود دارد که قابل درک و پیش‌بینی نیستند. اگر مهندس هستید، به آن می گویید سر و صدا. اگر شما یک فیزیکدان هستید، آن را گرما می نامید. و اگر شما یک فرد یادگیری ماشینی هستید، آن را می‌دانید جزئیات بی‌ربط یا هر چیز دیگری.

بنابراین، مثالی که من در مقاله استفاده کردم، یا در گفتگوها استفاده کردم، این است که شما یک سیستم پیش‌بینی جهان می‌خواهید که در خودروهای خودران کمک کند، درست است؟ می‌خواهد بتواند از قبل مسیر همه ماشین‌های دیگر را پیش‌بینی کند، چه اتفاقی قرار است برای اشیایی که ممکن است حرکت کنند، عابران پیاده، دوچرخه‌ها، بچه‌ای که دنبال توپ فوتبال می‌دود، چیزهایی شبیه به آن. بنابراین، همه نوع چیز در مورد جهان. اما در کنار جاده، ممکن است درختان وجود داشته باشد، و امروز باد می‌وزد، بنابراین برگ‌ها در باد حرکت می‌کنند، و پشت درخت‌ها یک حوض وجود دارد، و موج‌هایی در برکه وجود دارد. و اینها اساساً پدیده هایی غیرقابل پیش بینی هستند. و، شما نمی خواهید مدل شما مقدار قابل توجهی از منابع را صرف پیش بینی چیزهایی کند که پیش بینی آنها سخت و بی ربط است. بنابراین به همین دلیل است که من از معماری جاسازی مشترک دفاع می کنم، چیزهایی که متغیری را که می خواهید مدل کنید، سعی نمی کنید آن را پیش بینی کنید، سعی می کنید آن را مدل کنید، اما از طریق یک رمزگذار اجرا می شود، و آن رمزگذار می تواند بسیاری از جزئیات مربوط به ورودی را که نامربوط یا بسیار پیچیده هستند حذف کند - اساساً معادل نویز.

ZDNet: ما در اوایل سال جاری درباره مدل‌های مبتنی بر انرژی، JEPA و H-JEPA بحث کردیم. حس من، اگر شما را به درستی درک کرده باشم، این است که شما نقطه کم انرژی را پیدا می کنید که در آن این دو پیش بینی تعبیه X و Y بیشتر شبیه به هم هستند، به این معنی که اگر یک کبوتر در یک درخت در یکی باشد، و چیزی در آن وجود داشته باشد. پس زمینه یک صحنه، ممکن است این نکات اساسی نباشند که این تعبیه ها را به یکدیگر نزدیک می کند.

YL: درست. بنابراین، معماری JEPA در واقع سعی می‌کند بین استخراج بازنمایی‌هایی که حداکثر اطلاعات را در مورد ورودی‌ها دارند، اما با سطحی از دقت یا قابلیت اطمینان از یکدیگر قابل پیش‌بینی هستند، یک معاوضه، یک مصالحه پیدا کند. یک معامله پیدا می کند. بنابراین، اگر بین صرف مقدار زیادی از منابع از جمله جزئیات حرکت برگ‌ها، و سپس مدل‌سازی دینامیک که تصمیم می‌گیرد چگونه برگ‌ها در یک ثانیه حرکت می‌کنند، یا فقط انداختن آن روی زمین، یکی را انتخاب کند. فقط در اصل متغیر Y را از طریق یک پیش‌بینی‌کننده اجرا می‌کند که تمام آن جزئیات را حذف می‌کند، احتمالاً آن را حذف می‌کند زیرا مدل‌سازی و گرفتن آن بسیار سخت است.

ZDNet: یکی از چیزهایی که باعث تعجب می شود این است که شما طرفدار بزرگی بودید که می گفتید "این کار می کند، ما بعداً نظریه ترمودینامیک را برای توضیح آن کشف خواهیم کرد." در اینجا شما رویکردی را اتخاذ کرده‌اید: «نمی‌دانم چگونه می‌خواهیم لزوماً این را حل کنیم، اما می‌خواهم ایده‌هایی را برای فکر کردن درباره آن مطرح کنم» و شاید حتی به یک نظریه یا فرضیه نزدیک شوید. کمترین. این جالب است زیرا افراد زیادی هستند که پول زیادی را صرف کار روی ماشین می‌کنند که بدون در نظر گرفتن اینکه ماشین عقل سلیم دارد یا خیر، می‌توانند عابر پیاده را ببینند. و من تصور می‌کنم برخی از این افراد تیک‌دار نخواهند شد، اما آنها می‌گویند، "بسیار خوب است، ما اهمیتی نمی‌دهیم که عقل سلیم نداشته باشد، ما یک شبیه‌سازی ساخته‌ایم، شبیه‌سازی شگفت‌انگیز است. و ما به بهبود ادامه می‌دهیم، به مقیاس‌بندی شبیه‌سازی ادامه می‌دهیم." 

و بنابراین جالب است که شما اکنون در موقعیتی هستید که می‌گویید، بیایید یک قدم به عقب برگردیم و به کاری که انجام می‌دهیم فکر کنیم. و صنعت می‌گوید که ما فقط به مقیاس، مقیاس، مقیاس، مقیاس می‌پردازیم، زیرا آن میل لنگ واقعاً کار می‌کند. منظورم این است که میل لنگ نیمه هادی پردازنده های گرافیکی واقعا کار می کند.

YL: مثلاً پنج سؤال در آنجا وجود دارد. بنابراین، منظورم این است که مقیاس بندی ضروری است. من از این موضوع انتقاد نمی کنم که باید مقیاس کنیم. ما باید مقیاس کنیم. این شبکه های عصبی با بزرگتر شدن بهتر می شوند. شکی نیست که باید مقیاس کنیم. و آنهایی که سطحی از عقل سلیم دارند بزرگ خواهند بود. هیچ راهی برای دور زدن آن وجود ندارد، من فکر می کنم. بنابراین مقیاس بندی خوب است، لازم است، اما کافی نیست. این نکته ای است که من به آن اشاره می کنم. این فقط پوسته پوسته شدن نیست. این اولین نکته است. 

نکته دوم، اینکه آیا نظریه اول است یا خیر و مواردی از این قبیل. بنابراین، من فکر می‌کنم مفاهیمی هستند که در ابتدا مطرح می‌شوند که، شما باید یک قدم به عقب بردارید و بگویید، خوب، ما این نردبان را ساختیم، اما می‌خواهیم به ماه برویم و هیچ راهی وجود ندارد که این نردبان ما را به آنجا برساند. بنابراین، اساساً آنچه من اینجا می نویسم این است که ما باید موشک بسازیم. من نمی توانم جزئیاتی در مورد نحوه ساخت موشک به شما بدهم، اما در اینجا اصول اولیه وجود دارد. و من برای آن نظریه یا هیچ چیز دیگری نمی نویسم، اما، این یک موشک خواهد بود، خوب؟ یا یک آسانسور فضایی یا هر چیز دیگری. ما ممکن است تمام جزئیات تمام فناوری را نداشته باشیم. ما در تلاشیم تا برخی از این کارها را انجام دهیم، مانند اینکه من روی JEPA کار کرده ام. جاسازی مشترک برای تشخیص تصویر بسیار خوب عمل می کند، اما برای استفاده از آن برای آموزش یک مدل جهانی، مشکلاتی وجود دارد. ما روی آن کار می کنیم، امیدواریم بتوانیم آن را به نتیجه برسانیم soon، اما ممکن است در آنجا با موانعی روبرو شویم که احتمالاً نتوانیم از آنها عبور کنیم. 

سپس یک ایده کلیدی در مقاله در مورد استدلال وجود دارد که اگر می‌خواهیم سیستم‌ها بتوانند برنامه‌ریزی کنند، که می‌توانید آن را به عنوان شکل ساده استدلال در نظر بگیرید، باید متغیرهای پنهان داشته باشند. به عبارت دیگر، چیزهایی که توسط هیچ شبکه عصبی محاسبه نمی‌شوند، بلکه چیزهایی هستند که محاسبه می‌شوند - که مقدار آنها به گونه‌ای استنباط می‌شود که برخی از تابع هدف، برخی تابع هزینه را به حداقل می‌رسانند. و سپس می توانید از این تابع هزینه برای هدایت رفتار سیستم استفاده کنید. و این اصلا ایده جدیدی نیست، درست است؟ این کنترل بسیار کلاسیک و بهینه است که اساس آن به اواخر دهه 50 و اوایل دهه 60 باز می گردد. بنابراین، ادعای هیچ تازگی در اینجا نیست. اما چیزی که من می گویم این است که این نوع استنتاج باید بخشی از یک سیستم هوشمند باشد که قادر به برنامه ریزی است و رفتار آن را می توان مشخص یا کنترل کرد نه با یک رفتار سخت، نه با تقلید، بلکه توسط یک تابع عینی که رفتار را هدایت می کند - لزوماً باعث یادگیری نمی شود، اما رفتار را هدایت می کند. می دانید، ما این را در مغز خود داریم و هر حیوانی هزینه ذاتی یا انگیزه های ذاتی برای چیزها دارد. این باعث می شود که نوزادان نه ماهه بخواهند بایستند. هزینه شاد بودن در هنگام ایستادن، این عبارت در تابع هزینه سخت است. اما نحوه ایستادن شما اینطور نیست، این یادگیری است.

yann-lecun-sept-2022-4

LeCun درباره مدل‌های زبان غول‌پیکر مانند برنامه‌های مبتنی بر Transformer از انواع GPT-3 می‌گوید: «مقیاس‌سازی خوب است، ضروری است، اما کافی نیست. طرفداران Transformer معتقدند: "ما همه چیز را نشانه گذاری می کنیم و غول پیکر تمرین می کنیممدل‌هایی برای پیش‌بینی‌های گسسته، و به نوعی هوش مصنوعی از این اتفاق بیرون می‌آید... اما من فکر می‌کنم که بخش‌های اساسی را از دست داده است.»

ZDNet: فقط برای تکمیل این نکته، به نظر می‌رسد که بسیاری از جامعه یادگیری عمیق با چیزی که عقل سلیم ندارد پیش می‌روند. به نظر می رسد که شما در اینجا یک استدلال کاملاً واضح دارید که در نقطه ای به بن بست تبدیل می شود. برخی از مردم می گویند ما به یک خودروی خودران با عقل سلیم نیاز نداریم زیرا مقیاس بندی این کار را انجام می دهد. به نظر می رسد که می گویید ادامه دادن در این مسیر اشکالی ندارد؟

YL: می دانید، من فکر می کنم کاملاً ممکن است که ما اتومبیل های خودران سطح پنج بدون عقل سلیم داشته باشیم. اما مشکل این رویکرد، این است که موقتی خواهد بود، زیرا شما باید آن را مهندسی کنید. بنابراین، می دانید، کل جهان را نقشه برداری کنید، انواع رفتارهای خاص در گوشه و کنار را مشخص کنید، به اندازه کافی داده جمع آوری کنید تا همه موقعیت های عجیب و غریبی را که می توانید در جاده ها با آنها روبرو شوید، داشته باشید، بل، بلا، بلا. و حدس من این است که با سرمایه گذاری و زمان کافی، فقط می توانید آن را مهندسی کنید. اما در نهایت، راه‌حل رضایت‌بخش‌تر و احتمالاً بهتری وجود خواهد داشت که شامل سیستم‌هایی می‌شود که کار بهتری در درک نحوه کار جهان انجام می‌دهند و، می‌دانید، سطحی از آنچه ما عقل سلیم می‌نامیم دارد. این نیازی به عقل سلیم در سطح انسان نیست، بلکه نوعی دانش است که سیستم می تواند با تماشا کردن به دست آورد، اما نه تماشای رانندگی یک نفر، فقط تماشای چیزهایی که در اطراف حرکت می کنند و چیزهای زیادی در مورد جهان درک می کنند، و پایه و اساس پس زمینه ایجاد می کنند. دانش در مورد نحوه کار دنیا که در بالای آن می توانید رانندگی را یاد بگیرید. 

بگذارید یک مثال تاریخی در این مورد بزنم. بینش کامپیوتری کلاسیک بر اساس بسیاری از ماژول‌های مهندسی شده و سخت‌افزاری بود که در بالای آن‌ها، لایه‌ای نازک از یادگیری خواهید داشت. بنابراین، مواردی که در سال 2012 توسط AlexNet شکست خورد، اساساً دارای اولین مرحله، استخراج ویژگی‌های دست ساز، مانند SIFTs [تبدیل ویژگی ثابت مقیاس (SIFT)، یک تکنیک بینایی کلاسیک برای شناسایی اشیاء برجسته در یک تصویر] بود. و HOG [هیستوگرام گرادیان های جهت دار، یکی دیگر از تکنیک های کلاسیک] و چیزهای مختلف دیگر. و سپس لایه دوم از ویژگی های سطح متوسط، بر اساس هسته ویژگی و هر چیز دیگری، و نوعی روش بدون نظارت. و سپس در بالای این، یک ماشین بردار پشتیبان یا یک طبقه‌بندی نسبتا ساده قرار می‌دهید. و این به نوعی خط لوله استاندارد از اواسط دهه 2000 تا 2012 بود. و با شبکه های کانولوشنال سرتاسر جایگزین شد، جایی که شما هیچ یک از این ها را سیم کشی نمی کنید، فقط داده های زیادی دارید. و شما چیز را از سر به انتها آموزش می دهید، این رویکردی است که من برای مدت طولانی از آن دفاع می کردم، اما می دانید، تا آن زمان، برای مشکلات بزرگ عملی نبود. 

داستان مشابهی در تشخیص گفتار وجود دارد که در آن، دوباره، حجم عظیمی از مهندسی دقیق برای نحوه پیش‌پردازش داده‌ها، استخراج cepstrum در مقیاس انبوه [معکوس تبدیل فوریه سریع برای پردازش سیگنال] و سپس استخراج شده است. شما مدل‌های مارکوف پنهان را دارید، با معماری از پیش تعیین‌شده، بله، بله، بلا، با ترکیبی از گاوسی‌ها. و بنابراین، کمی شبیه به معماری ویژن است که در آن قسمت جلویی، و سپس یک لایه میانی تا حدودی بدون نظارت، آموزش دیده، و سپس یک لایه نظارت شده در بالای آن ساخته شده است. و اکنون این اساساً توسط شبکه های عصبی انتها به انتها از بین رفته است. بنابراین من به نوعی چیزی شبیه به تلاش برای یادگیری همه چیز را در آنجا می بینم، اما شما باید پیشینه مناسب، معماری مناسب، ساختار مناسب داشته باشید.

yann-lecun-sept-2022-5

او می‌گوید که جمعیت خودروهای خودران، استارت‌آپ‌هایی مانند Waymo و Wayve، «کمی بیش از حد خوش‌بین بوده‌اند»، زیرا فکر می‌کنند می‌توانند «داده‌ها را به آن‌ها پرتاب کنند، و شما می‌توانید تقریباً هر چیزی را یاد بگیرید». خودروهای خودران در سطح 5 ADAS امکان پذیر هستند، "اما شما مجبور خواهید بود از این کار مهندسی کنید" و مانند مدل های اولیه بینایی کامپیوتری "شکننده" خواهند بود.

ZDNet: آنچه شما می گویید این است که برخی از افراد سعی می کنند چیزی را مهندسی کنند که در حال حاضر با یادگیری عمیق کار نمی کند، مثلاً در صنعت، و آنها شروع به ایجاد چیزی می کنند که همان چیزی است که در بینایی کامپیوتر منسوخ شده است؟

YL: درست. و تا حدودی به همین دلیل است که افرادی که در چند سال گذشته روی رانندگی خودکار کار می‌کنند کمی بیش از حد خوشبین بوده‌اند، به این دلیل است که، می‌دانید، چیزهای عمومی مانند شبکه‌های کانولوشن و ترانسفورماتورها را دارید که می‌توانید داده‌ها را به آن‌ها پرتاب کنید. ، و تقریباً می تواند هر چیزی را یاد بگیرد. بنابراین، شما می گویید، خوب، من راه حلی برای آن مشکل دارم. اولین کاری که انجام می‌دهید این است که یک دمو می‌سازید که ماشین برای چند دقیقه خودش را بدون آسیب رساندن به کسی رانندگی کند. و سپس متوجه می‌شوید که موارد گوشه‌ای زیادی وجود دارد، و سعی می‌کنید با دوبرابر کردن مجموعه آموزشی، منحنی آن را ترسیم کنید که چقدر بهتر می‌شوم، و متوجه می‌شوید که هرگز به آنجا نخواهید رسید، زیرا انواع گوشه‌ها وجود دارد. . و شما باید خودرویی داشته باشید که کمتر از هر 200 میلیون کیلومتر باعث تصادف مرگبار شود، درست است؟ بنابراین، چه کار می کنید؟ خوب، شما در دو جهت راه بروید. 

اولین جهت این است که چگونه می توانم مقدار داده هایی را که برای یادگیری سیستم من ضروری است کاهش دهم؟ و اینجاست که یادگیری خود نظارتی وارد می‌شود. بنابراین، بسیاری از لباس‌های ماشین‌های خودران علاقه زیادی به یادگیری خودنظارتی دارند، زیرا این روشی است برای استفاده از مقادیر عظیمی از داده‌های نظارتی برای یادگیری تقلیدی، اما به دست آوردن عملکرد بهتر توسط اساساً قبل از آموزش و هنوز کاملاً به نتیجه نرسیده است، اما خواهد شد. و سپس گزینه دیگری وجود دارد که اکثر شرکت‌هایی که در این مرحله پیشرفته‌تر هستند، آن را پذیرفته‌اند، این است که، بسیار خوب، ما می‌توانیم آموزش انتها به انتها را انجام دهیم، اما موارد گوشه‌ای زیادی وجود دارد که می‌توانیم. بنابراین ما فقط سیستم‌هایی را مهندسی می‌کنیم که از آن موارد گوشه‌ای مراقبت می‌کنند، و اساساً، آنها را به‌عنوان موارد خاص در نظر می‌گیرند، کنترل را سیم‌کشی می‌کنند، و سپس بسیاری از رفتارهای اساسی را برای رسیدگی به موقعیت‌های خاص سیم‌کشی می‌کنند. و اگر یک تیم به اندازه کافی بزرگ از مهندسان دارید، ممکن است آن را از بین ببرید. اما زمان زیادی طول می کشد، و در نهایت، هنوز هم کمی شکننده خواهد بود، شاید به اندازه کافی قابل اعتماد باشد که بتوانید آن را گسترش دهید، اما با سطحی از شکنندگی، که با رویکرد مبتنی بر یادگیری بیشتر که ممکن است در خودروها آینده نخواهند داشت زیرا ممکن است سطحی از عقل سلیم و درک در مورد نحوه کار جهان داشته باشند. 

در کوتاه‌مدت، رویکرد مهندسی شده برنده خواهد شد – که از قبل برنده است. این Waymo و Cruise جهان و Wayve استو هر چه باشد، این همان کاری است که آنها انجام می دهند. سپس رویکرد یادگیری خود نظارتی وجود دارد که احتمالاً به رویکرد مهندسی برای پیشرفت کمک می کند. اما پس از آن، در دراز مدت، که ممکن است برای آن شرکت‌ها خیلی طولانی باشد، احتمالاً یک سیستم رانندگی هوشمند خودکار یکپارچه‌تر خواهد بود.

ZDNet: ما می گوییم فراتر از افق سرمایه گذاری اکثر سرمایه گذاران.

YL: درست است. بنابراین، سوال این است که آیا قبل از اینکه عملکرد به سطح مطلوب برسد، صبر و حوصله افراد را از دست می دهند یا پولشان تمام می شود؟

ZDNet: آیا چیز جالبی برای گفتن وجود دارد که چرا برخی از عناصری را که در مدل انتخاب کرده اید انتخاب کرده اید؟ چون شما به کنت کریک [1943،ماهیت توضیح]، و شما برایسون و هو [1969، اعمال کنترل بهینه]، و من کنجکاو هستم که چرا شما با این تأثیرات شروع کردید، اگر به ویژه معتقد بودید که این افراد آن را تا جایی که انجام داده بودند، میخکوب کردند. چرا از آنجا شروع کردید؟

YL: خب، من فکر نمی‌کنم، مطمئناً، آنها تمام جزئیات را میخکوب کرده بودند. بنابراین، برایسون و هو، این کتابی است که در سال 1987 زمانی که با جفری هینتون در تورنتو فوق دکترا بودم، خواندم. اما من از قبل زمانی که دکترای خود را می نوشتم از این رشته کار می دانستم و اساساً ارتباط بین کنترل بهینه و پشتیبان را ایجاد کردم. اگر واقعاً می‌خواستید، می‌دانید، یکی دیگر از اشمیدوبر باشید، می‌گفتید که مخترعان واقعی backprop در واقع نظریه‌پردازان کنترل بهینه هنری جی. کلی، آرتور برایسون، و شاید حتی لو پونتریاگین، که یک نظریه‌پرداز روسی کنترل بهینه است، بودند. در اواخر دهه 50 

بنابراین، آنها آن را کشف کردند، و در واقع، شما در واقع می توانید ریشه این را ببینید، ریاضیات زیر آن، مکانیک لاگرانژی است. بنابراین می‌توانید در واقع به اویلر و لاگرانژ برگردید و در تعریف مکانیک کلاسیک لاگرانژی واقعاً بویی از این را بیابید. بنابراین، در زمینه کنترل بهینه، چیزی که این افراد به آن علاقه داشتند اساساً محاسبه مسیرهای موشکی بود. می دانید، این دوران اولیه فضا بود. و اگر مدلی از موشک دارید، به شما می گوید که در اینجا وضعیت موشک در آن زمان است t، و در اینجا اقدامی است که من می خواهم انجام دهم، بنابراین، رانش و محرک انواع مختلف، در اینجا وضعیت موشک در آن زمان است. t + 1.

ZDNet: یک مدل اقدام دولت، یک مدل ارزش.

YL: درست است، اساس کنترل. بنابراین، اکنون می توانید با تصور دنباله ای از دستورات، شلیک موشک خود را شبیه سازی کنید و سپس مقداری تابع هزینه دارید، که فاصله موشک تا هدف، ایستگاه فضایی یا هر چیز دیگری است. و سپس با نوعی نزول گرادیان، می توانید بفهمید که چگونه می توانم دنباله اقدامات خود را به روز کنم تا موشک من در واقع تا حد امکان به هدف نزدیک شود. و این باید با انتشار سیگنال های معکوس در زمان انجام شود. و این انتشار به عقب، پس انتشار گرادیان است. این سیگنال‌ها، در مکانیک لاگرانژی متغیرهای مزدوج نامیده می‌شوند، اما در واقع، آنها گرادیان هستند. بنابراین، آنها پشتیبان را اختراع کردند، اما متوجه نشدند که این اصل می تواند برای آموزش یک سیستم چند مرحله ای استفاده شود که می تواند تشخیص الگو یا چیزی شبیه به آن را انجام دهد. شاید تا اواخر دهه 70، اوایل دهه 80، این واقعاً محقق نشد و پس از آن تا اواسط دهه 80 عملاً اجرا نشد و به کار نیفتاد. بسیار خوب، پس، این همان جایی است که backprop واقعاً شروع شد، زیرا مردم در اینجا چند خط کد را نشان دادند که می‌توانید یک شبکه عصبی، سرتاسر، چند لایه را آموزش دهید. و این محدودیت های Perceptron را برطرف می کند. و، بله، ارتباطاتی با کنترل بهینه وجود دارد، اما اشکالی ندارد.

ZDNet: بنابراین، این راه طولانی برای گفتن این موضوع است که این تأثیراتی که شما با آن شروع کردید به پشتوانه بازگشته بودند، و این به عنوان نقطه شروع برای شما مهم بود؟

YL: بله، اما فکر می‌کنم چیزی که مردم کمی آن را فراموش کردند، در دهه 90 یا حتی دهه 80 روی این موضوع کار زیادی انجام شد، از جمله توسط افرادی مانند مایکل جردن [بخش مغز MIT و علوم شناختی] و افرادی مانند آن که دیگر شبکه های عصبی را انجام نمی دهند، بلکه این ایده که می توان از شبکه های عصبی برای کنترل استفاده کرد و می توان از ایده های کلاسیک کنترل بهینه استفاده کرد. بنابراین، چیزهایی مانند آنچه که به آن کنترل پیش بینی مدل می گویند، آنچه که اکنون کنترل پیش بینی مدل نامیده می شود، این ایده که اگر مدل خوبی از سیستمی دارید که می خواهید کنترل کنید، می توانید نتیجه یک دنباله از اقدامات را شبیه سازی کنید یا تصور کنید. و محیطی که در آن قرار دارد. و سپس با نزول گرادیان، اساسا - این یادگیری نیست، این استنتاج است - شما می توانید بفهمید که بهترین توالی اقداماتی که هدف من را به حداقل می رساند چیست. بنابراین، استفاده از یک تابع هزینه با یک متغیر پنهان برای استنتاج، به نظر من، چیزی است که محصولات فعلی شبکه های عصبی در مقیاس بزرگ آن را فراموش کرده اند. اما این یک جزء بسیار کلاسیک از یادگیری ماشین برای مدت طولانی بود. بنابراین، هر شبکه بیزی یا مدل گرافیکی یا مدل گرافیکی احتمالی از این نوع استنتاج استفاده می کرد. شما یک مدل دارید که وابستگی‌های بین دسته‌ای از متغیرها را نشان می‌دهد، مقدار برخی از متغیرها به شما گفته می‌شود، و سپس باید محتمل‌ترین مقدار بقیه متغیرها را استنتاج کنید. این اصل اساسی استنتاج در مدل های گرافیکی و شبکه های بیزی و مواردی از این دست است. و من فکر می کنم که اساساً این همان چیزی است که استدلال باید درباره آن باشد، استدلال و برنامه ریزی.

ZDNet: تو یک بیزی کمد هستی

YL: من یک بیزی غیر احتمالی هستم. من اون شوخی رو قبلا کردم من در واقع چند سال پیش در NeurIPS بودم، فکر می‌کنم در سال 2018 یا 2019 بود، و توسط یک بیزی از من در ویدیو گرفتار شد که از من پرسید که آیا من بیزی هستم، و من گفتم، بله، من یک بیزی هستم، اما من اگر بخواهید، من یک بیزی غیر احتمالی، نوعی بیزی مبتنی بر انرژی هستم. 

ZDNet: که قطعا شبیه چیزی از آن به نظر می رسد پیشتازان فضا. شما در پایان این مقاله اشاره کردید، برای تحقق بخشیدن به آنچه تصور می‌کنید، سال‌ها کار واقعاً سخت طول می‌کشد. به من بگویید که برخی از آن کار در حال حاضر شامل چه مواردی است.

YL: بنابراین، من نحوه آموزش و ساختن JEPA را در مقاله توضیح می دهم. و معیاری که من از آن دفاع می کنم، داشتن راهی برای به حداکثر رساندن محتوای اطلاعاتی است که بازنمایی هایی که استخراج می شوند در مورد ورودی دارند. و سپس مورد دوم به حداقل رساندن خطای پیش بینی است. و اگر یک متغیر پنهان در پیش بینی دارید که به پیش بینی کننده اجازه می دهد قطعی نباشد، باید این متغیر پنهان را با به حداقل رساندن محتوای اطلاعاتی آن منظم کنید. بنابراین، شما در حال حاضر دو مسئله دارید، این است که چگونه محتوای اطلاعاتی خروجی یک شبکه عصبی را به حداکثر می‌رسانید، و دیگری این که چگونه محتوای اطلاعاتی یک متغیر پنهان را به حداقل می‌رسانید؟ و اگر این دو کار را انجام ندهید، سیستم فرو خواهد ریخت. چیز جالبی یاد نخواهد گرفت. به همه چیز انرژی صفر می دهد، چیزی شبیه به آن، که مدل خوبی برای وابستگی نیست. این مشکل پیشگیری از فروپاشی است که به آن اشاره می کنم. 

و من می گویم از تمام کارهایی که مردم تا به حال انجام داده اند، تنها دو دسته روش برای جلوگیری از فروپاشی وجود دارد. یکی روش های متضاد و دیگری روش های منظم شده است. بنابراین، این ایده برای به حداکثر رساندن محتوای اطلاعاتی بازنمایی دو ورودی و به حداقل رساندن محتوای اطلاعاتی متغیر پنهان، متعلق به روش‌های منظم شده است. اما بسیاری از کارها در این معماری های تعبیه مشترک از روش های کنتراست استفاده می کنند. در واقع، آنها احتمالاً در حال حاضر محبوب ترین هستند. بنابراین، سؤال این است که دقیقاً چگونه محتوای اطلاعاتی را به گونه‌ای اندازه‌گیری می‌کنید که بتوانید آن را بهینه یا به حداقل برسانید؟ و اینجاست که همه چیز پیچیده می شود زیرا ما نمی دانیم چگونه محتوای اطلاعاتی را اندازه گیری کنیم. ما می‌توانیم آن را تقریبی کنیم، می‌توانیم آن را به کران بالا برسانیم، می‌توانیم چنین کارهایی را انجام دهیم. اما آنها در واقع محتوای اطلاعاتی را اندازه گیری نمی کنند، که در واقع تا حدی حتی به خوبی تعریف نشده است.

ZDNet: این قانون شانون نیست؟ این تئوری اطلاعات نیست؟ شما مقدار مشخصی از آنتروپی، آنتروپی خوب و آنتروپی بد دارید، و آنتروپی خوب یک سیستم نمادی است که کار می کند، آنتروپی بد نویز است. آیا همه چیز توسط شانون حل نشده است؟

YL: حق با شماست، اما یک نقص بزرگ در پشت آن وجود دارد. حق با شماست از این نظر که اگر داده‌هایی دارید که به سمت شما می‌آیند و می‌توانید به نحوی داده‌ها را به نمادهای گسسته تبدیل کنید، و سپس احتمال هر یک از آن نمادها را اندازه‌گیری کنید، حداکثر مقدار اطلاعاتی که توسط آن نمادها منتقل می‌شود جمع بیش از نمادهای ممکن از پای لاگ پی، درست؟ جایی که Pi احتمال نماد است من - آنتروپی شانون است. [قانون شانون معمولاً به صورت H = – ∑ pi log pi فرموله می شود.]

اما مشکل اینجاست: چیست Pi? وقتی تعداد نمادها کم باشد و نمادها به طور مستقل ترسیم شوند، آسان است. وقتی نمادها و وابستگی های زیادی وجود دارد، بسیار سخت است. بنابراین، اگر دنباله ای از بیت ها دارید و بیت ها را مستقل از یکدیگر فرض می کنید و احتمال آن ها بین یک و صفر یا هر چیز دیگری برابر است، می توانید به راحتی آنتروپی را اندازه گیری کنید، مشکلی نیست. اما اگر چیزهایی که به سراغ شما می آیند بردارهایی با ابعاد بالا هستند، مانند، می دانید، فریم های داده یا چیزی شبیه به این، چیست؟ Pi? توزیع چیست؟ ابتدا باید آن فضا را که فضایی با ابعاد بالا و پیوسته است، کمی کنید. شما هیچ ایده ای ندارید که چگونه این را به درستی اندازه گیری کنید. شما می توانید از k-means و غیره استفاده کنید. این کاری است که افراد هنگام فشرده سازی ویدیو و فشرده سازی تصویر انجام می دهند. اما این فقط یک تقریب است. و سپس شما باید فرضیات استقلال را بسازید. بنابراین، واضح است که در یک ویدیو، فریم های متوالی مستقل نیستند. وابستگی هایی وجود دارد، و آن فریم ممکن است به فریم دیگری بستگی داشته باشد که یک ساعت پیش دیدید، که تصویری از همان چیز بود. بنابراین، می دانید، نمی توانید اندازه گیری کنید Pi. اندازه گرفتن Pi، شما باید یک سیستم یادگیری ماشینی داشته باشید که پیش بینی را بیاموزد. و بنابراین شما به مشکل قبلی برگشتید. بنابراین، اساساً فقط می‌توانید اندازه‌گیری اطلاعات را تقریبی کنید. 

yann-lecun-sept-2022-6

سوال این است که دقیقاً چگونه محتوای اطلاعاتی را به گونه‌ای اندازه‌گیری می‌کنید که بتوانید آن را بهینه یا حداقل کنید؟ می گوید LeCun. و اینجاست که همه چیز پیچیده می شود زیرا ما نمی دانیم چگونه محتوای اطلاعاتی را اندازه گیری کنیم. بهترین کاری که می توان تا کنون انجام داد این است که یک پروکسی پیدا کنیم که «به اندازه کافی برای کاری که می خواهیم خوب باشد».

بگذارید مثال ملموس‌تری بزنم. یکی از الگوریتم‌هایی که با آن بازی کرده‌ایم و در قطعه درباره آن صحبت کرده‌ام، این چیزی است که VICReg نامیده می‌شود، واریانس-ناواریانس-کوواریانس منظم‌سازی. این در یک مقاله جداگانه است که در ICLR منتشر شده است، و روی arXiv قرار گرفت حدود یک سال قبل از آن، سال 2021. و ایده این است که اطلاعات را به حداکثر برسانیم. و این ایده در واقع از مقاله قبلی گروه من به نام به وجود آمد دوقلوهای بارلو. اساساً با این فرض که تنها وابستگی بین متغیرها همبستگی و وابستگی خطی است، محتوای اطلاعاتی یک بردار را که از یک شبکه عصبی خارج می‌شود، به حداکثر می‌رسانید. بنابراین، اگر فرض کنید که تنها وابستگی که بین جفت متغیرها، یا بین متغیرهای سیستم شما امکان پذیر است، همبستگی بین جفت اشیاء با ارزش است، که تقریب بسیار خشن است، در این صورت می توانید محتوای اطلاعاتی که از سیستم شما خارج می شود را به حداکثر برسانید. با اطمینان از اینکه همه متغیرها دارای واریانس غیر صفر هستند - فرض کنید، واریانس یک، مهم نیست چیست - و سپس همبستگی مجدد آنها، همان فرآیندی که سفید کردن نامیده می شود، همچنین جدید نیست. مشکل این است که شما به خوبی می توانید وابستگی های بسیار پیچیده ای بین هر دو گروه از متغیرها یا حتی فقط جفت متغیرهایی داشته باشید که وابستگی خطی نیستند و در همبستگی ها نشان داده نمی شوند. بنابراین، برای مثال، اگر شما دو متغیر داشته باشید، و تمام نقاط آن دو متغیر در یک مارپیچ قرار گیرند، وابستگی بسیار قوی بین آن دو متغیر وجود دارد، درست است؟ اما در واقع، اگر همبستگی بین این دو متغیر را محاسبه کنید، آنها همبستگی ندارند. بنابراین، در اینجا یک مثال آورده شده است که در آن محتوای اطلاعاتی این دو متغیر در واقع بسیار کوچک است، این فقط یک کمیت است زیرا موقعیت شما در مارپیچ است. آنها همبستگی ندارند، بنابراین فکر می‌کنید اطلاعات زیادی از آن دو متغیر بیرون می‌آیند، در حالی که در واقع ندارید، می‌دانید، شما فقط می‌توانید اساساً یکی از متغیرها را از دیگری پیش‌بینی کنید. بنابراین، این نشان می دهد که ما فقط راه های بسیار تقریبی برای اندازه گیری محتوای اطلاعاتی داریم.

ZDNet: و بنابراین این یکی از چیزهایی است که اکنون باید روی آن کار کنید؟ این سوال بزرگتر است که چگونه بفهمیم که محتوای اطلاعاتی را به حداکثر و حداقل میرسانیم؟

YL:  یا اینکه آیا پروکسی که برای این کار استفاده می کنیم به اندازه کافی برای کاری که می خواهیم خوب است. در واقع، ما این کار را همیشه در یادگیری ماشین انجام می دهیم. توابع هزینه ای که ما به حداقل می رسانیم هرگز آنهایی نیستند که در واقع می خواهیم به حداقل برسانیم. بنابراین، برای مثال، شما می خواهید طبقه بندی انجام دهید، خوب؟ تابع هزینه ای که می خواهید هنگام آموزش یک طبقه بندی کننده به حداقل برسانید، تعداد اشتباهاتی است که طبقه بندی کننده انجام می دهد. اما این یک تابع هزینه غیرقابل تمایز و وحشتناک است که نمی توانید آن را به حداقل برسانید زیرا می دانید که وزن شبکه عصبی خود را تغییر خواهید داد، تا زمانی که یکی از آن نمونه ها تصمیم خود را تغییر ندهد، چیزی تغییر نخواهد کرد، و سپس یک پرش در خطا، مثبت یا منفی.

ZDNet: بنابراین شما یک پروکسی دارید که یک تابع هدف است که قطعاً می توانید بگویید، ما قطعاً می توانیم گرادیان های این چیز را جریان دهیم.

YL: درست است. بنابراین مردم از این افت آنتروپی متقاطع یا SOFTMAX استفاده می کنند، شما چندین نام برای آن دارید، اما این یک چیز است. و اساساً یک تقریب هموار از تعداد خطاهایی است که سیستم انجام می دهد، جایی که هموارسازی اساساً با در نظر گرفتن امتیازی که سیستم به هر یک از دسته ها می دهد انجام می شود.

ZDNet: آیا چیزی وجود دارد که ما پوشش نداده ایم که شما بخواهید آن را پوشش دهید؟

YL: احتمالاً بر نکات اصلی تأکید دارد. من فکر می‌کنم سیستم‌های هوش مصنوعی باید بتوانند استدلال کنند، و فرآیندی که من از آن حمایت می‌کنم، به حداقل رساندن برخی از اهداف با توجه به متغیرهای پنهان است. که به سیستم ها اجازه می دهد تا برنامه ریزی و استدلال کنند. من فکر می‌کنم که باید چارچوب احتمالی را کنار بگذاریم، زیرا زمانی که می‌خواهیم کارهایی مانند گرفتن وابستگی‌ها بین متغیرهای با ابعاد بالا و پیوسته انجام دهیم، غیرقابل حل است. و من از کنار گذاشتن مدل‌های مولد دفاع می‌کنم زیرا سیستم باید منابع زیادی را به پیش‌بینی چیزهایی اختصاص دهد که پیش‌بینی آن‌ها بسیار دشوار است و ممکن است منابع زیادی مصرف کنند. و تقریباً همین است. اگر بخواهید این پیام های اصلی است. و سپس معماری کلی. سپس آن گمانه‌زنی‌ها درباره ماهیت آگاهی و نقش پیکربندی‌کننده وجود دارد، اما این واقعاً حدس و گمان است.

ZDNet: دفعه بعد به آن خواهیم رسید. می خواستم از شما بپرسم که چگونه این موضوع را محک می زنید؟ اما من حدس می‌زنم که در حال حاضر کمی دورتر از محک زدن هستید؟

YL: نه لزوماً آنقدرها در نسخه های ساده شده. شما می‌توانید کاری را که همه در یادگیری کنترلی یا تقویتی انجام می‌دهند، انجام دهید، یعنی چیزی را برای انجام بازی‌های Atari یا چیزی شبیه به آن یا بازی دیگری که در آن مقداری عدم قطعیت وجود دارد، آموزش دهید.

ZDNet: ممنون از وقتی که گذاشتی، یان.

منبع