یان لیکان، دانشمند ارشد هوش مصنوعی Meta Properties، صاحب فیسبوک، اینستاگرام و واتساپ، احتمالاً افراد زیادی را در حوزه کاری خود انتخاب میکند.
با ارسال در ماه ژوئن یک قطعه فکر در سرور بازبینیLeCun یک مرور کلی از رویکردی ارائه کرد که فکر میکند نویدبخش دستیابی به هوش در سطح انسان در ماشینها است.
اگر در مقاله بیان نشده باشد، این ادعا وجود دارد که اکثر پروژه های بزرگ امروزی در هوش مصنوعی هرگز نمی توانند به آن هدف در سطح انسانی برسند.
در گفتگوی این ماه با ZDNet LeCun از طریق Zoom روشن کرد که با شک و تردید فراوان به بسیاری از موفق ترین راه های تحقیق در زمینه یادگیری عمیق در حال حاضر نگاه می کند.
برنده جایزه تورینگ گفت: "من فکر می کنم آنها ضروری هستند اما کافی نیستند." ZDNet از پیگیری های همسالانش
اینها شامل مدل های زبان بزرگ مانند GPT-3 مبتنی بر ترانسفورماتور و مشابه آنها می شود. همانطور که LeCun آن را توصیف می کند، طرفداران Transformer معتقدند: "ما همه چیز را نشانه گذاری می کنیم و غول پیکر تمرین می کنیم.مدلهایی برای پیشبینیهای گسسته، و به نوعی هوش مصنوعی از آن بیرون خواهد آمد.»
او میگوید: «آنها اشتباه نمیکنند، به این معنا که ممکن است این جزء یک سیستم هوشمند آینده باشد، اما من فکر میکنم که قطعات ضروری را از دست داده است.»
بنابراین: LeCun، درخشان هوش مصنوعی متا، مرز انرژی یادگیری عمیق را بررسی می کند
این یک انتقاد شگفتانگیز از آنچه به نظر میرسد از سوی محققی است که استفاده از شبکههای عصبی کانولوشنال را به کمال رساند، تکنیکی عملی که در برنامههای یادگیری عمیق فوقالعاده سازنده بوده است.
LeCun نقص ها و محدودیت ها را در بسیاری از زمینه های بسیار موفق دیگر این رشته می بیند.
او معتقد است که یادگیری تقویتی نیز هرگز کافی نخواهد بود. محققانی مانند دیوید سیلور از DeepMind، که برنامه AlphaZero را توسعه داد که به شطرنج، شوگی و گو تسلط داشت، بر برنامههایی تمرکز میکنند که «بسیار مبتنی بر اکشن» هستند، لیکان میگوید: «بیشتر یادگیریهایی که انجام میدهیم، ما انجام نمیدهیم. آن را با انجام عملی انجام دهید، ما آن را با مشاهده انجام می دهیم.»
لکون، 62 ساله، از منظر چندین دهه دستاورد، با این وجود ابراز اضطرار می کند که با آنچه که فکر می کند راه های کوری است که ممکن است بسیاری به سمت آن هجوم ببرند، مقابله کند و تلاش کند رشته خود را در مسیری که فکر می کند همه چیز باید پیش برود، ترغیب کند.
او میگوید: «ما ادعاهای زیادی را میبینیم که چه کاری باید انجام دهیم تا به سمت هوش مصنوعی در سطح انسانی پیش برویم. "و ایده هایی وجود دارد که به نظر من اشتباه است."
لکون میگوید: «ما در حدی نیستیم که ماشینهای هوشمند ما به اندازه یک گربه عقل سلیم داشته باشند. "پس، چرا ما از آنجا شروع نمی کنیم؟"
او اعتقاد قبلی خود را به استفاده از شبکه های مولد در مواردی مانند پیش بینی فریم بعدی در یک ویدیو رها کرده است. او می گوید: «این یک شکست کامل بوده است.
لیکان کسانی را که او آنها را «احتمالگرایان مذهبی» میخواند، که «تئوری احتمالات را تنها چارچوبی میدانند که میتوانید برای توضیح یادگیری ماشینی استفاده کنید، مورد انتقاد قرار میدهد».
او می گوید که رویکرد صرفاً آماری غیرقابل حل است. «این خیلی زیاد است که بخواهیم یک مدل جهانی کاملاً احتمالی باشد. ما نمی دانیم چگونه این کار را انجام دهیم.»
LeCun استدلال می کند که نه تنها دانشگاهیان، بلکه هوش مصنوعی صنعتی نیز نیاز به بازاندیشی عمیق دارد. او میگوید که جمعیت خودروهای خودران، استارتآپهایی مانند Wayve، «کمی بیش از حد خوشبین» بودهاند و فکر میکنند که میتوانند «دادهها» را به شبکههای عصبی بزرگ «پرتاب کنند و شما تقریباً هر چیزی را میتوانید یاد بگیرید».
او با اشاره به «ADAS» میگوید: «میدانید، من فکر میکنم کاملاً ممکن است که ما خودروهای خودران سطح پنج بدون عقل سلیم داشته باشیم. سیستم پیشرفته کمک راننده شرایط برای خودرانی، "اما شما مجبور خواهید بود که این کار را مهندسی کنید."
او معتقد است که چنین فناوری خودراننده بیش از حد مهندسی شده چیزی به اندازه تمام برنامههای بینایی رایانهای که با یادگیری عمیق منسوخ شدهاند، ترشکننده و شکننده خواهد بود.
در نهایت، راه حل رضایتبخشتر و احتمالاً بهتری وجود خواهد داشت که شامل سیستمهایی میشود که کار بهتری در درک نحوه کار جهان انجام میدهند.»
در طول مسیر، لکان دیدگاههای پژمردهای را از بزرگترین منتقدان خود، مانند گری مارکوس، استاد دانشگاه نیویورک - «او هرگز به هوش مصنوعی کمک نکرده است» - و یورگن اشمیدهابر، یکی از مدیران مؤسسه تحقیقات هوش مصنوعی Dalle Molle ارائه میکند - «این کاشت پرچم بسیار آسان است.
فراتر از نقدها، نکته مهمتری که LeCun بیان کرد این است که برخی از مشکلات اساسی با تمام هوش مصنوعی، بهویژه نحوه اندازهگیری اطلاعات مواجه است.
لیکان در مورد تمایل خود به بازاندیشی می گوید: "شما باید یک قدم به عقب بردارید و بگویید، خوب، ما این نردبان را ساختیم، اما می خواهیم به ماه برویم، و هیچ راهی وجود ندارد که این نردبان ما را به آنجا برساند." از مفاهیم اساسی اساساً چیزی که من اینجا می نویسم این است که ما باید موشک بسازیم، نمی توانم جزئیاتی در مورد نحوه ساخت موشک به شما بدهم، اما در اینجا اصول اولیه وجود دارد.
این مقاله و افکار لیکان در مصاحبه را می توان با خواندن مصاحبه لکان در اوایل سال جاری بهتر درک کرد. ZDNet که در آن او برای یادگیری خود نظارتی مبتنی بر انرژی به عنوان مسیری رو به جلو برای یادگیری عمیق استدلال می کند. آن تأملات حسی از رویکرد اصلی به آنچه او امیدوار است به عنوان جایگزینی برای چیزهایی که ادعا می کند به خط پایان نمی رسد بسازد، می دهد.
آنچه در ادامه می آید متن مصاحبه با ویرایش اندکی است.
ZDNet: موضوع گفتگوی ما این مقاله است، "مسیری به سوی هوش ماشینی خودمختار"، بله، کدام نسخه 0.9.2 نسخه موجود است؟
یان لکون: بله، من این را یک سند کاری می دانم. بنابراین، من آن را در Open Review پست کردم، منتظر نظرات و پیشنهادات، شاید منابع اضافی، و سپس نسخه اصلاح شده آن هستم.
ZDNet: من می بینم که یورگن اشمیدهابر قبلاً نظراتی را به Open Review اضافه کرده است.
YL: خوب، بله، او همیشه این کار را می کند. من در مقاله خود به یکی از مقالات او اشاره می کنم. من فکر میکنم استدلالهایی که او در شبکههای اجتماعی مطرح کرد مبنی بر اینکه اساساً همه اینها را در سال 1991 اختراع کرده است، همانطور که در موارد دیگر انجام داده است، اینطور نیست. منظورم این است که انجام آن بسیار آسان استکاشت پرچم، و به نوعی، ایده ای را بدون هیچ آزمایشی، بدون هیچ نظریه ای بنویسید، فقط پیشنهاد کنید که می توانید این کار را به این طریق انجام دهید. اما، می دانید، تفاوت بزرگی بین داشتن ایده، و سپس وادار کردن آن به کار بر روی یک مشکل اسباب بازی، و سپس انجام دادن یک نظریه که نشان می دهد چرا کار می کند، وجود دارد، و سپس استقرار آن یک زنجیره کامل وجود دارد، و ایده او از اعتبار علمی این است که این اولین کسی است که به نوعی، می دانید، ایده آن را داشت، که باید تمام اعتبار را به دست آورد. و این مسخره است.
ZDNet: هر چیزی که در شبکه های اجتماعی می شنوید را باور نکنید.
YL: منظورم این است که مقاله اصلی که او می گوید من باید استناد کنم هیچ یک از ایده های اصلی را که من در مورد آن صحبت می کنم ندارد. او این کار را با GAN و چیزهای دیگر نیز انجام داده است که درست نبود. کاشت پرچم آسان است، کمک کردن بسیار دشوارتر است. و اتفاقاً در این مقاله خاص، من به صراحت گفتم که این یک مقاله علمی به معنای معمول کلمه نیست. این بیشتر یک مقاله موضعی در مورد اینکه این چیز باید به کجا برسد است. و چند ایده وجود دارد که ممکن است جدید باشند، اما بیشتر آنها اینطور نیستند. اساساً من ادعای هیچ اولویتی برای بیشتر آنچه در آن مقاله نوشتم ندارم.
ZDNet: و شاید این مکان خوبی برای شروع باشد، زیرا کنجکاو هستم که چرا اکنون این مسیر را دنبال کردید؟ چه شد که در این مورد فکر کردی؟ چرا می خواستی این را بنویسی؟
YL: خوب، بنابراین، من مدت زیادی است که به این موضوع فکر می کنم، در مورد مسیری به سوی هوش یا یادگیری و توانایی های سطح انسان یا حیوان. و در صحبتهایم درباره این موضوع کاملاً پر سر و صدا بودهام که هم یادگیری تحت نظارت و هم یادگیری تقویتی برای تقلید از نوع یادگیری که در حیوانات و انسانها مشاهده میکنیم کافی نیستند. من حدود هفت هشت سال است که این کار را انجام می دهم. بنابراین، جدید نیست. من سال ها پیش در NeurIPS یک سخنرانی کلیدی داشتم که در آن به این نکته اشاره کردم، اساسا، و صحبت های مختلف، ضبط شده وجود دارد. حالا چرا مقاله بنویسید؟ من به این نکته رسیدم - جف هینتون [محقق مغز گوگل] کاری مشابه انجام داده بود - منظورم این است که مطمئناً او بیش از من، ما زمان رو به پایان می بینیم. ما جوان نیستیم
ZDNet: شصت پنجاه جدید است.
YL: این درست است، اما نکته اینجاست که ما ادعاهای زیادی را می بینیم که چه کاری باید انجام دهیم تا به سمت سطح انسانی هوش مصنوعی پیش برویم. و ایده هایی وجود دارد که فکر می کنم به اشتباه هدایت می شوند. بنابراین، یک ایده این است، اوه، ما فقط باید استدلال نمادین را در بالای شبکه های عصبی اضافه کنیم. و من نمی دانم چگونه این کار را انجام دهم. بنابراین، شاید آنچه در مقاله توضیح دادم ممکن است رویکردی باشد که همان کار را بدون دستکاری نمادهای صریح انجام دهد. این همان گری مارکوسس سنتی جهان است. گری مارکوس یک فرد هوش مصنوعی نیست، اتفاقاً او یک روانشناس است. او هرگز به هوش مصنوعی کمک نکرده است. او در روانشناسی تجربی کار بسیار خوبی انجام داده است، اما هرگز مقاله ای در مورد هوش مصنوعی ننوشته است. بنابراین، آن افراد وجود دارند.
دیوید سیلورز، [دانشمند پژوهشی اصلی DeepMind] از جهان است که می گوید، می دانید، پاداش کافی است، اساساً همه چیز در مورد یادگیری تقویتی است، ما فقط باید آن را کمی کارآمدتر کنیم، خوب؟ و، فکر میکنم آنها اشتباه نمیکنند، اما فکر میکنم گامهای لازم برای کارآمدتر کردن یادگیری تقویتی، اساساً یادگیری تقویتی را به نوعی گیلاس روی کیک کاهش میدهد. و بخش اصلی گمشده، یادگیری نحوه عملکرد جهان است، عمدتاً با مشاهده بدون عمل. یادگیری تقویتی بسیار مبتنی بر عمل است، شما با انجام اقدامات و دیدن نتایج، چیزهایی در مورد جهان یاد می گیرید.
ZDNet: و بر پاداش متمرکز است.
YL: این بر پاداش متمرکز است، و همچنین متمرکز بر عمل است. بنابراین، شما باید در جهان عمل کنید تا بتوانید چیزی در مورد جهان بیاموزید. و ادعای اصلی من در مقاله در مورد یادگیری خود نظارتی این است که بیشتر یادگیری هایی که انجام می دهیم، آن را با انجام عملی انجام نمی دهیم، بلکه با مشاهده انجام می دهیم. و این بسیار نامتعارف است، هم برای تقویت افراد یادگیرنده، به ویژه، بلکه برای بسیاری از روانشناسان و دانشمندان علوم شناختی که فکر می کنند، می دانید، عمل است - من نمی گویم عمل ضروری نیست، بلکه is ضروری است. اما من فکر میکنم بخش عمدهای از چیزهایی که یاد میگیریم بیشتر در مورد ساختار جهان است و البته شامل تعامل و کنش و بازی و مواردی از این دست است، اما بسیاری از آنها مشاهدهای هستند.
ZDNet: همچنین میتوانید همزمان افراد Transformer، افرادی که زبان اول هستند را علامت بزنید. چگونه می توانید این را بدون زبان اول بسازید؟ ممکن است بتوانید افراد زیادی را تیک بزنید.
YL: آره من عادت دارم بنابراین، بله، افراد اول زبان هستند، که میگویند، میدانید، هوش در مورد زبان است، زیرلایه هوش زبان است، بل، بل، بل، بلا. اما این به نوعی هوش حیوانات را رد می کند. می دانید، ما به آن نقطه ای نیستیم که ماشین های هوشمند ما به اندازه یک گربه عقل سلیم داشته باشند. پس چرا از آنجا شروع نکنیم؟ چه چیزی به یک گربه اجازه می دهد تا دنیای اطراف را درک کند، کارهای بسیار هوشمندانه انجام دهد و برنامه ریزی کند و از این قبیل چیزها، و سگ ها حتی بهتر؟
بعد همه کسانی هستند که می گویند، اوه، هوش یک چیز اجتماعی است، درست است؟ ما باهوشیم چون با هم صحبت می کنیم و اطلاعات را رد و بدل می کنیم، و بلا، بل، بلا. انواع و اقسام گونه های غیراجتماعی وجود دارند که هرگز والدین خود را که بسیار باهوش هستند، مانند اختاپوس یا اورانگوتان ملاقات نمی کنند.منظورم این است که آنها [اورانگوتان ها] مطمئناً توسط مادرشان آموزش دیده اند، اما آنها حیوانات اجتماعی نیستند.
اما دسته دیگری از افرادی که ممکن است آنها را علامت بزنم افرادی هستند که می گویند مقیاس بندی کافی است. بنابراین، اساسا، ما فقط از ترانسفورماتورهای غول پیکر استفاده می کنیم، آنها را بر روی داده های چندوجهی آموزش می دهیم که شامل ویدئو، متن، بلا، بلا، بلا، می شود. ما به نوعی متحجر می شویمهمه چیز، و نشانه گذاری همه چیز، و سپس آموزش غول پیکرمدل هایی برای پیش بینی های گسسته، اساسا، و به نحوی AI از این پدیدار خواهد شد. آنها اشتباه نمی کنند، به این معنا که ممکن است جزء یک سیستم هوشمند آینده باشد. اما فکر میکنم قطعات ضروری را از دست داده است.
دسته دیگری از افراد وجود دارد که من با این مقاله تیک می زنم. و این احتمال گرایان، احتمال گرایان مذهبی هستند. بنابراین، افرادی که فکر می کنند نظریه احتمال تنها چارچوبی است که می توانید برای توضیح یادگیری ماشین استفاده کنید. و همانطور که سعی کردم در قطعه توضیح دهم، اساساً درخواست برای یک مدل جهانی که کاملاً احتمالی باشد بیش از حد است. ما نمی دانیم چگونه آن را انجام دهیم. غیرقابل حل بودن محاسباتی وجود دارد. بنابراین من پیشنهاد می کنم کل این ایده را کنار بگذارم. و البته، می دانید، این یک ستون عظیم نه تنها یادگیری ماشین، بلکه همه آمار است که ادعا می کند فرمالیسم معمولی برای یادگیری ماشین است.
مورد دیگر -
ZDNet: شما در حال چرخش هستید…
YL: - چیزی است که مدل های مولد نامیده می شود. بنابراین، این ایده که شما می توانید یاد بگیرید که پیش بینی کنید، و شاید بتوانید با پیش بینی چیزهای زیادی در مورد جهان بیاموزید. بنابراین، من یک تکه ویدیو را به شما میدهم و از سیستم میخواهم تا پیشبینی کند که در این ویدیو چه اتفاقی میافتد. و ممکن است از شما بخواهم که فریم های ویدیویی واقعی را با تمام جزئیات پیش بینی کنید. اما چیزی که در مقاله درباره آن بحث میکنم این است که در واقع خیلی زیاد و پیچیده است. و این چیزی است که من نظرم را در مورد آن تغییر دادم. تا حدود دو سال پیش، من طرفدار چیزی بودم که آن را مدلهای مولد متغیر پنهان مینامم، مدلهایی که پیشبینی میکنند چه اتفاقی میافتد یا اطلاعاتی که از دست میرود، احتمالاً با کمک یک متغیر پنهان، در صورتی که پیشبینی امکانپذیر نباشد. قطعی و من از این کار منصرف شدم و دلیلی که من از این کار صرف نظر کردهام بر اساس نتایج تجربی است، جایی که افراد سعی کردهاند آموزشهای مبتنی بر پیشبینی یا بازسازی از نوعی را اعمال کنند که در BERT استفاده میشود.و مدل های زبان بزرگ، آنها سعی کرده اند این را روی تصاویر اعمال کنند، و این یک شکست کامل بوده است. و دلیل شکست کامل آن، مجدداً به دلیل محدودیتهای مدلهای احتمالی است که پیشبینی نشانههای گسسته مانند کلمات نسبتاً آسان است زیرا میتوانیم توزیع احتمال را روی همه کلمات در فرهنگ لغت محاسبه کنیم. آسان است. اما اگر از سیستم بخواهیم توزیع احتمال را روی تمام فریمهای ویدئویی ممکن تولید کند، نمیدانیم چگونه آن را پارامتر کنیم، یا ایدهای داریم که چگونه آن را پارامترسازی کنیم، اما نمیدانیم چگونه آن را عادی کنیم. به یک مسئله ریاضی حل نشدنی برخورد می کند که ما نمی دانیم چگونه آن را حل کنیم.
بنابراین، به همین دلیل است که می گویم بیایید نظریه احتمال یا چارچوب چیزهایی مانند آن را کنار بگذاریم، مدل های ضعیف تر، مدل های مبتنی بر انرژی. من نیز برای چندین دهه از این امر دفاع کرده ام، بنابراین این یک چیز اخیر نیست. اما در عین حال، ایده مدلهای مولد را کنار گذاشت، زیرا چیزهای زیادی در جهان وجود دارد که قابل درک و پیشبینی نیستند. اگر مهندس هستید، به آن می گویید سر و صدا. اگر شما یک فیزیکدان هستید، آن را گرما می نامید. و اگر شما یک فرد یادگیری ماشینی هستید، آن را میدانید جزئیات بیربط یا هر چیز دیگری.
بنابراین، مثالی که من در مقاله استفاده کردم، یا در گفتگوها استفاده کردم، این است که شما یک سیستم پیشبینی جهان میخواهید که در خودروهای خودران کمک کند، درست است؟ میخواهد بتواند از قبل مسیر همه ماشینهای دیگر را پیشبینی کند، چه اتفاقی قرار است برای اشیایی که ممکن است حرکت کنند، عابران پیاده، دوچرخهها، بچهای که دنبال توپ فوتبال میدود، چیزهایی شبیه به آن. بنابراین، همه نوع چیز در مورد جهان. اما در کنار جاده، ممکن است درختان وجود داشته باشد، و امروز باد میوزد، بنابراین برگها در باد حرکت میکنند، و پشت درختها یک حوض وجود دارد، و موجهایی در برکه وجود دارد. و اینها اساساً پدیده هایی غیرقابل پیش بینی هستند. و، شما نمی خواهید مدل شما مقدار قابل توجهی از منابع را صرف پیش بینی چیزهایی کند که پیش بینی آنها سخت و بی ربط است. بنابراین به همین دلیل است که من از معماری جاسازی مشترک دفاع می کنم، چیزهایی که متغیری را که می خواهید مدل کنید، سعی نمی کنید آن را پیش بینی کنید، سعی می کنید آن را مدل کنید، اما از طریق یک رمزگذار اجرا می شود، و آن رمزگذار می تواند بسیاری از جزئیات مربوط به ورودی را که نامربوط یا بسیار پیچیده هستند حذف کند - اساساً معادل نویز.
ZDNet: ما در اوایل سال جاری درباره مدلهای مبتنی بر انرژی، JEPA و H-JEPA بحث کردیم. حس من، اگر شما را به درستی درک کرده باشم، این است که شما نقطه کم انرژی را پیدا می کنید که در آن این دو پیش بینی تعبیه X و Y بیشتر شبیه به هم هستند، به این معنی که اگر یک کبوتر در یک درخت در یکی باشد، و چیزی در آن وجود داشته باشد. پس زمینه یک صحنه، ممکن است این نکات اساسی نباشند که این تعبیه ها را به یکدیگر نزدیک می کند.
YL: درست. بنابراین، معماری JEPA در واقع سعی میکند بین استخراج بازنماییهایی که حداکثر اطلاعات را در مورد ورودیها دارند، اما با سطحی از دقت یا قابلیت اطمینان از یکدیگر قابل پیشبینی هستند، یک معاوضه، یک مصالحه پیدا کند. یک معامله پیدا می کند. بنابراین، اگر بین صرف مقدار زیادی از منابع از جمله جزئیات حرکت برگها، و سپس مدلسازی دینامیک که تصمیم میگیرد چگونه برگها در یک ثانیه حرکت میکنند، یا فقط انداختن آن روی زمین، یکی را انتخاب کند. فقط در اصل متغیر Y را از طریق یک پیشبینیکننده اجرا میکند که تمام آن جزئیات را حذف میکند، احتمالاً آن را حذف میکند زیرا مدلسازی و گرفتن آن بسیار سخت است.
ZDNet: یکی از چیزهایی که باعث تعجب می شود این است که شما طرفدار بزرگی بودید که می گفتید "این کار می کند، ما بعداً نظریه ترمودینامیک را برای توضیح آن کشف خواهیم کرد." در اینجا شما رویکردی را اتخاذ کردهاید: «نمیدانم چگونه میخواهیم لزوماً این را حل کنیم، اما میخواهم ایدههایی را برای فکر کردن درباره آن مطرح کنم» و شاید حتی به یک نظریه یا فرضیه نزدیک شوید. کمترین. این جالب است زیرا افراد زیادی هستند که پول زیادی را صرف کار روی ماشین میکنند که بدون در نظر گرفتن اینکه ماشین عقل سلیم دارد یا خیر، میتوانند عابر پیاده را ببینند. و من تصور میکنم برخی از این افراد تیکدار نخواهند شد، اما آنها میگویند، "بسیار خوب است، ما اهمیتی نمیدهیم که عقل سلیم نداشته باشد، ما یک شبیهسازی ساختهایم، شبیهسازی شگفتانگیز است. و ما به بهبود ادامه میدهیم، به مقیاسبندی شبیهسازی ادامه میدهیم."
و بنابراین جالب است که شما اکنون در موقعیتی هستید که میگویید، بیایید یک قدم به عقب برگردیم و به کاری که انجام میدهیم فکر کنیم. و صنعت میگوید که ما فقط به مقیاس، مقیاس، مقیاس، مقیاس میپردازیم، زیرا آن میل لنگ واقعاً کار میکند. منظورم این است که میل لنگ نیمه هادی پردازنده های گرافیکی واقعا کار می کند.
YL: مثلاً پنج سؤال در آنجا وجود دارد. بنابراین، منظورم این است که مقیاس بندی ضروری است. من از این موضوع انتقاد نمی کنم که باید مقیاس کنیم. ما باید مقیاس کنیم. این شبکه های عصبی با بزرگتر شدن بهتر می شوند. شکی نیست که باید مقیاس کنیم. و آنهایی که سطحی از عقل سلیم دارند بزرگ خواهند بود. هیچ راهی برای دور زدن آن وجود ندارد، من فکر می کنم. بنابراین مقیاس بندی خوب است، لازم است، اما کافی نیست. این نکته ای است که من به آن اشاره می کنم. این فقط پوسته پوسته شدن نیست. این اولین نکته است.
نکته دوم، اینکه آیا نظریه اول است یا خیر و مواردی از این قبیل. بنابراین، من فکر میکنم مفاهیمی هستند که در ابتدا مطرح میشوند که، شما باید یک قدم به عقب بردارید و بگویید، خوب، ما این نردبان را ساختیم، اما میخواهیم به ماه برویم و هیچ راهی وجود ندارد که این نردبان ما را به آنجا برساند. بنابراین، اساساً آنچه من اینجا می نویسم این است که ما باید موشک بسازیم. من نمی توانم جزئیاتی در مورد نحوه ساخت موشک به شما بدهم، اما در اینجا اصول اولیه وجود دارد. و من برای آن نظریه یا هیچ چیز دیگری نمی نویسم، اما، این یک موشک خواهد بود، خوب؟ یا یک آسانسور فضایی یا هر چیز دیگری. ما ممکن است تمام جزئیات تمام فناوری را نداشته باشیم. ما در تلاشیم تا برخی از این کارها را انجام دهیم، مانند اینکه من روی JEPA کار کرده ام. جاسازی مشترک برای تشخیص تصویر بسیار خوب عمل می کند، اما برای استفاده از آن برای آموزش یک مدل جهانی، مشکلاتی وجود دارد. ما روی آن کار می کنیم، امیدواریم بتوانیم آن را به نتیجه برسانیم soon، اما ممکن است در آنجا با موانعی روبرو شویم که احتمالاً نتوانیم از آنها عبور کنیم.
سپس یک ایده کلیدی در مقاله در مورد استدلال وجود دارد که اگر میخواهیم سیستمها بتوانند برنامهریزی کنند، که میتوانید آن را به عنوان شکل ساده استدلال در نظر بگیرید، باید متغیرهای پنهان داشته باشند. به عبارت دیگر، چیزهایی که توسط هیچ شبکه عصبی محاسبه نمیشوند، بلکه چیزهایی هستند که محاسبه میشوند - که مقدار آنها به گونهای استنباط میشود که برخی از تابع هدف، برخی تابع هزینه را به حداقل میرسانند. و سپس می توانید از این تابع هزینه برای هدایت رفتار سیستم استفاده کنید. و این اصلا ایده جدیدی نیست، درست است؟ این کنترل بسیار کلاسیک و بهینه است که اساس آن به اواخر دهه 50 و اوایل دهه 60 باز می گردد. بنابراین، ادعای هیچ تازگی در اینجا نیست. اما چیزی که من می گویم این است که این نوع استنتاج باید بخشی از یک سیستم هوشمند باشد که قادر به برنامه ریزی است و رفتار آن را می توان مشخص یا کنترل کرد نه با یک رفتار سخت، نه با تقلید، بلکه توسط یک تابع عینی که رفتار را هدایت می کند - لزوماً باعث یادگیری نمی شود، اما رفتار را هدایت می کند. می دانید، ما این را در مغز خود داریم و هر حیوانی هزینه ذاتی یا انگیزه های ذاتی برای چیزها دارد. این باعث می شود که نوزادان نه ماهه بخواهند بایستند. هزینه شاد بودن در هنگام ایستادن، این عبارت در تابع هزینه سخت است. اما نحوه ایستادن شما اینطور نیست، این یادگیری است.
ZDNet: فقط برای تکمیل این نکته، به نظر میرسد که بسیاری از جامعه یادگیری عمیق با چیزی که عقل سلیم ندارد پیش میروند. به نظر می رسد که شما در اینجا یک استدلال کاملاً واضح دارید که در نقطه ای به بن بست تبدیل می شود. برخی از مردم می گویند ما به یک خودروی خودران با عقل سلیم نیاز نداریم زیرا مقیاس بندی این کار را انجام می دهد. به نظر می رسد که می گویید ادامه دادن در این مسیر اشکالی ندارد؟
YL: می دانید، من فکر می کنم کاملاً ممکن است که ما اتومبیل های خودران سطح پنج بدون عقل سلیم داشته باشیم. اما مشکل این رویکرد، این است که موقتی خواهد بود، زیرا شما باید آن را مهندسی کنید. بنابراین، می دانید، کل جهان را نقشه برداری کنید، انواع رفتارهای خاص در گوشه و کنار را مشخص کنید، به اندازه کافی داده جمع آوری کنید تا همه موقعیت های عجیب و غریبی را که می توانید در جاده ها با آنها روبرو شوید، داشته باشید، بل، بلا، بلا. و حدس من این است که با سرمایه گذاری و زمان کافی، فقط می توانید آن را مهندسی کنید. اما در نهایت، راهحل رضایتبخشتر و احتمالاً بهتری وجود خواهد داشت که شامل سیستمهایی میشود که کار بهتری در درک نحوه کار جهان انجام میدهند و، میدانید، سطحی از آنچه ما عقل سلیم مینامیم دارد. این نیازی به عقل سلیم در سطح انسان نیست، بلکه نوعی دانش است که سیستم می تواند با تماشا کردن به دست آورد، اما نه تماشای رانندگی یک نفر، فقط تماشای چیزهایی که در اطراف حرکت می کنند و چیزهای زیادی در مورد جهان درک می کنند، و پایه و اساس پس زمینه ایجاد می کنند. دانش در مورد نحوه کار دنیا که در بالای آن می توانید رانندگی را یاد بگیرید.
بگذارید یک مثال تاریخی در این مورد بزنم. بینش کامپیوتری کلاسیک بر اساس بسیاری از ماژولهای مهندسی شده و سختافزاری بود که در بالای آنها، لایهای نازک از یادگیری خواهید داشت. بنابراین، مواردی که در سال 2012 توسط AlexNet شکست خورد، اساساً دارای اولین مرحله، استخراج ویژگیهای دست ساز، مانند SIFTs [تبدیل ویژگی ثابت مقیاس (SIFT)، یک تکنیک بینایی کلاسیک برای شناسایی اشیاء برجسته در یک تصویر] بود. و HOG [هیستوگرام گرادیان های جهت دار، یکی دیگر از تکنیک های کلاسیک] و چیزهای مختلف دیگر. و سپس لایه دوم از ویژگی های سطح متوسط، بر اساس هسته ویژگی و هر چیز دیگری، و نوعی روش بدون نظارت. و سپس در بالای این، یک ماشین بردار پشتیبان یا یک طبقهبندی نسبتا ساده قرار میدهید. و این به نوعی خط لوله استاندارد از اواسط دهه 2000 تا 2012 بود. و با شبکه های کانولوشنال سرتاسر جایگزین شد، جایی که شما هیچ یک از این ها را سیم کشی نمی کنید، فقط داده های زیادی دارید. و شما چیز را از سر به انتها آموزش می دهید، این رویکردی است که من برای مدت طولانی از آن دفاع می کردم، اما می دانید، تا آن زمان، برای مشکلات بزرگ عملی نبود.
داستان مشابهی در تشخیص گفتار وجود دارد که در آن، دوباره، حجم عظیمی از مهندسی دقیق برای نحوه پیشپردازش دادهها، استخراج cepstrum در مقیاس انبوه [معکوس تبدیل فوریه سریع برای پردازش سیگنال] و سپس استخراج شده است. شما مدلهای مارکوف پنهان را دارید، با معماری از پیش تعیینشده، بله، بله، بلا، با ترکیبی از گاوسیها. و بنابراین، کمی شبیه به معماری ویژن است که در آن قسمت جلویی، و سپس یک لایه میانی تا حدودی بدون نظارت، آموزش دیده، و سپس یک لایه نظارت شده در بالای آن ساخته شده است. و اکنون این اساساً توسط شبکه های عصبی انتها به انتها از بین رفته است. بنابراین من به نوعی چیزی شبیه به تلاش برای یادگیری همه چیز را در آنجا می بینم، اما شما باید پیشینه مناسب، معماری مناسب، ساختار مناسب داشته باشید.
ZDNet: آنچه شما می گویید این است که برخی از افراد سعی می کنند چیزی را مهندسی کنند که در حال حاضر با یادگیری عمیق کار نمی کند، مثلاً در صنعت، و آنها شروع به ایجاد چیزی می کنند که همان چیزی است که در بینایی کامپیوتر منسوخ شده است؟
YL: درست. و تا حدودی به همین دلیل است که افرادی که در چند سال گذشته روی رانندگی خودکار کار میکنند کمی بیش از حد خوشبین بودهاند، به این دلیل است که، میدانید، چیزهای عمومی مانند شبکههای کانولوشن و ترانسفورماتورها را دارید که میتوانید دادهها را به آنها پرتاب کنید. ، و تقریباً می تواند هر چیزی را یاد بگیرد. بنابراین، شما می گویید، خوب، من راه حلی برای آن مشکل دارم. اولین کاری که انجام میدهید این است که یک دمو میسازید که ماشین برای چند دقیقه خودش را بدون آسیب رساندن به کسی رانندگی کند. و سپس متوجه میشوید که موارد گوشهای زیادی وجود دارد، و سعی میکنید با دوبرابر کردن مجموعه آموزشی، منحنی آن را ترسیم کنید که چقدر بهتر میشوم، و متوجه میشوید که هرگز به آنجا نخواهید رسید، زیرا انواع گوشهها وجود دارد. . و شما باید خودرویی داشته باشید که کمتر از هر 200 میلیون کیلومتر باعث تصادف مرگبار شود، درست است؟ بنابراین، چه کار می کنید؟ خوب، شما در دو جهت راه بروید.
اولین جهت این است که چگونه می توانم مقدار داده هایی را که برای یادگیری سیستم من ضروری است کاهش دهم؟ و اینجاست که یادگیری خود نظارتی وارد میشود. بنابراین، بسیاری از لباسهای ماشینهای خودران علاقه زیادی به یادگیری خودنظارتی دارند، زیرا این روشی است برای استفاده از مقادیر عظیمی از دادههای نظارتی برای یادگیری تقلیدی، اما به دست آوردن عملکرد بهتر توسط اساساً قبل از آموزش و هنوز کاملاً به نتیجه نرسیده است، اما خواهد شد. و سپس گزینه دیگری وجود دارد که اکثر شرکتهایی که در این مرحله پیشرفتهتر هستند، آن را پذیرفتهاند، این است که، بسیار خوب، ما میتوانیم آموزش انتها به انتها را انجام دهیم، اما موارد گوشهای زیادی وجود دارد که میتوانیم. بنابراین ما فقط سیستمهایی را مهندسی میکنیم که از آن موارد گوشهای مراقبت میکنند، و اساساً، آنها را بهعنوان موارد خاص در نظر میگیرند، کنترل را سیمکشی میکنند، و سپس بسیاری از رفتارهای اساسی را برای رسیدگی به موقعیتهای خاص سیمکشی میکنند. و اگر یک تیم به اندازه کافی بزرگ از مهندسان دارید، ممکن است آن را از بین ببرید. اما زمان زیادی طول می کشد، و در نهایت، هنوز هم کمی شکننده خواهد بود، شاید به اندازه کافی قابل اعتماد باشد که بتوانید آن را گسترش دهید، اما با سطحی از شکنندگی، که با رویکرد مبتنی بر یادگیری بیشتر که ممکن است در خودروها آینده نخواهند داشت زیرا ممکن است سطحی از عقل سلیم و درک در مورد نحوه کار جهان داشته باشند.
در کوتاهمدت، رویکرد مهندسی شده برنده خواهد شد – که از قبل برنده است. این Waymo و Cruise جهان و Wayve استو هر چه باشد، این همان کاری است که آنها انجام می دهند. سپس رویکرد یادگیری خود نظارتی وجود دارد که احتمالاً به رویکرد مهندسی برای پیشرفت کمک می کند. اما پس از آن، در دراز مدت، که ممکن است برای آن شرکتها خیلی طولانی باشد، احتمالاً یک سیستم رانندگی هوشمند خودکار یکپارچهتر خواهد بود.
ZDNet: ما می گوییم فراتر از افق سرمایه گذاری اکثر سرمایه گذاران.
YL: درست است. بنابراین، سوال این است که آیا قبل از اینکه عملکرد به سطح مطلوب برسد، صبر و حوصله افراد را از دست می دهند یا پولشان تمام می شود؟
ZDNet: آیا چیز جالبی برای گفتن وجود دارد که چرا برخی از عناصری را که در مدل انتخاب کرده اید انتخاب کرده اید؟ چون شما به کنت کریک [1943،ماهیت توضیح]، و شما برایسون و هو [1969، اعمال کنترل بهینه]، و من کنجکاو هستم که چرا شما با این تأثیرات شروع کردید، اگر به ویژه معتقد بودید که این افراد آن را تا جایی که انجام داده بودند، میخکوب کردند. چرا از آنجا شروع کردید؟
YL: خب، من فکر نمیکنم، مطمئناً، آنها تمام جزئیات را میخکوب کرده بودند. بنابراین، برایسون و هو، این کتابی است که در سال 1987 زمانی که با جفری هینتون در تورنتو فوق دکترا بودم، خواندم. اما من از قبل زمانی که دکترای خود را می نوشتم از این رشته کار می دانستم و اساساً ارتباط بین کنترل بهینه و پشتیبان را ایجاد کردم. اگر واقعاً میخواستید، میدانید، یکی دیگر از اشمیدوبر باشید، میگفتید که مخترعان واقعی backprop در واقع نظریهپردازان کنترل بهینه هنری جی. کلی، آرتور برایسون، و شاید حتی لو پونتریاگین، که یک نظریهپرداز روسی کنترل بهینه است، بودند. در اواخر دهه 50
بنابراین، آنها آن را کشف کردند، و در واقع، شما در واقع می توانید ریشه این را ببینید، ریاضیات زیر آن، مکانیک لاگرانژی است. بنابراین میتوانید در واقع به اویلر و لاگرانژ برگردید و در تعریف مکانیک کلاسیک لاگرانژی واقعاً بویی از این را بیابید. بنابراین، در زمینه کنترل بهینه، چیزی که این افراد به آن علاقه داشتند اساساً محاسبه مسیرهای موشکی بود. می دانید، این دوران اولیه فضا بود. و اگر مدلی از موشک دارید، به شما می گوید که در اینجا وضعیت موشک در آن زمان است t، و در اینجا اقدامی است که من می خواهم انجام دهم، بنابراین، رانش و محرک انواع مختلف، در اینجا وضعیت موشک در آن زمان است. t + 1.
ZDNet: یک مدل اقدام دولت، یک مدل ارزش.
YL: درست است، اساس کنترل. بنابراین، اکنون می توانید با تصور دنباله ای از دستورات، شلیک موشک خود را شبیه سازی کنید و سپس مقداری تابع هزینه دارید، که فاصله موشک تا هدف، ایستگاه فضایی یا هر چیز دیگری است. و سپس با نوعی نزول گرادیان، می توانید بفهمید که چگونه می توانم دنباله اقدامات خود را به روز کنم تا موشک من در واقع تا حد امکان به هدف نزدیک شود. و این باید با انتشار سیگنال های معکوس در زمان انجام شود. و این انتشار به عقب، پس انتشار گرادیان است. این سیگنالها، در مکانیک لاگرانژی متغیرهای مزدوج نامیده میشوند، اما در واقع، آنها گرادیان هستند. بنابراین، آنها پشتیبان را اختراع کردند، اما متوجه نشدند که این اصل می تواند برای آموزش یک سیستم چند مرحله ای استفاده شود که می تواند تشخیص الگو یا چیزی شبیه به آن را انجام دهد. شاید تا اواخر دهه 70، اوایل دهه 80، این واقعاً محقق نشد و پس از آن تا اواسط دهه 80 عملاً اجرا نشد و به کار نیفتاد. بسیار خوب، پس، این همان جایی است که backprop واقعاً شروع شد، زیرا مردم در اینجا چند خط کد را نشان دادند که میتوانید یک شبکه عصبی، سرتاسر، چند لایه را آموزش دهید. و این محدودیت های Perceptron را برطرف می کند. و، بله، ارتباطاتی با کنترل بهینه وجود دارد، اما اشکالی ندارد.
ZDNet: بنابراین، این راه طولانی برای گفتن این موضوع است که این تأثیراتی که شما با آن شروع کردید به پشتوانه بازگشته بودند، و این به عنوان نقطه شروع برای شما مهم بود؟
YL: بله، اما فکر میکنم چیزی که مردم کمی آن را فراموش کردند، در دهه 90 یا حتی دهه 80 روی این موضوع کار زیادی انجام شد، از جمله توسط افرادی مانند مایکل جردن [بخش مغز MIT و علوم شناختی] و افرادی مانند آن که دیگر شبکه های عصبی را انجام نمی دهند، بلکه این ایده که می توان از شبکه های عصبی برای کنترل استفاده کرد و می توان از ایده های کلاسیک کنترل بهینه استفاده کرد. بنابراین، چیزهایی مانند آنچه که به آن کنترل پیش بینی مدل می گویند، آنچه که اکنون کنترل پیش بینی مدل نامیده می شود، این ایده که اگر مدل خوبی از سیستمی دارید که می خواهید کنترل کنید، می توانید نتیجه یک دنباله از اقدامات را شبیه سازی کنید یا تصور کنید. و محیطی که در آن قرار دارد. و سپس با نزول گرادیان، اساسا - این یادگیری نیست، این استنتاج است - شما می توانید بفهمید که بهترین توالی اقداماتی که هدف من را به حداقل می رساند چیست. بنابراین، استفاده از یک تابع هزینه با یک متغیر پنهان برای استنتاج، به نظر من، چیزی است که محصولات فعلی شبکه های عصبی در مقیاس بزرگ آن را فراموش کرده اند. اما این یک جزء بسیار کلاسیک از یادگیری ماشین برای مدت طولانی بود. بنابراین، هر شبکه بیزی یا مدل گرافیکی یا مدل گرافیکی احتمالی از این نوع استنتاج استفاده می کرد. شما یک مدل دارید که وابستگیهای بین دستهای از متغیرها را نشان میدهد، مقدار برخی از متغیرها به شما گفته میشود، و سپس باید محتملترین مقدار بقیه متغیرها را استنتاج کنید. این اصل اساسی استنتاج در مدل های گرافیکی و شبکه های بیزی و مواردی از این دست است. و من فکر می کنم که اساساً این همان چیزی است که استدلال باید درباره آن باشد، استدلال و برنامه ریزی.
ZDNet: تو یک بیزی کمد هستی
YL: من یک بیزی غیر احتمالی هستم. من اون شوخی رو قبلا کردم من در واقع چند سال پیش در NeurIPS بودم، فکر میکنم در سال 2018 یا 2019 بود، و توسط یک بیزی از من در ویدیو گرفتار شد که از من پرسید که آیا من بیزی هستم، و من گفتم، بله، من یک بیزی هستم، اما من اگر بخواهید، من یک بیزی غیر احتمالی، نوعی بیزی مبتنی بر انرژی هستم.
ZDNet: که قطعا شبیه چیزی از آن به نظر می رسد پیشتازان فضا. شما در پایان این مقاله اشاره کردید، برای تحقق بخشیدن به آنچه تصور میکنید، سالها کار واقعاً سخت طول میکشد. به من بگویید که برخی از آن کار در حال حاضر شامل چه مواردی است.
YL: بنابراین، من نحوه آموزش و ساختن JEPA را در مقاله توضیح می دهم. و معیاری که من از آن دفاع می کنم، داشتن راهی برای به حداکثر رساندن محتوای اطلاعاتی است که بازنمایی هایی که استخراج می شوند در مورد ورودی دارند. و سپس مورد دوم به حداقل رساندن خطای پیش بینی است. و اگر یک متغیر پنهان در پیش بینی دارید که به پیش بینی کننده اجازه می دهد قطعی نباشد، باید این متغیر پنهان را با به حداقل رساندن محتوای اطلاعاتی آن منظم کنید. بنابراین، شما در حال حاضر دو مسئله دارید، این است که چگونه محتوای اطلاعاتی خروجی یک شبکه عصبی را به حداکثر میرسانید، و دیگری این که چگونه محتوای اطلاعاتی یک متغیر پنهان را به حداقل میرسانید؟ و اگر این دو کار را انجام ندهید، سیستم فرو خواهد ریخت. چیز جالبی یاد نخواهد گرفت. به همه چیز انرژی صفر می دهد، چیزی شبیه به آن، که مدل خوبی برای وابستگی نیست. این مشکل پیشگیری از فروپاشی است که به آن اشاره می کنم.
و من می گویم از تمام کارهایی که مردم تا به حال انجام داده اند، تنها دو دسته روش برای جلوگیری از فروپاشی وجود دارد. یکی روش های متضاد و دیگری روش های منظم شده است. بنابراین، این ایده برای به حداکثر رساندن محتوای اطلاعاتی بازنمایی دو ورودی و به حداقل رساندن محتوای اطلاعاتی متغیر پنهان، متعلق به روشهای منظم شده است. اما بسیاری از کارها در این معماری های تعبیه مشترک از روش های کنتراست استفاده می کنند. در واقع، آنها احتمالاً در حال حاضر محبوب ترین هستند. بنابراین، سؤال این است که دقیقاً چگونه محتوای اطلاعاتی را به گونهای اندازهگیری میکنید که بتوانید آن را بهینه یا به حداقل برسانید؟ و اینجاست که همه چیز پیچیده می شود زیرا ما نمی دانیم چگونه محتوای اطلاعاتی را اندازه گیری کنیم. ما میتوانیم آن را تقریبی کنیم، میتوانیم آن را به کران بالا برسانیم، میتوانیم چنین کارهایی را انجام دهیم. اما آنها در واقع محتوای اطلاعاتی را اندازه گیری نمی کنند، که در واقع تا حدی حتی به خوبی تعریف نشده است.
ZDNet: این قانون شانون نیست؟ این تئوری اطلاعات نیست؟ شما مقدار مشخصی از آنتروپی، آنتروپی خوب و آنتروپی بد دارید، و آنتروپی خوب یک سیستم نمادی است که کار می کند، آنتروپی بد نویز است. آیا همه چیز توسط شانون حل نشده است؟
YL: حق با شماست، اما یک نقص بزرگ در پشت آن وجود دارد. حق با شماست از این نظر که اگر دادههایی دارید که به سمت شما میآیند و میتوانید به نحوی دادهها را به نمادهای گسسته تبدیل کنید، و سپس احتمال هر یک از آن نمادها را اندازهگیری کنید، حداکثر مقدار اطلاعاتی که توسط آن نمادها منتقل میشود جمع بیش از نمادهای ممکن از پای لاگ پی، درست؟ جایی که Pi احتمال نماد است من - آنتروپی شانون است. [قانون شانون معمولاً به صورت H = – ∑ pi log pi فرموله می شود.]
اما مشکل اینجاست: چیست Pi? وقتی تعداد نمادها کم باشد و نمادها به طور مستقل ترسیم شوند، آسان است. وقتی نمادها و وابستگی های زیادی وجود دارد، بسیار سخت است. بنابراین، اگر دنباله ای از بیت ها دارید و بیت ها را مستقل از یکدیگر فرض می کنید و احتمال آن ها بین یک و صفر یا هر چیز دیگری برابر است، می توانید به راحتی آنتروپی را اندازه گیری کنید، مشکلی نیست. اما اگر چیزهایی که به سراغ شما می آیند بردارهایی با ابعاد بالا هستند، مانند، می دانید، فریم های داده یا چیزی شبیه به این، چیست؟ Pi? توزیع چیست؟ ابتدا باید آن فضا را که فضایی با ابعاد بالا و پیوسته است، کمی کنید. شما هیچ ایده ای ندارید که چگونه این را به درستی اندازه گیری کنید. شما می توانید از k-means و غیره استفاده کنید. این کاری است که افراد هنگام فشرده سازی ویدیو و فشرده سازی تصویر انجام می دهند. اما این فقط یک تقریب است. و سپس شما باید فرضیات استقلال را بسازید. بنابراین، واضح است که در یک ویدیو، فریم های متوالی مستقل نیستند. وابستگی هایی وجود دارد، و آن فریم ممکن است به فریم دیگری بستگی داشته باشد که یک ساعت پیش دیدید، که تصویری از همان چیز بود. بنابراین، می دانید، نمی توانید اندازه گیری کنید Pi. اندازه گرفتن Pi، شما باید یک سیستم یادگیری ماشینی داشته باشید که پیش بینی را بیاموزد. و بنابراین شما به مشکل قبلی برگشتید. بنابراین، اساساً فقط میتوانید اندازهگیری اطلاعات را تقریبی کنید.
بگذارید مثال ملموستری بزنم. یکی از الگوریتمهایی که با آن بازی کردهایم و در قطعه درباره آن صحبت کردهام، این چیزی است که VICReg نامیده میشود، واریانس-ناواریانس-کوواریانس منظمسازی. این در یک مقاله جداگانه است که در ICLR منتشر شده است، و روی arXiv قرار گرفت حدود یک سال قبل از آن، سال 2021. و ایده این است که اطلاعات را به حداکثر برسانیم. و این ایده در واقع از مقاله قبلی گروه من به نام به وجود آمد دوقلوهای بارلو. اساساً با این فرض که تنها وابستگی بین متغیرها همبستگی و وابستگی خطی است، محتوای اطلاعاتی یک بردار را که از یک شبکه عصبی خارج میشود، به حداکثر میرسانید. بنابراین، اگر فرض کنید که تنها وابستگی که بین جفت متغیرها، یا بین متغیرهای سیستم شما امکان پذیر است، همبستگی بین جفت اشیاء با ارزش است، که تقریب بسیار خشن است، در این صورت می توانید محتوای اطلاعاتی که از سیستم شما خارج می شود را به حداکثر برسانید. با اطمینان از اینکه همه متغیرها دارای واریانس غیر صفر هستند - فرض کنید، واریانس یک، مهم نیست چیست - و سپس همبستگی مجدد آنها، همان فرآیندی که سفید کردن نامیده می شود، همچنین جدید نیست. مشکل این است که شما به خوبی می توانید وابستگی های بسیار پیچیده ای بین هر دو گروه از متغیرها یا حتی فقط جفت متغیرهایی داشته باشید که وابستگی خطی نیستند و در همبستگی ها نشان داده نمی شوند. بنابراین، برای مثال، اگر شما دو متغیر داشته باشید، و تمام نقاط آن دو متغیر در یک مارپیچ قرار گیرند، وابستگی بسیار قوی بین آن دو متغیر وجود دارد، درست است؟ اما در واقع، اگر همبستگی بین این دو متغیر را محاسبه کنید، آنها همبستگی ندارند. بنابراین، در اینجا یک مثال آورده شده است که در آن محتوای اطلاعاتی این دو متغیر در واقع بسیار کوچک است، این فقط یک کمیت است زیرا موقعیت شما در مارپیچ است. آنها همبستگی ندارند، بنابراین فکر میکنید اطلاعات زیادی از آن دو متغیر بیرون میآیند، در حالی که در واقع ندارید، میدانید، شما فقط میتوانید اساساً یکی از متغیرها را از دیگری پیشبینی کنید. بنابراین، این نشان می دهد که ما فقط راه های بسیار تقریبی برای اندازه گیری محتوای اطلاعاتی داریم.
ZDNet: و بنابراین این یکی از چیزهایی است که اکنون باید روی آن کار کنید؟ این سوال بزرگتر است که چگونه بفهمیم که محتوای اطلاعاتی را به حداکثر و حداقل میرسانیم؟
YL: یا اینکه آیا پروکسی که برای این کار استفاده می کنیم به اندازه کافی برای کاری که می خواهیم خوب است. در واقع، ما این کار را همیشه در یادگیری ماشین انجام می دهیم. توابع هزینه ای که ما به حداقل می رسانیم هرگز آنهایی نیستند که در واقع می خواهیم به حداقل برسانیم. بنابراین، برای مثال، شما می خواهید طبقه بندی انجام دهید، خوب؟ تابع هزینه ای که می خواهید هنگام آموزش یک طبقه بندی کننده به حداقل برسانید، تعداد اشتباهاتی است که طبقه بندی کننده انجام می دهد. اما این یک تابع هزینه غیرقابل تمایز و وحشتناک است که نمی توانید آن را به حداقل برسانید زیرا می دانید که وزن شبکه عصبی خود را تغییر خواهید داد، تا زمانی که یکی از آن نمونه ها تصمیم خود را تغییر ندهد، چیزی تغییر نخواهد کرد، و سپس یک پرش در خطا، مثبت یا منفی.
ZDNet: بنابراین شما یک پروکسی دارید که یک تابع هدف است که قطعاً می توانید بگویید، ما قطعاً می توانیم گرادیان های این چیز را جریان دهیم.
YL: درست است. بنابراین مردم از این افت آنتروپی متقاطع یا SOFTMAX استفاده می کنند، شما چندین نام برای آن دارید، اما این یک چیز است. و اساساً یک تقریب هموار از تعداد خطاهایی است که سیستم انجام می دهد، جایی که هموارسازی اساساً با در نظر گرفتن امتیازی که سیستم به هر یک از دسته ها می دهد انجام می شود.
ZDNet: آیا چیزی وجود دارد که ما پوشش نداده ایم که شما بخواهید آن را پوشش دهید؟
YL: احتمالاً بر نکات اصلی تأکید دارد. من فکر میکنم سیستمهای هوش مصنوعی باید بتوانند استدلال کنند، و فرآیندی که من از آن حمایت میکنم، به حداقل رساندن برخی از اهداف با توجه به متغیرهای پنهان است. که به سیستم ها اجازه می دهد تا برنامه ریزی و استدلال کنند. من فکر میکنم که باید چارچوب احتمالی را کنار بگذاریم، زیرا زمانی که میخواهیم کارهایی مانند گرفتن وابستگیها بین متغیرهای با ابعاد بالا و پیوسته انجام دهیم، غیرقابل حل است. و من از کنار گذاشتن مدلهای مولد دفاع میکنم زیرا سیستم باید منابع زیادی را به پیشبینی چیزهایی اختصاص دهد که پیشبینی آنها بسیار دشوار است و ممکن است منابع زیادی مصرف کنند. و تقریباً همین است. اگر بخواهید این پیام های اصلی است. و سپس معماری کلی. سپس آن گمانهزنیها درباره ماهیت آگاهی و نقش پیکربندیکننده وجود دارد، اما این واقعاً حدس و گمان است.
ZDNet: دفعه بعد به آن خواهیم رسید. می خواستم از شما بپرسم که چگونه این موضوع را محک می زنید؟ اما من حدس میزنم که در حال حاضر کمی دورتر از محک زدن هستید؟
YL: نه لزوماً آنقدرها در نسخه های ساده شده. شما میتوانید کاری را که همه در یادگیری کنترلی یا تقویتی انجام میدهند، انجام دهید، یعنی چیزی را برای انجام بازیهای Atari یا چیزی شبیه به آن یا بازی دیگری که در آن مقداری عدم قطعیت وجود دارد، آموزش دهید.
ZDNet: ممنون از وقتی که گذاشتی، یان.