Гуру штучнага інтэлекту Meta ЛеКун: большасць сучасных падыходаў штучнага інтэлекту ніколі не прывядуць да сапраўднага інтэлекту

yann-lecun-sept-2022-1

«Я думаю, што сістэмы штучнага інтэлекту павінны ўмець разважаць», — кажа Ян ЛеКун, галоўны навуковец Meta па штучным інтэлекту. Папулярных сёння падыходаў штучнага інтэлекту, такіх як Трансформеры, многія з якіх грунтуюцца на яго ўласнай наватарскай працы ў гэтай галіне, будзе недастаткова. «Вы павінны зрабіць крок назад і сказаць: «Добра, мы пабудавалі гэтую лесвіцу, але мы хочам адправіцца на Месяц, і гэтая лесвіца ніяк не давядзе нас туды», — кажа Лекун.

Ян ЛеКун, галоўны навуковец А.І з Meta Properties, уладальніка Facebook, Instagram і WhatsApp, хутчэй за ўсё, зацікавіць многіх людзей у сваёй сферы. 

З публікацыяй у чэрвені артыкула для разважанняў на серверы Open Review, ЛеКун прапанаваў шырокі агляд падыходу, які, на яго думку, перспектыўны для дасягнення інтэлекту чалавечага ўзроўню ў машынах. 

Маецца на ўвазе, калі не сфармулявана ў артыкуле, сцвярджэнне, што большасць сучасных буйных праектаў у галіне штучнага інтэлекту ніколі не змогуць дасягнуць гэтай мэты на ўзроўні чалавека.

У дыскусіі ў гэтым месяцы з ZDNet праз Zoom ЛеКун даў зразумець, што ён з вялікім скепсісам глядзіць на многія найбольш паспяховыя напрамкі даследаванняў у галіне глыбокага навучання на дадзены момант.

«Я лічу, што яны неабходныя, але недастатковыя», — сказаў лаўрэат прэміі Цьюрынга ZDNet заняткаў сваіх аднагодкаў. 

Сюды ўваходзяць вялікія моўныя мадэлі, такія як GPT-3 на аснове Transformer і ім падобныя. Як характарызуе гэта ЛеКун, прыхільнікі Transformer вераць: «Мы токенізуем усё і навучаем гіганцкіямадэлі, каб рабіць дыскрэтныя прагнозы, і нейкім чынам з гэтага атрымаецца штучны інтэлект».

«Яны не памыляюцца, - кажа ён, - у тым сэнсе, што гэта можа быць кампанентам будучай інтэлектуальнай сістэмы, але я думаю, што ў ёй адсутнічаюць істотныя элементы».

Такім чынам: Свяціла штучнага інтэлекту Meta LeCun даследуе энергетычныя межы глыбокага навучання

Гэта ашаламляльная крытыка таго, што, здаецца, працуе, зыходзіць ад навукоўца, які ўдасканаліў выкарыстанне згортачных нейронавых сетак, практычнага метаду, які быў неверагодна прадуктыўным у праграмах глыбокага навучання. 

Лекун бачыць недахопы і абмежаванні ў многіх іншых вельмі паспяховых галінах гэтай дысцыпліны. 

Навучання з падмацаваннем таксама ніколі не будзе дастаткова, сцвярджае ён. Даследчыкі, такія як Дэвід Сільвер з DeepMind, які распрацаваў праграму AlphaZero, якая асвоіла шахматы, сёгі і го, засяроджваюцца на праграмах, якія "вельмі заснаваныя на дзеяннях", заўважае ЛеКун, але "большасць таго, што мы вывучаем, мы не робім гэта, сапраўды робячы дзеянні, мы робім гэта, назіраючы ". 

62-гадовы Лекун, з пункту гледжання дзесяцігоддзяў дасягненняў, тым не менш, выказвае настойлівасць супрацьстаяць тым, што, на яго думку, з'яўляюцца тупікамі, у якія многія, магчыма, спяшаюцца, і паспрабаваць угаварыць сваё поле ў тым накірунку, у якім, на яго думку, усё павінна ісці. 

«Мы бачым шмат прэтэнзій наконт таго, што мы павінны зрабіць, каб прасоўвацца да штучнага інтэлекту чалавечага ўзроўню», — кажа ён. «І ёсць ідэі, якія я лічу памылковымі».

«Мы яшчэ не да таго, каб нашы інтэлектуальныя машыны валодалі столькі ж здаровага сэнсу, колькі кошкі», — заўважае Лекун. «Дык чаму б нам не пачаць з гэтага?» 

Ён адмовіўся ад ранейшай веры ў выкарыстанне генератыўных сетак у такіх рэчах, як прагназаванне наступнага кадра ў відэа. "Гэта быў поўны правал", - кажа ён. 

Лекун асуджае тых, каго ён называе «рэлігійнымі імавернасны», якія «думаюць, што тэорыя імавернасцяў - адзіная аснова, якую можна выкарыстоўваць для тлумачэння машыннага навучання». 

Чыста статыстычны падыход невырашальны, кажа ён. «Занадта шмат патрабаваць, каб мадэль свету была цалкам імавернаснай; мы не ведаем, як гэта зрабіць».

Не толькі навукоўцы, але і прамысловы штучны інтэлект патрабуе глыбокага пераасэнсавання, сцвярджае ЛеКун. Натоўп аматараў беспілотных аўтамабіляў, такія стартапы, як Wayve, былі «крыху занадта аптымістычныя», кажа ён, думаючы, што яны могуць «кідаць дадзеныя ў» вялікія нейронавыя сеткі «і вы можаце даведацца амаль што заўгодна».

«Ведаеце, я думаю, што цалкам магчыма, што ў нас будуць аўтаномныя машыны пятага ўзроўню без здаровага сэнсу», — кажа ён, маючы на ​​ўвазе «ADAS». прасунутая сістэма дапамогі вадзіцелю тэрміны для самастойнага кіравання, "але вам прыйдзецца па-чартоўску распрацаваць гэта".

Такая празмерна распрацаваная тэхналогія самакіравання будзе такой жа рыпучай і ломкай, як і ўсе праграмы камп'ютэрнага зроку, якія састарэлі дзякуючы глыбокаму навучанню, лічыць ён.

«У рэшце рэшт, будзе больш задавальняючае і, магчыма, лепшае рашэнне, якое ўключае сістэмы, якія лепш разумеюць, як уладкованы свет».

Па дарозе ЛеКун выказвае некалькі падаўляючых поглядаў на сваіх галоўных крытыкаў, такіх як прафесар Нью-Йоркскага ўніверсітэта Гэры Маркус — «ён ніколі нічога не ўносіў у штучны інтэлект» — і Юрген Шмідхубер, судырэктар Інстытута даследаванняў штучнага інтэлекту Дале Моле — «гэта вельмі лёгка зрабіць сцягі ".

Акрамя крытыкі, больш важнае меркаванне Лекуна заключаецца ў тым, што перад усім ШІ сутыкаюцца некаторыя фундаментальныя праблемы, у прыватнасці, як вымяраць інфармацыю.

«Трэба зрабіць крок назад і сказаць: «Добра, мы пабудавалі гэтую лесвіцу, але мы хочам адправіцца на Месяц, і гэтая лесвіца ні ў якім разе не давядзе нас туды», — кажа ЛеКун пра сваё жаданне заахвоціць да пераасэнсавання асноўных паняццяў. «Па сутнасці, тое, што я тут пішу, заключаецца ў тым, што нам трэба будаваць ракеты, я не магу даць вам падрабязнасці таго, як мы будуем ракеты, але вось асноўныя прынцыпы».

Дакумент і думкі Лекуна ў інтэрв'ю можна лепш зразумець, прачытаўшы інтэрв'ю Лекуна раней у гэтым годзе з ZDNet у якім ён выступае за энергетычнае саманагляднае навучанне як шлях наперад да глыбокага навучання. Гэтыя разважанні даюць адчуванне асноўнага падыходу да таго, што ён спадзяецца пабудаваць у якасці альтэрнатывы таму, што, як ён сцвярджае, не дасягне фінішу. 

Далей ідзе крыху адрэдагаваная стэнаграма інтэрв'ю.

ZDNet: Тэма нашага чата - гэта артыкул "Шлях да аўтаномнага машыннага інтэлекту", версія 0.9.2 якой з'яўляецца існуючай версіяй, так?

Ян ЛеКун: Так, я лічу гэта, накшталт, рабочым дакументам. Такім чынам, я размясціў яго на Open Review, чакаючы, пакуль людзі зробяць каментарыі і прапановы, магчыма, дадатковыя спасылкі, а потым я падрыхтую перагледжаную версію. 

ZDNet: Я бачу, што Юрген Шмідхубер ужо дадаў некаторыя каментарыі да Open Review.

YL: Ну, так, ён заўсёды робіць. Я цытую адзін з яго дакументаў там у сваёй працы. Я думаю, што тыя аргументы, якія ён прыводзіў у сацыяльных сетках, што ён, па сутнасці, прыдумаў усё гэта ў 1991 годзе, як ён рабіў у іншых выпадках, проста не так. Я маю на ўвазе, што гэта вельмі лёгка зрабіцьвыстаўленне сцяга, і, накшталт, напісаць ідэю без якіх-небудзь эксперыментаў, без якой-небудзь тэорыі, проста выказаць здагадку, што вы маглі б зрабіць гэта такім чынам. Але, ведаеце, ёсць вялікая розніца паміж тым, каб проста мець ідэю, а затым прымусіць яе працаваць над праблемай цацкі, а потым прымусіць яе працаваць над рэальнай праблемай, а потым распрацаваць тэорыю, якая паказвае, чаму гэта працуе, і потым разгортванне яго. Ёсць цэлы ланцужок, і яго ідэя навуковай заслугі заключаецца ў тым, што гэта першы чалавек, які проста, накшталт, ведаеце, прыдумаў гэта, павінен атрымаць усю заслугу. І гэта смешна. 

ZDNet: Не верце ўсяму, што чуеце ў сацыяльных сетках. 

YL: Я маю на ўвазе, што асноўны дакумент, які, па яго словах, я павінен цытаваць, не мае ніводнай з асноўных ідэй, пра якія я кажу ў артыкуле. Ён рабіў гэта таксама з GAN і іншымі рэчамі, якія не аказаліся праўдай. Вывешваць сцягі лёгка, зрабіць унёсак значна складаней. І, дарэчы, у гэтай канкрэтнай працы я прама сказаў, што гэта не навуковая праца ў звычайным разуменні гэтага тэрміна. Гэта больш дакумент з пазіцыяй аб тым, куды гэта павінна ісці. І ёсць пара ідэй, якія могуць быць новымі, але большасць з іх не з'яўляюцца. Па сутнасці, я не прэтэндую на прыярытэт большасці з таго, што я напісаў у гэтай працы.

yann-lecun-sept-2022-2

Навучання з падмацаваннем таксама ніколі не будзе дастаткова, лічыць ЛеКун. Даследчыкі, такія як Дэвід Сільвер з DeepMind, які распрацаваў праграму AlphaZero, якая асвоіла шахматы, сёгі і го, «вельмі заснаваныя на дзеяннях», заўважае Лекун, але «большую частку навучання мы робім не праз тое, дзеянні, мы робім гэта, назіраючы ". 

ZDNet: І гэта, магчыма, добрае месца для пачатку, таму што мне цікава, чаму вы пайшлі па гэтым шляху цяпер? Што прымусіла вас задумацца пра гэта? Чаму вы хацелі гэта напісаць?

YL: Ну, так, я вельмі доўга думаў пра гэта, пра шлях да інтэлекту або навучання і магчымасцей на ўзроўні чалавека ці жывёлы. І ў сваіх размовах я даволі гучна казаў пра тое, што і навучанне пад наглядам, і навучанне з падмацаваннем недастатковыя для пераймання навучання, якое мы назіраем у жывёл і людзей. Я займаюся гэтым недзе гадоў сем-восем. Значыць, не нядаўна. У мяне быў асноўны даклад на NeurIPS шмат гадоў таму, дзе я, па сутнасці, зрабіў гэта, і розныя выступы, ёсць запісы. Цяпер, навошта пісаць артыкул зараз? Я падышоў да сутнасці - [даследчык Google Brain] Джэф Хінтан зрабіў нешта падобнае - я маю на ўвазе, вядома, больш яго, чым мяне, мы бачым, што час сыходзіць. Мы не маладыя.

ZDNet: Шэсцьдзесят — новыя пяцьдзесят. 

YL: Гэта праўда, але справа ў тым, што мы бачым шмат прэтэнзій адносна таго, што мы павінны зрабіць, каб прасунуцца да чалавечага ўзроўню штучнага інтэлекту. І ёсць ідэі, якія я лічу памылковымі. Такім чынам, адна з ідэй заключаецца ў тым, што мы павінны проста дадаць сімвалічныя развагі да нейронавых сетак. І я не ведаю, як гэта зрабіць. Такім чынам, магчыма, тое, што я растлумачыў у артыкуле, можа быць адным з падыходаў, які будзе рабіць тое ж самае без відавочных маніпуляцый сімваламі. Гэта свайго роду традыцыйна Гэры Маркузы свету. Гэры Маркус не чалавек ІІ, дарэчы, ён псіхолаг. Ён ніколі нічога не ўносіў у ІІ. Ён вельмі добра папрацаваў у галіне эксперыментальнай псіхалогіі, але ніколі не пісаў рэцэнзаваных артыкулаў па ІІ. Значыць, ёсць тыя людзі. 

Ёсць [галоўны навуковец DeepMind] Дэвід Сільверс з усяго свету, які кажа, што ўзнагароджання дастаткова, у асноўным, уся справа ў навучанні з падмацаваннем, нам проста трэба зрабіць яго крыху больш эфектыўным, добра? І я думаю, што яны не памыляюцца, але я думаю, што неабходныя крокі да таго, каб зрабіць навучанне з падмацаваннем больш эфектыўным, па сутнасці, аднясуць навучанне з падмацаваннем да свайго роду вішанькі на торце. І галоўная частка, якой не хапае, - гэта вывучэнне таго, як уладкованы свет, у асноўным шляхам назірання без дзеянняў. Навучанне з падмацаваннем вельмі заснавана на дзеяннях, вы даведаецеся рэчы пра свет, выконваючы дзеянні і бачачы вынікі.

ZDNet: І гэта арыентавана на ўзнагароджанне.

YL: Ён арыентаваны на ўзнагароджанне, а таксама на дзеянні. Такім чынам, вы павінны дзейнічаць у свеце, каб мець магчымасць нешта даведацца пра свет. І асноўнае сцвярджэнне, якое я раблю ў сваёй артыкуле аб самакантраляваным навучанні, заключаецца ў тым, што большая частка навучання, якую мы робім, мы робім гэта не шляхам рэальных дзеянняў, мы робім гэта шляхам назірання. І гэта вельмі нестандартна як для людзей, якія навучаюцца з падмацаваннем, так і для многіх псіхолагаў і навукоўцаў-кагнітывістаў, якія думаюць, што, ведаеце, дзеянне - я не кажу, што дзеянне не важна, гэта is істотны. Але я думаю, што асноўная частка таго, што мы даведаемся, у асноўным тычыцца структуры свету і ўключае ў сябе, вядома, узаемадзеянне, дзеянне, гульню і падобныя рэчы, але шмат у чым гэта назіранне.

ZDNet: У той жа час вам таксама ўдасца паставіць галачку перад народам-трансформерам, першым народам мовы. Як вы можаце стварыць гэта без мовы? Магчыма, вам удасца паставіць галачку ў многіх людзей. 

YL: Так, я прывык да гэтага. Такім чынам, так, ёсць людзі, якія ў першую чаргу ставяцца да мовы, якія кажуць, што інтэлект - гэта мова, субстратам інтэлекту з'яўляецца мова, бла, бла, бла. Але гэта, накшталт, адхіляе інтэлект жывёл. Ведаеце, мы яшчэ не да таго, каб у нашых разумных машын было столькі здаровага сэнсу, колькі ў ката. Дык чаму б нам не пачаць з гэтага? Што ж дазваляе котцы спасцігаць навакольны свет, рабіць даволі разумныя рэчы, планаваць і да таго падобнае, а сабакам яшчэ лепш? 

Потым ёсць усе людзі, якія кажуць: "О, інтэлект - гэта сацыяльная рэч, ці не так?" Мы разумныя, таму што мы размаўляем адзін з адным і абменьваемся інфармацыяй, і бла, бла, бла. Існуюць разнастайныя несацыяльныя віды, якія ніколі не сустракаюцца са сваімі бацькамі, але вельмі разумныя, напрыклад васьміногі або арангутангі.Я маю на ўвазе, што іх [арангутанаў], вядома, выхоўвае маці, але яны не сацыяльныя жывёлы. 

Але я мог бы адзначыць іншую катэгорыю людзей, якія кажуць, што маштабавання дастаткова. Такім чынам, у асноўным мы выкарыстоўваем гіганцкія Трансформеры, навучаем іх мультымадальным даным, якія ўключаюць, ведаеце, відэа, тэкст, бла, бла, бла. Мы, накшталт, скамянеліусё, і сімвалізаваць усё, а потым гіганцкі цягніку асноўным мадэлі, каб рабіць дыскрэтныя прагнозы, і нейкім чынам з гэтага з'явіцца штучны інтэлект. Яны не памыляюцца ў тым сэнсе, што гэта можа быць кампанентам будучай інтэлектуальнай сістэмы. Але я думаю, што ў ім адсутнічаюць істотныя часткі. 

Ёсць яшчэ адна катэгорыя людзей, якой я збіраюся паставіць галачку ў гэтай паперы. І гэта верагоднасці, рэлігійныя верагоднасці. Такім чынам, людзі, якія думаюць, што тэорыя імавернасцей - гэта адзіная аснова, якую можна выкарыстоўваць для тлумачэння машыннага навучання. І як я спрабаваў растлумачыць у артыкуле, патрабаваць, каб мадэль свету была цалкам імавернаснай, занадта шмат. Мы не ведаем, як гэта зрабіць. Ёсць вылічальная цяжкасць. Таму я прапаную адмовіцца ад усёй гэтай ідэі. І вядома, вы ведаеце, што гэта велізарны слуп не толькі машыннага навучання, але і ўсёй статыстыкі, якая прэтэндуе на нармальны фармалізм машыннага навучання. 

Іншая справа - 

ZDNet: У вас усё ў парадку…

YL: — гэта так званыя генератыўныя мадэлі. Такім чынам, ідэя, што вы можаце навучыцца прадказваць, і, магчыма, вы можаце шмат даведацца пра свет з дапамогай прадказанняў. Такім чынам, я даю вам фрагмент відэа і прашу сістэму прадказаць, што адбудзецца далей у відэа. І я магу папрасіць вас спрагназаваць рэальныя відэакадры з усімі дэталямі. Але тое, пра што я спрачаюся ў артыкуле, - гэта тое, што гэта насамрэч занадта шмат, каб спытаць, і занадта складана. І гэта тое, што я змяніў сваё меркаванне. Прыблізна два гады таму я быў прыхільнікам таго, што я называю генератыўнымі мадэлямі са схаванай зменнай, мадэлямі, якія прадказваюць тое, што адбудзецца далей, або інфармацыю, якой не хапае, магчыма, з дапамогай схаванай зменнай, калі прадказанне немагчыма дэтэрмінаваных. І я адмовіўся ад гэтага. І прычына, па якой я адмовіўся ад гэтага, заснавана на эмпірычных выніках, дзе людзі спрабавалі прымяніць, напрыклад, навучанне на аснове прагназавання або рэканструкцыі тыпу, які выкарыстоўваецца ў BERTі вялікія моўныя мадэлі, яны спрабавалі прымяніць гэта да малюнкаў, і гэта было поўнай няўдачай. І прычына поўнага правалу зноў жа ў абмежаваннях імавернасных мадэляў, у якіх адносна лёгка прадказаць асобныя лексемы, такія як словы, таму што мы можам вылічыць размеркаванне імавернасцей па ўсіх словах у слоўніку. Гэта лёгка. Але калі мы просім сістэму стварыць размеркаванне імавернасцей па ўсіх магчымых відэакадрах, мы не маем ні найменшага падання аб тым, як яго параметрызаваць, або ў нас ёсць нейкае ўяўленне, як гэта параметрізаваць, але мы не ведаем, як гэта нармалізаваць. Гэта трапляе ў невырашальную матэматычную праблему, якую мы не ведаем, як вырашыць. 

yann-lecun-sept-2022-3

«Мы яшчэ не да таго, каб нашы інтэлектуальныя машыны валодалі столькі ж здаровага сэнсу, колькі кошкі», — заўважае Лекун. «Дык чаму б нам не пачаць з гэтага? Што дазваляе кату спасцігаць навакольны свет, рабіць даволі разумныя рэчы, планаваць і да таго падобнае, а сабакам яшчэ лепш?»

Такім чынам, таму я кажу, што давайце адмовімся ад тэорыі імавернасцяў або асновы для такіх рэчаў, слабейшых мадэляў, заснаваных на энергіі. Я таксама выступаю за гэта на працягу дзесяцігоддзяў, так што гэта не нядаўна. Але ў той жа час адмовіцца ад ідэі генератыўных мадэляў, таму што ў свеце ёсць шмат незразумелых і непрадказальных рэчаў. Калі вы інжынер, вы называеце гэта шумам. Калі вы фізік, вы называеце гэта цяплом. І калі вы чалавек з машынным навучаннем, вы называеце гэта, ведаеце, неістотнымі дэталямі ці як заўгодна.

Такім чынам, прыклад, які я выкарыстаў у артыкуле ці я выкарыстаў у размовах, заключаецца ў тым, што вы хочаце сістэму прагназавання свету, якая дапамагла б у беспілотным аўтамабілі, так? Ён хоча мець магчымасць загадзя прадбачыць траекторыі ўсіх астатніх аўтамабіляў, тое, што адбудзецца з іншымі аб'ектамі, якія могуць рухацца, пешаходамі, роварамі, дзіцем, які бяжыць за футбольным мячом, падобнымі рэчамі. Такім чынам, усялякія рэчы пра свет. Але на мяжы з дарогай могуць быць дрэвы, і сёння вецер, так што лісце варушыцца ад ветру, а за дрэвамі ёсць сажалка, і ў сажалцы рабізна. І гэта, па сутнасці, з'явы шмат у чым непрадказальныя. І вы не хочаце, каб ваша мадэль марнавала значную колькасць рэсурсаў на прагназаванне тых рэчаў, якія адначасова цяжка прадказаць і не маюць значэння. Вось чаму я выступаю за архітэктуру сумеснага ўбудавання, тыя рэчы, дзе зменная, якую вы спрабуеце змадэляваць, вы не спрабуеце яе прадбачыць, вы спрабуеце яе змадэляваць, але яна праходзіць праз кадавальнік, і гэты кадавальнік можа ліквідаваць шмат недарэчных або занадта складаных дэталяў аб уводзе - у асноўным, эквівалентна шуму.

ZDNet: Раней у гэтым годзе мы абмяркоўвалі энергетычныя мадэлі JEPA і H-JEPA. Калі я вас правільна разумею, я разумею, што вы знаходзіце кропку нізкай энергіі, дзе гэтыя два прагнозы ўбудавання X і Y найбольш падобныя, што азначае, што калі ў адным ёсць голуб на дрэве, і ёсць нешта ў фоне сцэны, гэта могуць быць не тыя істотныя моманты, якія робяць гэтыя ўбудовы блізкімі адна да адной.

YL: правільна. Такім чынам, архітэктура JEPA насамрэч спрабуе знайсці кампраміс, кампраміс паміж здабываннем уяўленняў, якія з'яўляюцца максімальна інфарматыўнымі аб уваходных дадзеных, але таксама прадказальнымі адно ад аднаго з пэўным узроўнем дакладнасці і надзейнасці. Ён знаходзіць кампраміс. Такім чынам, калі ў яго ёсць выбар паміж марнаваннем велізарнай колькасці рэсурсаў, уключаючы дэталі руху лісця, і мадэляваннем дынамікі, якая будзе вырашаць, як лісце рухаюцца праз секунду, або проста кінуць гэта на падлогу проста запусціўшы зменную Y праз прадказальнік, які ліквідуе ўсе гэтыя дэталі, ён, верагодна, проста ліквідуе яе, таму што яе занадта складана мадэляваць і фіксаваць.

ZDNet: Адна рэч, якая здзіўляе, што вы былі вялікім прыхільнікам выказвання: "Гэта працуе, мы пазней разбярэм тэорыю тэрмадынамікі, каб растлумачыць гэта". Тут вы выкарысталі такі падыход: «Я не ведаю, як мы збіраемся гэта вырашыць, але я хачу вылучыць некалькі ідэй, каб абдумаць гэта», і, магчыма, нават наблізіўшыся да тэорыі або гіпотэзы, найменш. Гэта цікава, таму што шмат людзей трацяць шмат грошай на машыну, якая можа бачыць пешахода незалежна ад таго, ці ёсць у машыны здаровы сэнс. І я мяркую, што некаторых з гэтых людзей не паставяць, але яны скажуць: «Гэта добра, нас не хвалюе, калі ў гэтым няма здаровага сэнсу, мы стварылі сімуляцыю, сімуляцыя цудоўная, і мы будзем працягваць удасканальваць, мы будзем працягваць маштабаваць мадэляванне». 

І таму цікава, што вы зараз можаце сказаць: давайце зробім крок назад і падумаем, што мы робім. І прамысловасць кажа, што мы будзем толькі павялічваць, павялічваць, маштабаваць, маштабаваць, таму што гэты шатун сапраўды працуе. Я маю на ўвазе, што паўправадніковы механізм графічных працэсараў сапраўды працуе.

YL: Там, напрыклад, пяць пытанняў. Такім чынам, я маю на ўвазе, неабходна маштабаванне. Я не крытыкую той факт, што мы павінны маштабавацца. Мы павінны маштабаваць. Гэтыя нервовыя сеткі становяцца лепшымі, калі яны становяцца больш. Няма сумневу, што мы павінны маштабаваць. І тыя, хто будзе мець пэўны ўзровень здаровага сэнсу, будуць вялікімі. Я думаю, што гэтага нельга абысці. Такім чынам, маштабаванне - гэта добра, яно неабходна, але недастаткова. Гэта тое, што я раблю. Гэта не проста маштабаванне. Гэта першы пункт. 

Другі момант, ці стаіць тэорыя на першым месцы і таму падобнае. Такім чынам, я думаю, што ёсць канцэпцыі, якія стаяць на першым месцы: вы павінны зрабіць крок назад і сказаць: добра, мы пабудавалі гэтую лесвіцу, але мы хочам адправіцца на Месяц, і гэтая лесвіца ніяк не давядзе нас туды. Такім чынам, па сутнасці, тое, што я тут пішу, заключаецца ў тым, што нам трэба будаваць ракеты. Я не магу расказаць вам падрабязнасці таго, як мы будуем ракеты, але вось асноўныя прынцыпы. І я не пішу для гэтага тэорыю ці нешта падобнае, але гэта будзе ракета, добра? Ці касмічны ліфт, ці яшчэ што. Магчыма, у нас няма ўсіх дэталяў усёй тэхналогіі. Мы спрабуем прымусіць некаторыя з гэтых рэчаў працаваць, напрыклад, я працаваў над JEPA. Сумеснае ўбудаванне вельмі добра працуе для распазнавання малюнкаў, але з яго выкарыстаннем для падрыхтоўкі сусветнай мадэлі ёсць складанасці. Мы працуем над гэтым, спадзяемся, што ў нас усё атрымаецца soon, але мы можам сутыкнуцца з некаторымі перашкодамі, якія мы не можам пераадолець, магчыма. 

Акрамя таго, ёсць ключавая ідэя ў артыкуле аб развагах, дзе, калі мы хочам, каб сістэмы маглі планаваць, што вы можаце разглядаць як простую форму разважанняў, яны павінны мець схаваныя зменныя. Іншымі словамі, рэчы, якія не вылічаюцца якой-небудзь нейронавай сеткай, але рэчы, якія ёсць - значэнне якіх выводзіцца такім чынам, каб мінімізаваць некаторую мэтавую функцыю, некаторую функцыю выдаткаў. І тады вы можаце выкарыстоўваць гэтую функцыю выдаткаў, каб кіраваць паводзінамі сістэмы. І гэта зусім не новая ідэя, праўда? Гэта вельмі класічнае, аптымальнае кіраванне, аснова якога ўзыходзіць да канца 50-х, пачатку 60-х. Такім чынам, не прэтэндую тут на навізну. Але я кажу пра тое, што гэты тып высновы павінен быць часткай інтэлектуальнай сістэмы, якая здольная планаваць і чые паводзіны могуць вызначацца або кантралявацца не жорсткімі паводзінамі, не імітацыяй, а аб'ектыўнай функцыяй, якая кіруе паводзінамі - не абавязкова кіруе навучаннем, але гэта кіруе паводзінамі. Ведаеце, гэта ёсць у нашым мозгу, і ў кожнай жывёлы ёсць унутраны кошт або ўнутраная матывацыя для рэчаў. Гэта падштурхоўвае дзевяцімесячных дзяцей да жадання ўстаць. Кошт таго, каб быць шчаслівым, калі вы ўстаяце, гэты тэрмін у функцыі кошту замацаваны. Але як вы ўстаяце, гэта не тое, што вучыцца.

yann-lecun-sept-2022-4

«Маштабаванне — гэта добра, яно неабходна, але недастаткова», — кажа Лекун пра гіганцкія моўныя мадэлі, такія як праграмы на аснове Transformer тыпу GPT-3. Прыхільнікі Transformer вераць: «Мы маркіраваем усё і трэніруемся гіганцкамадэлі, каб рабіць асобныя прагнозы, і нейкім чынам з гэтага атрымаецца штучны інтэлект ... але я думаю, што ў ім адсутнічаюць важныя часткі».

ZDNet: Каб завяршыць гэты момант, большая частка супольнасці глыбокага навучання, здаецца, добра ісці наперад з чымсьці, што не мае здаровага сэнсу. Падобна на тое, што вы даволі выразна сцвярджаеце, што ў нейкі момант гэта становіцца тупіком. Некаторыя людзі кажуць, што нам не патрэбны аўтаномны аўтамабіль са здаровым сэнсам, таму што маштабаванне дапаможа. Здаецца, вы хочаце сказаць, што нельга проста працягваць ісці па гэтым шляху?

YL: Ведаеце, я думаю, што цалкам магчыма, што ў нас будуць аўтаномныя машыны пятага ўзроўню без здаровага сэнсу. Але праблема з такім падыходам у тым, што гэта будзе часовым, таму што вам прыйдзецца па-чартоўску займацца інжынерыяй. Такім чынам, вы ведаеце, намалюйце ўвесь свет, замацуеце разнастайныя канкрэтныя паводзіны, збярыце дастатковую колькасць дадзеных, каб у вас былі ўсе дзіўныя сітуацыі, з якімі вы можаце сутыкнуцца на дарогах, бла, бла, бла. І я мяркую, што з дастатковай колькасцю інвестыцый і часу, вы можаце проста спраектаваць яго. Але ў рэшце рэшт, будзе больш задавальняючае і, магчыма, лепшае рашэнне, якое ўключае сістэмы, якія лепш разумеюць, як уладкованы свет, і маюць, ведаеце, пэўны ўзровень таго, што мы назвалі б здаровым сэнсам. Гэта не павінен быць здаровы сэнс на ўзроўні чалавека, але пэўны тып ведаў, якія сістэма можа атрымаць, назіраючы, але не назіраючы за тым, як хтосьці едзе, проста назіраючы за тым, што рухаецца, і разумеючы многае пра свет, ствараючы аснову фону веды пра тое, як уладкованы свет, а таксама навучыцца вадзіць машыну. 

Дазвольце мне прывесці гістарычны прыклад гэтага. Класічны камп'ютэрны зрок быў заснаваны на вялікай колькасці падключаных інжынерных модуляў, на вяршыні якіх у вас быў бы тонкі пласт навучання. Такім чынам, матэрыял, які быў абыграны AlexNet у 2012 годзе, меў у асноўным першую стадыю, своеасаблівае ручное вылучэнне функцый, напрыклад SIFT [Scale-Invariant Feature Transform (SIFT), класічны метад бачання для ідэнтыфікацыі прыкметных аб'ектаў на малюнку] і HOG [гістаграма арыентаваных градыентаў, іншая класічная тэхніка] і розныя іншыя рэчы. А потым другі ўзровень, накшталт, функцый сярэдняга ўзроўню, заснаваных на ядрах функцый і на чым заўгодна, і нейкім некантраляваным метадзе. А потым паверх гэтага вы змяшчаеце машыну апорнага вектара або адносна просты класіфікатар. І гэта быў, накшталт, стандартны канвеер з сярэдзіны 2000-х да 2012 года. І гэта было заменена скразнымі згорткавымі сеткамі, дзе вы нічога з гэтага не звязваеце, у вас проста шмат даных, і вы трэніруеце рэч ад канца да канца, гэта падыход, які я адстойваў на працягу доўгага часу, але вы ведаеце, да таго часу гэта было непрактычным для вялікіх праблем. 

Была падобная гісторыя з распазнаваннем маўлення, дзе, зноў жа, была велізарная колькасць дэталёвай распрацоўкі таго, як вы папярэдне апрацоўваеце даныя, вы здабываеце кепстр масавага маштабу [адваротнае хуткаму пераўтварэнню Фур'е для апрацоўкі сігналу], а затым у вас ёсць схаваныя маркаўскія мадэлі з накшталт загадзя зададзенай архітэктурай, бла, бла, бла, з сумессю Гаўса. І так, гэта крыху тая ж архітэктура, што і бачанне, дзе ў вас ёсць створаны ўручную інтэрфейс, а затым крыху некантралюемы, навучаны сярэдні ўзровень, а затым кантраляваны ўзровень зверху. І цяпер гэта было ў асноўным знішчана скразнымі нейронавымі сеткамі. Такім чынам, я бачу нешта падобнае да таго, як спрабаваць вывучыць усё, але вы павінны мець правільны папярэдні, правільную архітэктуру, правільную структуру.

yann-lecun-sept-2022-5

Натоўп аматараў беспілотных аўтамабіляў, такія стартапы, як Waymo і Wayve, былі «крыху занадта аптымістычныя», кажа ён, думаючы, што яны могуць «кідаць даныя на гэта, і вы можаце даведацца амаль што заўгодна». Аўтамабілі з беспілотным кіраваннем на ўзроўні 5 ADAS магчымыя, «Але вам прыйдзецца па-чартоўску распрацаваць гэта», і яны будуць «далікатнымі», як раннія мадэлі камп'ютэрнага зроку.

ZDNet: Вы хочаце сказаць, што некаторыя людзі паспрабуюць сканструяваць тое, што цяпер не працуе з глыбокім навучаннем, для прымянення, скажам, у прамысловасці, і яны пачнуць ствараць тое, што састарэла ў камп'ютэрным зроку?

YL: правільна. Часткова гэта прычына таго, што людзі, якія працуюць над аўтаномным кіраваннем, былі занадта аптымістычныя за апошнія некалькі гадоў, таму што, ведаеце, у вас ёсць такія агульныя рэчы, як згорткавыя сеткі і трансфарматары, у якія можна кідаць дадзеныя , і ён можа даведацца практычна ўсё. Такім чынам, вы кажаце: "Добра, у мяне ёсць рашэнне гэтай праблемы". Першае, што вы робіце, гэта ствараеце дэманстрацыю, у якой машына едзе сама на працягу некалькіх хвілін, нікому не прычыняючы шкоды. І тады вы разумееце, што ёсць шмат вуглавых выпадкаў, і вы спрабуеце пабудаваць крывую таго, наколькі лепш я раблюся, калі я падвойваю набор трэніровак, і вы разумееце, што ніколі не дасягнеце гэтага, таму што ёсць усе віды вуглавых выпадкаў . І вам трэба мець машыну, якая стане прычынай аварыі са смяротным зыходам радзей, чым кожныя 200 мільёнаў кіламетраў, так? Такім чынам, чым вы займаецеся? Ну, вы ідзяце ў два бакі. 

Першы кірунак: як я магу паменшыць аб'ём даных, неабходных для вывучэння маёй сістэмы? І вось тут прыходзіць саманагляднае навучанне. Такім чынам, многія кампаніі, якія займаюцца самакіраваннем аўтамабіляў, вельмі зацікаўлены ў саманаглядным навучанні, таму што гэта спосаб па-ранейшаму выкарыстоўваць гіганцкія аб'ёмы кантраляваных даных для імітацыі навучання, але павышаць прадукцыйнасць шляхам папярэдняя падрыхтоўка, па сутнасці. І гэта яшчэ не зусім атрымалася, але гэта будзе. І яшчэ ёсць іншы варыянт, які прынялі большасць кампаній, якія на дадзены момант больш прасунутыя, гэта значыць, добра, мы можам правесці скразное навучанне, але ёсць шмат кутніх выпадкаў, якія мы можам t ручка, таму мы збіраемся проста спраектаваць сістэмы, якія будуць клапаціцца пра гэтыя вуглавыя выпадкі, і, па сутнасці, разглядаць іх як асаблівыя выпадкі, і апаратна звязаць кіраванне, а потым звязаць мноства асноўных паводзін для апрацоўкі асаблівых сітуацый. І калі ў вас ёсць дастаткова вялікая каманда інжынераў, вы можаце гэта зрабіць. Але гэта зойме шмат часу, і ў рэшце рэшт, ён усё роўна будзе крыху далікатным, магчыма, дастаткова надзейным, каб вы маглі яго разгарнуць, але з некаторым узроўнем далікатнасці, які, з больш заснаваным на навучанні падыходам, які можа з'явіцца ў у будучыні аўтамабілі не будуць мець, таму што ў іх можа быць пэўны ўзровень здаровага сэнсу і разумення таго, як уладкованы свет. 

У кароткатэрміновай перспектыве, накшталт, інжынерны падыход выйграе - ён ужо выйграе. Гэта Waymo і Cruise свету і Wayveі ўсё, што яны робяць. Затым ёсць падыход да самакантролю навучання, які, верагодна, дапаможа інжынернаму падыходу дасягнуць прагрэсу. Але потым, у доўгатэрміновай перспектыве, якой гэтыя кампаніі могуць чакаць занадта доўга, верагодна, будзе, накшталт, больш інтэграваная сістэма аўтаномнага інтэлектуальнага кіравання.

ZDNet: Мы кажам, што за межамі інвестыцыйнага гарызонту большасці інвестараў.

YL: Правільна. Такім чынам, пытанне ў тым, ці страцяць людзі цярпенне ці скончацца грошы, перш чым прадукцыйнасць дасягне патрэбнага ўзроўню.

ZDNet: Ці можна сказаць што-небудзь цікавае пра тое, чаму вы выбралі некаторыя з выбраных вамі элементаў у мадэлі? Таму што вы цытуеце Кэнэта Крэйка [1943 г.Прырода тлумачэння], і вы цытуеце Брайсана і Хо [1969, Ужываецца аптымальны кантроль], і мне цікава, чаму вы пачалі з гэтымі ўплывамі, калі вы асабліва верылі ў тое, што гэтыя людзі дасягнулі таго, што яны зрабілі. Чаму вы пачалі там?

YL: Ну, я не думаю, што, вядома, у іх былі прапісаны ўсе дэталі. Такім чынам, Брайсан і Хо, гэта кніга, якую я прачытаў яшчэ ў 1987 годзе, калі быў у постдакуменце з Джэфры Хінтанам у Таронта. Але я ведаў пра гэты накірунак працы загадзя, калі пісаў сваю доктарскую, і, па сутнасці, звязаў аптымальны кантроль і падпору. Калі б вы сапраўды хацелі стаць яшчэ адным Шмідхуберам, вы б сказалі, што сапраўднымі вынаходнікамі бэкпрапа былі тэарэтыкі аптымальнага кіравання Генры Дж. Келі, Артур Брайсан і, магчыма, нават Леў Понтрягін, расійскі тэарэтык аптымальнага кантролю у канцы 50-х гг. 

Такім чынам, яны высветлілі гэта, і насамрэч, вы можаце ўбачыць корань гэтага, матэматыку, якая ляжыць у аснове гэтага, - гэта механіка Лагранжа. Такім чынам, вы можаце вярнуцца да Эйлера і Лагранжа, на самай справе, і накшталт знайсці дух гэтага ў іх вызначэнні класічнай механікі Лагранжа. Такім чынам, у кантэксце аптымальнага кіравання гэтыя хлопцы цікавіліся ў асноўным вылічэннем траекторый ракет. Ведаеце, гэта была ранняя касмічная эра. І калі ў вас ёсць мадэль ракеты, яна паказвае вам стан ракеты ў той час t, і вось дзеянне, якое я збіраюся выканаць, такім чынам, цяга і прывады розных відаў, вось стан ракеты ў той час t+1.

ZDNet: Мадэль стан-дзеянне, каштоўнасная мадэль.

YL: Правільна, аснова кантролю. Такім чынам, цяпер вы можаце змадэляваць стральбу вашай ракеты, уявіўшы паслядоўнасць каманд, і тады ў вас ёсць нейкая функцыя кошту, якая ўяўляе сабой адлегласць ракеты да мэты, касмічнай станцыі ці чаго заўгодна. А затым з дапамогай нейкага градыентнага спуску вы можаце высветліць, як я магу абнавіць сваю паслядоўнасць дзеянняў, каб мая ракета сапраўды наблізілася да мэты як мага бліжэй. І гэта адбываецца шляхам зваротнага распаўсюджвання сігналаў назад у часе. І гэта зваротнае распаўсюджванне, градыентнае зваротнае распаўсюджванне. Гэтыя сігналы ў механіцы Лагранжа называюцца спалучанымі зменнымі, але насамрэч гэта градыенты. Такім чынам, яны вынайшлі бэкпрап, але яны не здагадваліся, што гэты прынцып можа быць выкарыстаны для навучання шматступеннай сістэмы, якая можа распазнаваць вобразы ці нешта падобнае. Гэта не было рэальна рэалізавана, магчыма, да канца 70-х, пачатку 80-х, а потым не было фактычна рэалізавана і не запрацавала да сярэдзіны 80-х. Добра, такім чынам, гэта тое, дзе бэкпрап сапраўды, накшталт, узляцеў, таму што людзі паказалі вось некалькі радкоў кода, з дапамогай якіх можна навучыць нейронавую сетку скразную, шматслаёвую. І гэта здымае абмежаванні Perceptron. І, так, ёсць сувязі з аптымальным кантролем, але гэта нармальна.

ZDNet: Такім чынам, гэта далёка сказаць, што гэтыя ўплывы, з якіх вы пачыналі, вярталіся да бэкап, і гэта было важна для вас у якасці адпраўной кропкі?

YL: Так, але я думаю, пра што людзі крыху забыліся, над гэтым было даволі шмат працы, ведаеце, яшчэ ў 90-я ці нават 80-я, у тым ліку такімі людзьмі, як Майкл Джордан [кафедра мозгу MIT і кагнітыўныя навукі] і такіх людзей, якія больш не займаюцца нейронавымі сеткамі, але ідэяй, што вы можаце выкарыстоўваць нейронавыя сеткі для кіравання, і вы можаце выкарыстоўваць класічныя ідэі аптымальнага кантролю. Такім чынам, такія рэчы, як тое, што называецца кіраваннем з прагназаваннем мадэлі, што цяпер называецца кіраваннем з прагназаваннем мадэлі, гэтая ідэя, што вы можаце змадэляваць або ўявіць сабе вынік паслядоўнасці дзеянняў, калі ў вас ёсць добрая мадэль сістэмы, якой вы спрабуеце кіраваць. і асяроддзе, у якім ён знаходзіцца. А затым з дапамогай градыентнага спуску, па сутнасці - гэта не навучанне, гэта вывад - вы можаце высветліць, якая лепшая паслядоўнасць дзеянняў, якая мінімізуе маю мэту. Такім чынам, я думаю, што выкарыстанне функцыі выдаткаў са схаванай зменнай для вываду - гэта тое, пра што сучасныя ўраджаі буйнамаштабных нейронавых сетак забыліся. Але гэта быў вельмі класічны кампанент машыннага навучання на працягу доўгага часу. Такім чынам, кожная байесовская сетка або графічная мадэль або імавернасная графічная мадэль выкарыстоўвалі гэты тып высновы. У вас ёсць мадэль, якая фіксуе залежнасці паміж групай зменных, вам паведамляюць значэнне некаторых зменных, а затым вы павінны зрабіць выснову пра найбольш верагоднае значэнне астатніх зменных. Гэта асноўны прынцып высновы ў графічных мадэлях і байесовских сетках і таму падобных рэчах. І я думаю, што гэта ў асноўным тое, пра што павінны быць развагі, развагі і планаванне.

ZDNet: Вы шафа Байес.

YL: Я неімавернасны байесавец. Я жартаваў раней. Я сапраўды быў у NeurIPS некалькі гадоў таму, я думаю, што гэта было ў 2018 ці 2019 гадах, і я быў зняты на відэа байесаўцам, які спытаў мяне, ці з'яўляюся я байесаўцам, і я сказаў: "Так, я байесавец, але я Я неімавернасны байесовец, накшталт, байесовец на аснове энергіі, калі хочаце. 

ZDNet: Што, безумоўна, гучыць як нешта з Star Trek. Вы згадалі ў канцы гэтага дакумента, што спатрэбяцца гады вельмі цяжкай працы, каб рэалізаваць тое, што вы сабе ўяўляеце. Раскажыце мне пра тое, з чаго складаецца гэтая праца на дадзены момант.

YL: Такім чынам, я тлумачу, як вы трэніруецеся і будуеце JEPA ў артыкуле. І крытэрый, за які я выступаю, - гэта нейкі спосаб максімізацыі інфармацыйнага зместу, які здабываюцца ўяўленні пра ўвод. А другі - гэта мінімізацыя памылкі прагназавання. І калі ў вас ёсць схаваная зменная ў прадказальніку, якая дазваляе прадказальніку быць недэтэрмінаваным, вы павінны ўрэгуляваць і гэтую схаваную зменную, мінімізуючы яе інфармацыйнае ўтрыманне. Такім чынам, зараз у вас дзве праблемы: як максымізаваць інфармацыйнае ўтрыманне вываду нейрасецівы, а другое - як мінімізаваць інфармацыйнае ўтрыманне нейкай схаванай зменнай? І калі вы не зробіце гэтыя дзве рэчы, сістэма разваліцца. Нічога цікавага не даведаешся. Гэта дасць нуль энергіі ўсім, штосьці падобнае, што не з'яўляецца добрай мадэллю залежнасці. Гэта праблема прадухілення калапсу, пра якую я згадваю. 

І я кажу, што з усіх рэчаў, якія калі-небудзь рабілі людзі, ёсць толькі дзве катэгорыі метадаў, каб прадухіліць калапс. Адзін - гэта кантрасныя метады, а другі - рэгулярныя метады. Такім чынам, гэтая ідэя максімізацыі інфармацыйнага зместу ўяўленняў двух уваходаў і мінімізацыі інфармацыйнага зместу схаванай зменнай належыць да рэгулярных метадаў. Але вялікая частка працы ў гэтых архітэктурах сумеснага ўбудавання праводзіцца з выкарыстаннем кантрасных метадаў. На самай справе яны, напэўна, самыя папулярныя на дадзены момант. Такім чынам, пытанне ў тым, як менавіта вы вымяраеце змест інфармацыі такім чынам, што вы можаце аптымізаваць або мінімізаваць? І вось тут усё ўскладняецца, таму што мы насамрэч не ведаем, як вымераць змест інфармацыі. Мы можам наблізіць гэта, мы можам зрабіць верхнюю мяжу, мы можам рабіць такія рэчы. Але яны фактычна не вымяраюць інфармацыйнае напаўненне, якое, насамрэч, у пэўнай ступені нават не вызначана.

ZDNet: Гэта не закон Шэнана? Гэта не тэорыя інфармацыі? У вас ёсць пэўная колькасць энтрапіі, добрая энтрапія і дрэнная энтрапія, і добрая энтрапія - гэта сістэма сімвалаў, якая працуе, дрэнная энтрапія - гэта шум. Ці не Шэнан усё вырашыла?

YL: Вы маеце рацыю, але за гэтым ёсць сур'ёзны недахоп. Вы маеце рацыю ў тым сэнсе, што калі да вас паступаюць дадзеныя, і вы можаце нейкім чынам квантаваць дадзеныя ў дыскрэтныя сімвалы, а потым вымераць верагоднасць кожнага з гэтых сімвалаў, то максімальная колькасць інфармацыі, якую нясуць гэтыя сімвалы, будзе сума над магчымымі сімваламі Пі лог Пі, праўда? дзе Pi гэта верагоднасць сімвала я — гэта энтрапія Шэнана. [Закон Шэнана звычайна фармулюецца як H = – ∑ pi log pi.]

Вось праблема, аднак: Што ёсць Pi? Гэта проста, калі сімвалаў мала і сімвалы малююцца самастойна. Калі ёсць шмат сімвалаў і залежнасцяў, гэта вельмі цяжка. Такім чынам, калі ў вас ёсць паслядоўнасць бітаў і вы мяркуеце, што біты не залежаць адзін ад аднаго, а верагоднасць роўная ад адзінкі да нуля ці што заўгодна, то вы можаце лёгка вымераць энтрапію, без праблем. Але калі рэчы, якія прыходзяць да вас, - гэта вектары высокай памернасці, напрыклад, кадры даных ці нешта падобнае, што Pi? Што такое размеркаванне? Спачатку вы павінны квантаваць гэтую прастору, якая з'яўляецца шматмернай, бесперапыннай прасторай. Вы паняцця не маеце, як квантаваць гэта правільна. Вы можаце выкарыстоўваць k-сярэднія і г.д. Гэта тое, што людзі робяць, калі сціскаюць відэа і выявы. Але гэта толькі прыблізна. І тады трэба рабіць здагадкі аб незалежнасці. Такім чынам, відавочна, што ў відэа паслядоўныя кадры не з'яўляюцца незалежнымі. Ёсць залежнасці, і гэты кадр можа залежаць ад іншага кадра, які вы бачылі гадзіну таму і які быў выявай таго ж. Такім чынам, вы ведаеце, вы не можаце вымераць Pi. Мераць Pi, у вас павінна быць сістэма машыннага навучання, якая вучыцца прадказваць. І вось вы вярнуліся да папярэдняй праблемы. Такім чынам, вы можаце толькі прыблізна вызначыць колькасць інфармацыі, па сутнасці. 

yann-lecun-sept-2022-6

«Пытанне ў тым, як менавіта вы вымяраеце інфармацыйны кантэнт такім чынам, што вы можаце аптымізаваць або мінімізаваць?» - кажа Лекун. «І тут усё ўскладняецца, таму што мы не ведаем, як вымераць змест інфармацыі». Лепшае, што можна зрабіць на дадзены момант, гэта знайсці проксі-сервер, які «дастаткова добры для задачы, якую мы хочам».

Прывяду больш канкрэтны прыклад. Адзін з алгарытмаў, з якімі мы гуляем і пра якія я гаварыў у артыкуле, гэта такая рэч, якая называецца VICReg, рэгулярізацыя дысперсіі-інварыянтнасці-каварыянтнасці. Гэта ў асобным артыкуле, які быў апублікаваны ў ICLR, і ён быў пастаўлены на arXiv прыкладна за год да гэтага, у 2021. І ідэя заключаецца ў максімізацыі інфармацыі. І гэтая ідэя на самай справе з'явілася ў ранейшай працы маёй групы пад назвай Блізняты Барлоў. Вы максымізуеце інфармацыйнае ўтрыманне вектара, які выходзіць з нейронавай сеткі, у асноўным, мяркуючы, што адзіная залежнасць паміж зменнымі - гэта карэляцыя, лінейная залежнасць. Такім чынам, калі вы выкажаце здагадку, што адзіная залежнасць, якая магчыма паміж парамі зменных або паміж зменнымі ў вашай сістэме, гэта карэляцыі паміж парамі каштоўнасцей, што з'яўляецца вельмі грубым набліжэннем, то вы можаце максымізаваць інфармацыйнае ўтрыманне, якое выходзіць з вашай сістэмы. пераканаўшыся, што ўсе зменныя маюць адрозную ад нуля дысперсію - скажам, дысперсію адзін, не мае значэння, што гэта такое - і потым іх зваротную карэляцыю, той самы працэс, які называецца адбельваннем, таксама не новы. Праблема з гэтым заключаецца ў тым, што вы цалкам можаце мець надзвычай складаныя залежнасці паміж групамі зменных або нават паміж парамі зменных, якія не з'яўляюцца лінейнымі залежнасцямі, і яны не адлюстроўваюцца ў карэляцыі. Такім чынам, напрыклад, калі ў вас ёсць дзве зменныя, і ўсе пункты гэтых дзвюх зменных выстройваюцца па нейкай спіралі, паміж гэтымі дзвюма зменнымі існуе вельмі моцная залежнасць, праўда? Але на самой справе, калі вы вылічыце карэляцыю паміж гэтымі дзвюма зменнымі, яны не карэлююць. Такім чынам, вось прыклад, калі інфармацыйнае ўтрыманне гэтых дзвюх зменных на самай справе вельмі малае, гэта толькі адна велічыня, таму што гэта ваша пазіцыя па спіралі. Яны дэкарэляваныя, так што вы думаеце, што з гэтых дзвюх зменных выцякае шмат інфармацыі, хаця насамрэч гэта не так, у вас ёсць толькі, ведаеце, вы можаце прадбачыць адну з зменных па сутнасці другой. Такім чынам, гэта паказвае, што ў нас ёсць толькі вельмі прыблізныя спосабы вымярэння зместу інфармацыі.

ZDNet: І гэта адна з рэчаў, над якімі вам зараз трэба папрацаваць? Гэта больш шырокае пытанне аб тым, як мы ведаем, калі мы максымізуем і мінімізуем змест інфармацыі?

YL:  Або ці дастаткова добры проксі, які мы выкарыстоўваем для гэтай задачы. Фактычна, мы робім гэта ўвесь час у машынным навучанні. Функцыі выдаткаў, якія мы мінімізуем, ніколі не з'яўляюцца тымі, якія мы сапраўды хочам мінімізаваць. Такім чынам, напрыклад, вы хочаце зрабіць класіфікацыю, добра? Функцыя кошту, якую вы хочаце мінімізаваць пры навучанні класіфікатара, - гэта колькасць памылак, якія робіць класіфікатар. Але гэта недыферэнцуемая, жудасная функцыя выдаткаў, якую вы не можаце звесці да мінімуму, таму што вы ведаеце, што збіраецеся змяніць вагу вашай нейронавай сеткі, нічога не зменіцца, пакуль адзін з гэтых узораў не адменіць сваё рашэнне, а потым скачок у памылцы, станоўчай ці адмоўнай.

ZDNet: Такім чынам, у вас ёсць проксі, які з'яўляецца мэтавай функцыяй, і вы можаце дакладна сказаць, што мы можам вызначана градыенты патоку гэтай рэчы.

YL: Правільна. Такім чынам, людзі выкарыстоўваюць гэтую перакрыжаваную страту энтрапіі, або SOFTMAX, у вас ёсць некалькі назваў, але гэта адно і тое ж. І ў асноўным гэта плыўнае набліжэнне колькасці памылак, якія робіць сістэма, дзе згладжванне робіцца, у асноўным, з улікам балаў, якія сістэма дае кожнай з катэгорый.

ZDNet: Ці ёсць нешта, што мы не разглядалі, што вы хацелі б асвятліць?

YL: Напэўна, гэта падкрэслівае асноўныя моманты. Я думаю, што сістэмы штучнага інтэлекту павінны ўмець разважаць, і працэс для гэтага, які я адстойваю, заключаецца ў мінімізацыі нейкай мэты адносна нейкай схаванай зменнай. Гэта дазваляе сістэмам планаваць і разважаць. Я думаю, што нам варта адмовіцца ад імавернаснай структуры, таму што яна невырашальная, калі мы хочам рабіць такія рэчы, як захоп залежнасцяў паміж шматмернымі бесперапыннымі зменнымі. І я выступаю за тое, каб адмовіцца ад генератыўных мадэляў, таму што сістэме давядзецца выдзяляць занадта шмат рэсурсаў для прагназавання рэчаў, якія занадта цяжка прадбачыць і, магчыма, спажываюць занадта шмат рэсурсаў. І гэта практычна ўсё. Гэта асноўныя паведамленні, калі хочаце. А потым агульная архітэктура. Потым ёсць здагадкі аб прыродзе свядомасці і ролі канфігуратара, але гэта сапраўды здагадкі.

ZDNet: Мы дабярэмся да гэтага ў наступны раз. Я хацеў спытаць вас, як вы параўнаеце гэтую рэч? Але я мяркую, што вы зараз крыху далей ад параўнальнага аналізу?

YL: Неабавязкова так далёка ў, накшталт, спрошчаных версіях. Вы можаце рабіць тое, што робяць усе ў працэсе кантролю або навучання з падмацаваннем, гэта значыць, вы навучыце рэч гуляць у гульні Atari ці нешта падобнае, ці ў якую-небудзь іншую гульню, якая мае некаторую нявызначанасць.

ZDNet: Дзякуй за ваш час, Ян.

крыніца