Метаның AI гурусы ЛеКун: Бүгінгі AI тәсілдерінің көпшілігі ешқашан шынайы интеллектке әкелмейді

yann-lecun-сентябрь-2022-1

«Менің ойымша, AI жүйелері ақылға қонымды болуы керек», - дейді Янн ЛеКун, Метаның AI жөніндегі бас ғалымы. Бүгінгі таңдағы танымал AI тәсілдері, мысалы Transformers, олардың көпшілігі осы саладағы өзінің алғашқы жұмысына негізделген. «Сіз бір қадам артқа шегініп, «Жарайды, біз бұл баспалдақты жасадық, бірақ біз айға барғымыз келеді және бұл баспалдақ бізді сонда апара алмайды» деп айту керек», - дейді Лекун.

Янн Лекун, бас AI ғалымы Meta Properties компаниясының иесі, Facebook, Instagram және WhatsApp-тың иесі, өз саласында көптеген адамдарды таң қалдыруы мүмкін. 

Маусым айында жарияланған мақаламен Ашық шолу серверінде, ЛеКун машиналарда адам деңгейіндегі интеллектке жетуге уәде береді деп санайтын тәсілге кең шолуды ұсынды. 

Егер мақалада айтылмаса, AI-дағы бүгінгі үлкен жобалардың көпшілігі ешқашан адам деңгейіндегі мақсатқа жете алмайды деген пікір білдіреді.

Осы айда талқылауда ZDNet Zoom арқылы ЛеКун қазіргі уақытта терең оқытудағы зерттеудің көптеген сәтті әдістеріне үлкен сенімсіздікпен қарайтынын айтты.

«Менің ойымша, олар қажет, бірақ жеткіліксіз», - деді Тьюринг сыйлығының иегері ZDNet құрдастарының ізденістерінен. 

Оларға Transformer негізіндегі GPT-3 және соларға ұқсас сияқты үлкен тіл үлгілері кіреді. Лекун сипаттайтындай, Трансформаторға табынушылар: «Біз бәрін таңбалаймыз және гиганттарды жаттықтырамыз.дискретті болжамдар жасауға арналған модельдер және қандай да бір жолмен AI осыдан пайда болады ».

«Олар қателеспейді, - дейді ол, - бұл болашақ интеллектуалды жүйенің құрамдас бөлігі болуы мүмкін, бірақ менің ойымша, оның маңызды бөліктері жетіспейді».

Сондай-ақ,: Meta компаниясының AI шамы LeCun терең оқытудың энергетикалық шекарасын зерттейді

Бұл терең оқыту бағдарламаларында керемет өнімді болған практикалық әдіс, конволюционды нейрондық желілерді пайдалануды жетілдірген ғалымның жұмыс сияқты көрінетініне таңқаларлық сын. 

ЛеКун пәннің басқа да өте табысты салаларында кемшіліктер мен шектеулерді көреді. 

Оқытуды күшейту ешқашан жеткіліксіз, дейді ол. Chess, Shogi және Go ойындарын игерген AlphaZero бағдарламасын әзірлеген DeepMind өкілі Дэвид Силвер сияқты зерттеушілер «өте әрекетке негізделген» бағдарламаларға назар аударады, дейді ЛеКун, бірақ «біз оқитын білімнің көпшілігін біз жасамаймыз. мұны іс жүзінде әрекет ету арқылы жасаймыз, біз оны бақылау арқылы жасаймыз ». 

62 жастағы Лекун, ондаған жылдар бойы жеткен жетістіктері тұрғысынан, соған қарамастан, көптеген адамдар асығуы мүмкін соқыр аллеялар деп санайтын нәрселерге қарсы тұруға және өз өрісін өзі ойлайтын бағытқа сәйкес келтіруге тырысуды білдіреді. 

«Біз адам деңгейіндегі AI-ға жету үшін не істеу керектігі туралы көптеген шағымдарды көреміз», - дейді ол. «Менің ойымша, дұрыс емес идеялар бар».

Лекун: «Біздің интеллектуалды машиналарымыз мысық сияқты ақылға қонымды деңгейге жеткен жоқпыз», - дейді. «Олай болса, неге сол жерден бастамасқа?» 

Ол бейнедегі келесі кадрды болжау сияқты нәрселерде генеративті желілерді қолдануға деген бұрынғы сенімінен бас тартты. «Бұл толық сәтсіздік болды», - дейді ол. 

Лекун «ықтималдықтар теориясын машиналық оқытуды түсіндіру үшін қолдануға болатын жалғыз негіз деп санайтын» «діни ықтималдықтар» деп атайтындарды айыптайды. 

Таза статистикалық тәсіл қиын, дейді ол. «Әлемдік модельдің толық ықтималды болуын сұрау тым көп; біз мұны қалай істеу керектігін білмейміз ».

Тек академиктер ғана емес, өндірістік индустриалды интеллект те терең ойлануды қажет етеді, дейді Лекун. Өзін-өзі басқаратын көлік тобы, Wayve сияқты стартаптар, олар үлкен нейрондық желілерге «деректерді лақтыра алады» және сіз бәрін үйрене аласыз деп ойлай отырып, «тым оптимистік болды» дейді.

«Білесіз бе, менің ойымша, бізде ақылға қонымсыз бесінші деңгейдегі автономды автомобильдер болуы әбден мүмкін», - дейді ол «ADAS» -ке сілтеме жасай отырып, жүргізушіге көмек көрсетудің жетілдірілген жүйесі өзін-өзі басқару шарттары, «бірақ сіз оны инженерлік жолмен жасауыңыз керек».

Оның пайымдауынша, мұндай шамадан тыс құрастырылған өзін-өзі басқару технологиясы компьютерлік көрудің барлық бағдарламалары сияқты сықыр және сынғыш болады, олар терең оқу арқылы ескірген.

«Ақырында, әлемнің қалай жұмыс істейтінін түсіну үшін жақсы жұмыс істейтін жүйелерді қамтитын неғұрлым қанағаттанарлық және мүмкін жақсырақ шешім болады».

Осы жолда ЛеКун өзінің ең ірі сыншылары туралы, мысалы, Нью-Йорк университетінің профессоры Гари Маркус – «ол ешқашан AI-ға ешнәрсе қосқан емес» және Юрген Шмидхубер, Далле Молле жасанды интеллектті зерттеу институтының тең директоры туралы кейбір сұмдық көзқарастарын ұсынады. ту тігу өте оңай».

Сындардан басқа, ЛеКун айтқан маңызды мәселе - бұл барлық АИ-нің кейбір іргелі проблемалары, атап айтқанда ақпаратты қалай өлшеу керектігі.

«Сіз бір қадам артқа шегініп, «Жарайды, біз бұл баспалдақты салдық, бірақ біз айға барғымыз келеді және бұл баспалдақ бізді сонда апара алмайды», - дейді Лекун. негізгі ұғымдардан тұрады. «Негізінен, мен мұнда жазып отырмын, біз зымырандарды жасауымыз керек, мен сізге зымырандарды қалай жасайтынымыз туралы егжей-тегжейлі айта алмаймын, бірақ мұнда негізгі қағидалар бар».

Қағазды және ЛеКунның сұхбаттағы ойларын осы жылдың басында Лекунның сұхбатын оқу арқылы жақсы түсінуге болады. ZDNet онда ол энергияға негізделген өзін-өзі қадағалайтын оқытуды терең білімге апаратын жол ретінде дәлелдейді. Бұл рефлексиялар ол мәре сызығына жетпейді деп мәлімдеген нәрселерге балама ретінде салуға үміттенетін негізгі көзқарасты білдіреді. 

Төменде сұхбаттың жеңіл өңделген транскрипті берілген.

ZDNet: Біздің сұхбатымыздың тақырыбы - «Автономды машиналық интеллектке апаратын жол» мақаласы, қай нұсқасының 0.9.2 нұсқасы сақталған, иә?

Янн Лекун: Иә, мен мұны жұмыс құжаты деп санаймын. Сонымен, мен оны «Ашық шолуда» жарияладым, адамдардың пікірлері мен ұсыныстарын, мүмкін қосымша сілтемелерді күтуде, содан кейін қайта өңделген нұсқасын шығарамын. 

ZDNet: Мен Юрген Шмидхубердің "Ашық шолуға" біраз түсініктемелер қосқанын көріп тұрмын.

YL: Иә, ол әрқашан жасайды. Мен оның бір мақаласын өз қағазымда келтіремін. Менің ойымша, оның әлеуметтік желілерде мұның барлығын 1991 жылы ойлап тапқаны туралы дәлелдер басқа жағдайларда жасаған сияқты, олай емес. Айтайын дегенім, мұны істеу өте оңайжалаушаны отырғызу және қандай да бір экспериментсіз, ешқандай теориясыз идея жазу үшін, оны осылай жасауға болатынын ұсыныңыз. Білесіз бе, тек идеяға ие болу, содан кейін оны ойыншық мәселесімен жұмыс істеу, содан кейін оны нақты мәселеде жұмыс істеу және оның неліктен жұмыс істейтінін көрсететін теория жасау, содан кейін үлкен айырмашылық бар. оны қолдану. Бүкіл тізбек бар және оның ғылыми несие туралы идеясы - бұл барлық несиені алуы керек деген идеяны бірінші рет қабылдаған адам. Және бұл күлкілі. 

ZDNet: Әлеуметтік желіде естігеннің бәріне сенбеңіз. 

YL: Айтайын дегенім, ол келтіретін негізгі мақалада мен айтқан негізгі ойлардың ешқайсысы да жоқ. Ол мұны GAN және басқа нәрселермен де жасады, бұл шындыққа сәйкес келмеді. Ту тігу оңай, үлес қосу әлдеқайда қиын. Айтпақшы, осы мақалада мен бұл терминнің әдеттегі мағынасында ғылыми жұмыс емес екенін анық айттым. Бұл нәрсе қайда бару керектігі туралы позициялық қағаз. Жаңа болуы мүмкін бірнеше идея бар, бірақ олардың көпшілігі жоқ. Мен бұл қағазда жазғандарымның көпшілігіне басымдық бермеймін.

yann-lecun-сентябрь-2022-2

Оқытуды күшейту де ешқашан жеткіліксіз болады, дейді Лекун. Chess, Shogi және Go ойындарын игерген AlphaZero бағдарламасын жасаған DeepMind-тен Дэвид Силвер сияқты зерттеушілер «өте әрекетке негізделген», - дейді Лекун, бірақ «біз оқитын білімнің көп бөлігін біз іс жүзінде қабылдау арқылы жасамаймыз. әрекеттер, біз оны бақылау арқылы жасаймыз ». 

ZDNet: Бұл, бәлкім, бастау үшін жақсы орын, өйткені маған қызық, сіз неге бұл жолды қазір ұстадыңыз? Бұл туралы сізді не ойлады? Мұны неге жазғың келді?

YL: Сонымен, мен бұл туралы өте ұзақ уақыт бойы адам деңгейіндегі немесе жануарлар деңгейіндегі интеллектке немесе оқу мен мүмкіндіктерге апаратын жол туралы ойладым. Сонымен қатар, мен өз баяндамаларымда бақыланатын оқытудың да, күшейтетін оқытудың да біз жануарлар мен адамдарда байқайтын оқыту түріне еліктеу үшін жеткіліксіз екендігі туралы толық айттым. Мен мұны жеті-сегіз жылдан бері істеп келемін. Демек, бұл жақында емес. Мен көптеген жылдар бұрын NeurIPS-те негізгі баяндама жасадым, онда мен бұл ойды айттым, негізінен әртүрлі келіссөздер, жазбалар бар. Енді неліктен қағаз жазу керек? Мен осы мәселеге келдім — [Google ми зерттеушісі] Джефф Хинтон да осыған ұқсас бірдеңе жасады — мен, әрине, ол менен артық, біз уақыттың өтіп бара жатқанын көреміз. Біз жас емеспіз.

ZDNet: Алпыс – жаңа елу. 

YL: Бұл рас, бірақ мәселе мынада, біз АИ-нің адам деңгейіне жету үшін не істеу керектігі туралы көптеген шағымдарды көреміз. Менің ойымша, дұрыс емес идеялар бар. Сонымен, бір идея: О, біз нейрондық желілердің үстіне символдық пайымдауларды қосуымыз керек. Ал мен мұны қалай істеу керектігін білмеймін. Сондықтан, мүмкін, мен қағазда түсіндіргенім дәл сол нәрсені нақты символдық манипуляциясыз жасайтын бір тәсіл болуы мүмкін. Бұл әлемдегі дәстүрлі Гари Маркустың түрі. Гари Маркус AI адамы емес, айтпақшы, ол психолог. Ол ешқашан AI-ға ештеңе қосқан емес. Ол эксперименталды психологияда өте жақсы жұмыс жасады, бірақ ол ешқашан AI туралы рецензияланған мақала жазған емес. Сонымен, бұл адамдар бар. 

Әлемнің [DeepMind принципін зерттеуші ғалымы] Дэвид Силверс бар, олар: "Сіз білесіз, марапат жеткілікті, негізінен, мұның бәрі күшейтілген оқыту туралы, біз оны біршама тиімдірек етуіміз керек, жарай ма? Және, менің ойымша, олар қате емес, бірақ менің ойымша, күшейту бойынша оқытуды тиімдірек ету үшін қажетті қадамдар, негізінен, торттағы шие сұрыптауына күшейтуді оқытуды ауыстырады. Ал басты жетіспейтін бөлік - әлемнің қалай жұмыс істейтінін білу, негізінен әрекетсіз бақылау. Оқытуды күшейту өте әрекетке негізделген, сіз әрекеттерді орындау және нәтижелерді көру арқылы әлем туралы нәрселерді білесіз.

ZDNet: Және бұл марапатқа бағытталған.

YL: Бұл марапатқа бағытталған және ол әрекетке де бағытталған. Сонымен, әлем туралы бірдеңе білу үшін әлемде әрекет ету керек. Менің мақалада өзін-өзі қадағалайтын оқыту туралы айтатын негізгі пікірім - біз жасайтын оқудың көпшілігі, біз мұны іс жүзінде әрекет ету арқылы емес, бақылау арқылы жасаймыз. Бұл өте жат нәрсе, әсіресе адамдар үшін, сонымен қатар көптеген психологтар мен когнитивтік ғалымдар үшін, сіз білесіз бе, іс-әрекет - бұл әрекет маңызды емес деп айтпаймын, ол is маңызды. Бірақ менің ойымша, біз үйренетін нәрселердің негізгі бөлігі негізінен әлемнің құрылымы туралы және, әрине, өзара әрекеттесу мен әрекет пен ойынды және осы сияқты нәрселерді қамтиды, бірақ оның көп бөлігі бақылау болып табылады.

ZDNet: Сондай-ақ, сіз Transformer адамдарды, бірінші тілде адамдарды бір уақытта белгілей аласыз. Мұны алдымен тілсіз қалай құруға болады? Сіз көптеген адамдарды таң қалдыра аласыз. 

YL: Иә, мен бұған үйреніп қалдым. Сонымен, иә, тіл - бірінші адамдар бар, олар, сіз білесіз, интеллект тіл туралы, интеллект субстраты - тіл, бла, бла, бла. Бірақ бұл жануарлардың интеллектісін жоққа шығарады. Білесіз бе, біз интеллектуалды машиналарымыз мысық сияқты ақылға қонымды деңгейге жеткен жоқпыз. Ендеше, неге сол жерден бастамасқа? Мысыққа қоршаған әлемді түсінуге, өте ақылды нәрселерді жасауға, жоспарлауға және соған ұқсас нәрселерді жасауға мүмкіндік беретін не, ал иттерге одан да жақсырақ? 

Сосын «Ойбай, интеллект әлеуметтік нәрсе ғой, солай ма? Біз ақылдымыз, өйткені біз бір-бірімізбен сөйлесеміз және ақпарат алмасамыз және бла, бла, бла. Сегізаяқ немесе орангутандар сияқты өте ақылды ата-аналарымен ешқашан кездеспейтін әлеуметтік емес түрлердің барлық түрлері бар.Айтайын дегенім, олар [орангутандар] анасынан білім алған, бірақ олар қоғамдық жануарлар емес. 

Бірақ мен белгілейтін адамдардың басқа санаты - масштабтау жеткілікті деп айтатын адамдар. Осылайша, біз жай ғана үлкен Трансформаторларды қолданамыз, біз оларды мультимодальды деректерге үйретеміз, ол бейне, мәтін, бла, бла, бла. Біз, бір жағынан, тастаймызбәрін, және бәрін таңбалау, содан кейін гигантты жаттықтырудискретті болжамдар жасауға арналған модельдер, негізінен, және қандай да бір түрде AI осыдан пайда болады. Бұл болашақ интеллектуалды жүйенің құрамдас бөлігі болуы мүмкін деген мағынада олар қателеспейді. Бірақ менің ойымша, оған маңызды бөліктер жетіспейді. 

Мен осы қағазбен белгілейтін адамдардың тағы бір санаты бар. Және бұл ықтималдылар, діни ықтималдықтар. Сонымен, ықтималдық теориясын ойлайтын адамдар машиналық оқытуды түсіндіру үшін қолдануға болатын жалғыз негіз болып табылады. Мен бұл бөлімде түсіндіруге тырысқанымдай, әлемдік модельдің толық ықтималды болуын сұрау тым көп. Біз мұны қалай істеу керектігін білмейміз. Есептеудің қиындығы бар. Сондықтан мен бұл идеяны толығымен тастауды ұсынамын. Әрине, бұл машиналық оқытудың ғана емес, сонымен қатар машиналық оқытудың қалыпты формализмі деп мәлімдейтін барлық статистиканың үлкен тірегі екенін білесіз. 

Басқа нәрсе - 

ZDNet: Сіз рөлдесіз…

YL: — бұл генеративті модельдер деп аталады. Сонымен, болжауды үйренуге болады және болжау арқылы әлем туралы көп нәрсені білуге ​​болады. Сонымен, мен сізге бейненің бір бөлігін ұсынамын және жүйеден бейнеде келесіде не болатынын болжауын сұраймын. Мен сізден барлық егжей-тегжейлері бар нақты бейне кадрларды болжауыңызды сұрай аламын. Бірақ менің газетте дауласатыным, бұл шын мәнінде сұрау өте көп және тым күрделі. Және бұл менің ойымды өзгерткен нәрсе болды. Шамамен екі жыл бұрын мен жасырын айнымалы генеративті модельдер деп атайтын нәрселердің жақтаушысы болдым, болашақта не болатынын болжайтын модельдер немесе егер болжау мүмкін болмаса, жасырын айнымалының көмегімен болуы мүмкін. детерминистік. Ал мен бұл істен бас тарттым. Менің бұдан бас тартуымның себебі адамдар BERT-те қолданылатын типті, сұрыптау, болжау немесе қайта құру негізінде оқытуды қолдануға тырысқан эмпирикалық нәтижелерге негізделген.және үлкен тіл үлгілері үшін олар мұны кескіндерге қолдануға тырысты және бұл толықтай сәтсіздікке ұшырады. Оның толық сәтсіздікке ұшырауының себебі, тағы да ықтималдық үлгілерінің шектеулеріне байланысты, мұнда сөздер сияқты дискретті таңбалауыштарды болжау салыстырмалы түрде оңай, өйткені біз сөздіктегі барлық сөздер бойынша ықтималдық үлестірімін есептей аламыз. Бұл оңай. Бірақ егер жүйеден барлық мүмкін болатын бейне кадрлары бойынша ықтималдық үлестірімін шығаруды сұрасақ, біз оны қалай параметрлеуге болатынын білмейміз немесе оны қалай параметрлеуге болатынын білмейміз, бірақ оны қалай қалыпқа келтіру керектігін білмейміз. Бұл біз шешу жолын білмейтін күрделі математикалық мәселеге тап болады. 

yann-lecun-сентябрь-2022-3

Лекун: «Біздің интеллектуалды машиналарымыз мысық сияқты ақылға қонымды деңгейге жеткен жоқпыз», - дейді. «Олай болса, неге сол жерден бастамасқа? Мысыққа қоршаған әлемді түсінуге, өте ақылды нәрселерді жасауға, жоспарлауға және соған ұқсас нәрселерді жасауға мүмкіндік беретін не, ал иттерге одан да жақсырақ?

Сондықтан мен ықтималдық теориясын немесе осындай нәрселердің негізін, әлсіз, энергияға негізделген модельдерден бас тартайық деп айтамын. Мен бұл туралы ондаған жылдар бойы насихаттап келемін, сондықтан бұл жақында болған нәрсе емес. Бірақ сонымен бірге генеративті модельдер идеясынан бас тарту, өйткені әлемде түсініксіз және болжау мүмкін емес нәрселер көп. Егер сіз инженер болсаңыз, оны шу дейсіз. Егер сіз физик болсаңыз, оны жылу деп атайсыз. Егер сіз машинаны үйренуші болсаңыз, сіз оны маңызды емес бөлшектер немесе басқалары деп атайсыз.

Сонымен, мен қағазда қолданған немесе келіссөздерде қолданған мысал, сіз өзін-өзі басқаратын көлікте көмектесетін әлемді болжау жүйесін қалайсыз, солай емес пе? Ол барлық басқа көліктердің траекториясын, қозғалуы мүмкін басқа нысандармен, жаяу жүргіншілермен, велосипедтермен, футбол добының соңынан жүгірген баламен не болатынын алдын ала болжағысы келеді. Сонымен, әлем туралы барлық нәрселер. Бірақ жолдың шекарасында ағаштар болуы мүмкін, ал бүгін жел бар, сондықтан жапырақтар желмен қозғалады, ал ағаштардың артында тоған бар, тоғанда толқындар бар. Және бұл, негізінен, болжау мүмкін емес құбылыстар. Сондай-ақ, сіз өзіңіздің үлгіңіздің болжау қиын және маңызды емес нәрселерді болжауға ресурстардың айтарлықтай мөлшерін жұмсағанын қаламайсыз. Сондықтан мен бірлескен ендіру архитектурасын жақтаймын, сіз модельдеуге тырысып жатқан айнымалы, сіз оны болжауға тырыспайсыз, сіз оны модельдеуге тырысасыз, бірақ ол кодтаушы арқылы жұмыс істейді және бұл кодтаушы маңызды емес немесе тым күрделі кіріс туралы көптеген мәліметтерді жоя алады - негізінен шуылға тең.

ZDNet: Біз осы жылдың басында энергияға негізделген JEPA және H-JEPA үлгілерін талқыладық. Менің ойымша, егер мен сізді дұрыс түсінсем, сіз X және Y кірістірулерінің осы екі болжамы ең ұқсас болатын энергияның төмен нүктесін тауып жатырсыз ба, яғни бір ағашта көгершін болса және ағашта бірдеңе болса. көріністің фоны болса, бұл ендірмелерді бір-біріне жақындататын маңызды нүктелер болмауы мүмкін.

YL: Дұрыс. Осылайша, JEPA архитектурасы шын мәнінде кірістер туралы барынша ақпараттандыратын, бірақ дәлдік немесе сенімділік деңгейімен бір-бірінен болжауға болатын өкілдіктерді алу арасында ымыраға келуге тырысады. Ол айырбас табады. Сонымен, егер ол жапырақтардың қозғалысының егжей-тегжейлерін қоса алғанда, үлкен көлемдегі ресурстарды жұмсау, содан кейін жапырақтардың бір секундтан кейін қалай қозғалатынын анықтайтын динамиканы модельдеу немесе оны жай ғана еденге тастау арасында таңдау болса. жай ғана Y айнымалысын осы мәліметтердің барлығын жоятын болжауыш арқылы іске қосады, ол оны жояды, себебі оны модельдеу және түсіру тым қиын.

ZDNet: Бір таң қалдыратын нәрсе, сіз «Бұл жұмыс істейді, оны түсіндіру үшін термодинамика теориясын кейінірек анықтаймыз» деп айтудың керемет жақтаушысы болдыңыз. Бұл жерде сіз: «Мен мұны міндетті түрде қалай шешетінімізді білмеймін, бірақ мен бұл туралы ойлану үшін кейбір идеяларды ұсынғым келеді» және, мүмкін, тіпті теорияға немесе гипотезаға жақындадыңыз. кем дегенде. Бұл қызық, өйткені көліктің ақыл-ойы бар-жоғына қарамастан, жаяу жүргіншіні көре алатын көлікке көп ақша жұмсайтын адамдар көп. Менің ойымша, бұл адамдардың кейбіреулері белгіленбейді, бірақ олар: «Жақсы, оның ақыл-парасаты болмаса, бізге бәрібір, біз симуляция жасадық, модельдеу керемет, және біз жақсартуды жалғастырамыз, модельдеуді масштабтауды жалғастырамыз ». 

Бір қызығы, сіз енді бір қадам артқа шегініп, не істеп жатқанымыз туралы ойланайық деп айта алатындай күйде екенсіз. Өнеркәсіп біз жай ғана масштабтауға, масштабтауға, масштабтауға, масштабтауға барамыз деп айтады, өйткені бұл иінді шын мәнінде жұмыс істейді. Айтайын дегенім, графикалық процессорлардың жартылай өткізгіш иіні шынымен жұмыс істейді.

YL: Онда бес сұрақ бар. Демек, масштабтау қажет. Мен масштабтауымыз керек дегенді сынамаймын. Біз масштабтауымыз керек. Бұл нейрондық желілер үлкейген сайын жақсарады. Біз масштабтауымыз керек деген сұрақ жоқ. Ал ақыл-ойы қандай да бір деңгейде болатындары үлкен болады. Менің ойымша, мұны айналып өтуге жол жоқ. Сондықтан масштабтау жақсы, қажет, бірақ жеткіліксіз. Менің айтып отырған ойым осы. Бұл жай ғана масштабтау емес. Бұл бірінші нүкте. 

Екінші мәселе, теория бірінші орында ма және сол сияқты нәрселер. Сонымен, менің ойымша, бірінші кезекте артқа шегініп, «жарайды, біз бұл баспалдақты салдық, бірақ біз айға барғымыз келеді және бұл баспалдақ бізді сол жерге апара алмайды» деп айту керек. Сондықтан, негізінен, менің мұнда жазып отырғаным, бізге зымыран жасау керек. Мен сізге зымырандарды қалай құрастыратынымыз туралы егжей-тегжейлі айта алмаймын, бірақ мұнда негізгі қағидалар берілген. Мен ол үшін немесе басқа нәрсе үшін теория жазбаймын, бірақ бұл зымыран болады, жарайды ма? Немесе ғарыштық лифт немесе басқасы. Бізде барлық технологияның барлық мәліметтері болмауы мүмкін. Біз JEPA-да жұмыс істеген сияқты кейбір нәрселерді іске асыруға тырысамыз. Бірлескен ендіру кескінді тану үшін өте жақсы жұмыс істейді, бірақ оны әлемдік модельді үйрету үшін пайдалану қиын. Біз онымен жұмыс істеп жатырмыз, оны жүзеге асырамыз деп үміттенеміз soon, бірақ ол жерде біз жеңе алмайтын кейбір кедергілерге тап болуымыз мүмкін. 

Содан кейін мақалада пайымдау туралы негізгі идея бар, егер біз жүйелердің жоспарлай алатынын қаласақ, оны ойлаудың қарапайым түрі ретінде қарастыруға болады, оларда жасырын айнымалылар болуы керек. Басқаша айтқанда, кез келген нейрондық желі арқылы есептелмейтін, бірақ мәні кейбір мақсаттық функцияны, кейбір шығындар функциясын азайту үшін шығарылатын нәрселер. Содан кейін жүйенің әрекетін басқару үшін осы шығын функциясын пайдалануға болады. Бұл мүлдем жаңа идея емес, солай емес пе? Бұл өте классикалық, оңтайлы бақылау, оның негізі 50-жылдардың соңы, 60-жылдардың басына жатады. Демек, мұнда ешқандай жаңалық талап етілмейді. Бірақ менің айтайын дегенім, қорытынды жасаудың бұл түрі жоспарлауға қабілетті интеллектуалды жүйенің бөлігі болуы керек және оның мінез-құлқы бекітілген мінез-құлықпен емес, еліктеушілікпен емес, объективті функциямен анықталуы немесе басқарылуы мүмкін. мінез-құлықты басқарады — міндетті түрде оқуды қозғамайды, бірақ мінез-құлықты басқарады. Білесіз бе, бұл біздің миымызда бар және әрбір жануардың заттарға өзіндік құны немесе ішкі мотивтері бар. Бұл тоғыз айлық нәрестелерді тұруға итермелейді. Тұрған кезде бақытты болудың құны, құн функциясындағы бұл термин байланыстырылған. Бірақ қалай тұру керек емес, бұл үйрену.

yann-lecun-сентябрь-2022-4

«Масштабтау жақсы, қажет, бірақ жеткіліксіз», - дейді GPT-3 түріндегі Трансформаторға негізделген бағдарламалар сияқты алып тіл үлгілері туралы ЛеКун. Трансформатордың табынушылары: «Біз бәрін таңбалаймыз және гигантты жаттықтырамыздискретті болжамдар жасауға арналған модельдер, және қалай болғанда да AI осыдан пайда болады ... бірақ менің ойымша, бұл маңызды бөліктер жетіспейді ».

ZDNet: Осы мәселені қорытындылау үшін терең білім беру қауымдастығының көп бөлігі ақылға қонымсыз нәрсемен айналыса алатын сияқты. Сіз бұл жерде бір сәтте тығырыққа тірелетінін анық дәлелдеп жатқан сияқтысыз. Кейбіреулер бізге ақылға қонымды автономды көлік қажет емес дейді, өйткені масштабтау мұны жасайды. Сіз бұл жолмен жүре беру дұрыс емес деп жатқан сияқтысыз ба?

YL: Білесіз бе, менің ойымша, бізде ақылға қонымсыз бесінші деңгейдегі автономды көліктер болуы әбден мүмкін. Бірақ бұл тәсілдегі мәселе уақытша болады, өйткені сіз оны инженерлік жолмен шешуге тура келеді. Білесіз бе, бүкіл әлемді картаға түсіріңіз, бұрыштық іс-әрекеттің барлық түрлерін қатаң түрде бекітіңіз, сізде жолдарда кезігуі мүмкін барлық түрдегі, оғаш жағдайлар бар жеткілікті деректерді жинаңыз, бла, бла, бла. Менің болжауымша, инвестиция мен уақыт жеткілікті болса, сіз оны тек инженерлік жолмен жасай аласыз. Бірақ, сайып келгенде, әлемнің қалай жұмыс істейтінін түсіну үшін жақсы жұмыс істейтін жүйелерді қамтитын және біз жалпы сана деп атайтын деңгейге ие жүйелерді қамтитын неғұрлым қанағаттанарлық және мүмкін жақсырақ шешім болады. Бұл адам деңгейіндегі парасаттылық болуы керек емес, бірақ жүйе біреудің көлік жүргізіп жатқанын бақылап емес, жай ғана айналадағы нәрселерді бақылап, әлем туралы көп нәрсені түсіну, фон негізін құру арқылы алуға болатын білімнің кейбір түрі. әлемнің қалай жұмыс істейтіні туралы білім, оның үстіне сіз көлік жүргізуді үйренуге болады. 

Бұған тарихи мысал келтірейін. Классикалық компьютерлік көру көптеген сымды, инженерлік модульдерге негізделген, олардың үстіне сізде оқытудың жұқа қабаты болады. Сонымен, 2012 жылы AlexNet жеңген материалда негізінен SIFT [Scale-Invariant Feature Transform (SIFT), кескіндегі көрнекті нысандарды анықтауға арналған классикалық көру әдісі] сияқты қолмен жасалған функцияларды шығарудың бірінші сатысы болды. және HOG [Бағдарланған градиенттердің гистограммасы, басқа классикалық әдіс] және басқа да нәрселер. Ал содан кейін функция ядроларына және кез келген нәрсеге негізделген орта деңгейлі мүмкіндіктердің екінші қабаты және бақыланбайтын әдістің қандай да бір түрі. Сосын оның үстіне тірек векторлық машинасын немесе салыстырмалы түрде қарапайым классификаторды қоясыз. Бұл 2000-шы жылдардың ортасынан бастап 2012 жылға дейінгі стандартты құбыр болды. Оның орнына ұшты-соңды конволюционды желілер келді, мұнда сіз мұның ешқайсысын қоспайсыз, сізде жай ғана деректер көп, және сіз нәрсені басынан аяғына дейін жаттықтырасыз, бұл мен ұзақ уақыт бойы қолдаған тәсіл, бірақ сіз білесіз бе, оған дейін үлкен мәселелер үшін практикалық болмады. 

Сөйлеуді танудағы ұқсас оқиға болды, мұнда тағы да деректерді алдын ала өңдеу әдісі бойынша үлкен көлемде егжей-тегжейлі инженерия болды, сіз жаппай масштабты цепструмды (сигналдарды өңдеуге арналған жылдам Фурье түрлендіруінің кері нұсқасы) шығарасыз, содан кейін Сізде жасырын Марков үлгілері бар, олар алдын ала орнатылған архитектурасы бар, бла, бла, бла, гаусстардың қоспасы бар. Сонымен, бұл алдыңғы жағын қолмен жасаған, содан кейін біршама бақыланбайтын, оқытылған, ортаңғы қабат, содан кейін үстіңгі жағында бақыланатын қабат болатын көрініс сияқты архитектура. Енді бұл, негізінен, нейрондық желілер арқылы жойылды. Сондықтан мен бәрін үйренуге тырысатын ұқсас нәрсені көріп тұрмын, бірақ сізде дұрыс алдыңғы, дұрыс архитектура, дұрыс құрылым болуы керек.

yann-lecun-сентябрь-2022-5

Өзін-өзі басқаратын көлік тобы, Waymo және Wayve сияқты стартаптар, олар «деректерді лақтыра алады және сіз бәрін үйрене аласыз» деп ойлай отырып, «аздап оптимистік болды» дейді. ADAS-тың 5-деңгейіндегі өздігінен жүретін көліктер мүмкін, «Бірақ сіз оны толығымен құрастыруыңыз керек» және компьютерлік көрудің ерте үлгілері сияқты «сынғыш» болады.

ZDNet: Сіз айтып отырғаныңыздай, кейбір адамдар қазіргі уақытта қолданбалылық үшін терең оқытумен жұмыс істемейтін нәрсені жобалауға тырысады, айталық, өнеркәсіпте және олар компьютерлік көруде ескірген нәрсені жасауға кіріседі ме?

YL: Дұрыс. Автономды жүргізуде жұмыс істейтін адамдар соңғы бірнеше жылда тым оптимистік болды, өйткені сізде конволюционды торлар мен трансформаторлар сияқты жалпыға ортақ нәрселер бар, сіз оған деректерді тастай аласыз. , және ол көп нәрсені үйрене алады. Сонымен, сіз: «Жарайды, менде бұл мәселенің шешімі бар» дейсіз. Сіз жасайтын бірінші нәрсе - көлік ешкімге зиян тигізбестен бірнеше минут бойы өзін басқаратын демонстрация жасайсыз. Содан кейін сіз бұрыштық корпустардың көп екенін түсінесіз және сіз жаттығулар жиынтығын екі есе арттырған кезде мен қаншалықты жақсырақ болып жатқанымды анықтауға тырысасыз және сіз ол жерге ешқашан жете алмайтыныңызды түсінесіз, өйткені бұрыштық корпустардың барлық түрлері бар. . Әр 200 миллион километрден аз өлімге әкелетін апатқа әкелетін көлік болуы керек, солай емес пе? Сонымен, сіз не істейсіз? Ал, сіз екі бағытта жүресіз. 

Бірінші бағыт – менің жүйемнің үйренуі үшін қажетті деректер көлемін қалай азайтуға болады? Міне, өзін-өзі қадағалайтын оқыту дәл осы жерде басталады. Сондықтан, өзін-өзі басқаратын көлік құралдарының көпшілігі өзін-өзі бақылайтын оқытуға өте қызығушылық танытады, өйткені бұл еліктеу оқу үшін бақылау деректерінің орасан зор көлемін әлі де пайдаланудың бір жолы, бірақ жақсы нәтижеге қол жеткізу. алдын ала дайындық, негізінен. Бұл әлі шешілген жоқ, бірақ ол болады. Ал содан кейін басқа нұсқа бар, оны қазіргі уақытта анағұрлым жетілдірілген компаниялардың көпшілігі қабылдады, ол, жақсы, біз аяғына дейін оқытуды жасай аламыз, бірақ біз жасай алатын көптеген бұрыштық жағдайлар бар' t өңдеу, сондықтан біз сол бұрыштық істерге қамқорлық жасайтын және, негізінен, оларды ерекше жағдайлар ретінде қарастыратын және басқаруды сыммен байланыстыратын, содан кейін ерекше жағдайларды өңдеу үшін көптеген негізгі әрекеттерді бекітетін жүйелерді құрастырамыз. Егер сізде жеткілікті үлкен инженерлер тобы болса, сіз оны тарта аласыз. Бірақ бұл көп уақытты қажет етеді және ақыр соңында, ол әлі де аздап сынғыш болады, мүмкін сіз қолдануға болатындай сенімді болуы мүмкін, бірақ кейбір сынғыштық деңгейі бар, ол оқуға негізделген тәсілде пайда болуы мүмкін. Болашақта автомобильдер болмайды, өйткені оларда әлемнің қалай жұмыс істейтіні туралы қандай да бір парасаттылық пен түсінік болуы мүмкін. 

Қысқа мерзімді перспективада, сұрыпталған, инженерлік тәсіл жеңеді - ол жеңеді. Бұл әлемдегі Waymo және Cruise және Wayveжәне бәрібір, олар осылай істейді. Одан кейін өздігінен қадағаланатын оқыту әдісі бар, ол инженерлік тәсілге прогреске жетуге көмектеседі. Бірақ ұзақ мерзімді перспективада бұл компаниялар үшін күтуге тым ұзақ болуы мүмкін, неғұрлым интеграцияланған автономды интеллектуалды жүргізу жүйесі болуы мүмкін.

ZDNet: Біз инвесторлардың көпшілігінің инвестициялық көкжиегінен тыс айтамыз.

YL: Дұрыс. Демек, спектакль қажетті деңгейге жеткенше адамдардың шыдамы таусылады ма, әлде ақшасы таусылады ма деген сұрақ туындайды.

ZDNet: Модельде таңдаған элементтердің кейбірін не үшін таңдағаныңыз туралы айтатын қызықты нәрсе бар ма? Өйткені сіз Кеннет Крейкті келтіресіз [1943,Түсіндіру сипаты] және сіз Брайсон мен Ходы келтіресіз [1969, Қолданылатын оңтайлы бақылау], және сіз бұл әсерлерден неліктен бастағаныңыз қызықтырады, егер сіз әсіресе бұл адамдар мұны өздері жасаған нәрсеге дейін шегелеп алды деп сенсеңіз. Неліктен сол жерден бастадыңыз?

YL: Менің ойымша, олар барлық бөлшектерді шегелеп алған. Сонымен, Брайсон мен Хо, бұл мен 1987 жылы Торонтода Джеффри Хинтонмен постдок болған кезде оқыған кітап. Бірақ мен бұл жұмыс бағыты туралы PhD докторантурамды жазып жатқанда алдын ала білдім және оңтайлы бақылау мен тірек тірек арасындағы байланысты жасадым. Егер сіз шынымен де басқа Шмидхубер болғыңыз келсе, сіз арқа сүйегінің нағыз өнертапқыштары оңтайлы басқару теоретиктері Генри Дж. Келли, Артур Брайсон және, мүмкін, тіпті ресейлік оңтайлы басқару теоретигі Лев Понтрягин болды деп айтар едіңіз. 50-жылдардың соңында. 

Сонымен, олар мұны түсінді, және шын мәнінде, сіз мұның түбірін көре аласыз, оның астындағы математика - Лагранж механикасы. Сонымен, сіз Эйлер мен Лагранжға оралуға болады, шын мәнінде, Лагранж классикалық механикасының анықтамасында осының иісін таба аласыз. Сонымен, оңтайлы басқару контекстінде бұл жігіттерді қызықтыратын нәрсе негізінен зымыран траекториясын есептеу болды. Білесіз бе, бұл ерте ғарыш дәуірі еді. Ал егер сізде зымыран үлгісі болса, ол сізге зымыранның сол уақыттағы күйін көрсетеді t, және міне, мен жасайтын әрекет, сондықтан, әртүрлі түрдегі итергіштер мен жетектер, міне, зымыранның сол уақыттағы күйі t + 1.

ZDNet: Күй-әрекет үлгісі, құндылық үлгісі.

YL: Дұрыс, бақылаудың негізі. Сонымен, енді сіз командалар тізбегін елестету арқылы зымыранның атылуын имитациялай аласыз, содан кейін сізде зымыранның нысанаға, ғарыш станциясына немесе кез келген нәрсеге дейінгі қашықтығы болып табылатын шығындар функциясы бар. Содан кейін қандай да бір градиенттің түсуі арқылы сіз зымыраным нысанаға мүмкіндігінше жақын болуы үшін әрекет ету ретін қалай жаңартуға болатынын анықтай аласыз. Және бұл сигналдарды уақыт бойынша кері тарату арқылы келуі керек. Және бұл кері таралу, градиент кері таралу. Бұл сигналдар, олар Лагранж механикасында конъюгаттық айнымалылар деп аталады, бірақ іс жүзінде олар градиенттер. Осылайша, олар бекіністі ойлап тапты, бірақ бұл принцип үлгіні тануды немесе сол сияқты нәрсені жасай алатын көп сатылы жүйені үйрету үшін пайдаланылуы мүмкін екенін түсінбеді. Бұл 70-ші жылдардың аяғына дейін, 80-ші жылдардың басына дейін жүзеге асырылмады, содан кейін 80-жылдардың ортасына дейін іс жүзінде жүзеге асырылмады және жұмыс істеді. Жарайды, міне, дәл осы жерде бэкпроп шықты, өйткені адамдар мұнда нейрондық желіні ұшынан аяғына дейін, көп қабатты жаттықтыруға болатын бірнеше код жолын көрсетті. Және бұл Perceptron шектеулерін жояды. Иә, оңтайлы басқарумен байланыстар бар, бірақ бұл жақсы.

ZDNet: Сонымен, бұл сіз бастаған әсерлер артқы жағына оралды деп айтудың ұзақ жолы және бұл сіз үшін бастапқы нүкте ретінде маңызды болды ма?

YL: Иә, бірақ менің ойымша, адамдар аздап ұмытып кеткен нәрсе, бұл туралы 90-шы жылдары немесе тіпті 80-ші жылдары, оның ішінде Майкл Джордан [MIT Dept. of Brain сияқты адамдармен біраз жұмыс болды. және когнитивтік ғылымдар] және бұдан былай нейрондық желілермен айналыспайтын адамдар, бірақ басқару үшін нейрондық желілерді пайдалануға болады деген идея және оңтайлы басқарудың классикалық идеяларын пайдалануға болады. Сонымен, модельді болжаушы басқару деп аталатын нәрселер, қазір модельді болжаушы басқару деп аталатын нәрсе, сіз басқаруға тырысып жатқан жүйенің жақсы үлгісі болса, әрекеттер тізбегінің нәтижесін имитациялауға немесе елестетуге болатын идея. және оның қоршаған ортасы. Содан кейін градиент бойынша төмендеу — бұл оқу емес, бұл қорытынды — менің мақсатымды азайтатын әрекеттердің ең жақсы тізбегі қандай екенін анықтауға болады. Сонымен, қорытынды жасау үшін жасырын айнымалысы бар шығын функциясын пайдалану, менің ойымша, қазіргі заманғы кең ауқымды нейрондық желілердің дақылдары ұмытып кеткен нәрсе. Бірақ бұл ұзақ уақыт бойы машиналық оқытудың өте классикалық құрамдас бөлігі болды. Осылайша, әрбір Bayesian Net немесе графикалық модель немесе ықтималдық графикалық модель қорытындының осы түрін пайдаланды. Сізде айнымалылар шоғыры арасындағы тәуелділіктерді түсіретін үлгі бар, сізге кейбір айнымалылардың мәні айтылады, содан кейін қалған айнымалылардың ең ықтимал мәнін шығару керек. Бұл графикалық модельдер мен Bayesian желілеріндегі қорытындының негізгі принципі және т.б. Менің ойымша, бұл негізінен пайымдау, ойлау және жоспарлау туралы болуы керек.

ZDNet: Сіз Байесиялық шкафсыз.

YL: Мен ықтималдық емес Байезианмын. Мен бұл әзілді бұрын жасағанмын. Мен бірнеше жыл бұрын NeurIPS-те болдым, менің ойымша, бұл 2018 немесе 2019 жылы болды және мені Байесиялық бейнеге түсіріп алды, ол менен Байесиялық екенімді сұрады, мен: Иә, мен Байесиялықпын, бірақ мен Мен ықтималдық емес Байезианмын, егер қаласаңыз, энергияға негізделген Байезиялықпын. 

ZDNet: Бұл сөзсіз бір нәрсе сияқты естіледі Star Trek. Сіз осы мақаланың соңында айтып өттіңіз, сіз ойлаған нәрсені жүзеге асыру үшін көп жылдар қажет болады. Қазіргі уақытта сол жұмыстың кейбірі неден тұратынын айтыңыз.

YL: Сонымен, мен қағазда JEPA-ны қалай жаттықтырып, құрастыратыныңызды түсіндіремін. Мен қолдайтын критерий - бұл алынған өкілдіктердің кіріс туралы ақпарат мазмұнын барынша арттырудың қандай да бір жолы бар. Ал екіншісі болжау қатесін азайтады. Егер болжауышта болжаушының детерминирленген емес болуына мүмкіндік беретін жасырын айнымалы болса, оның ақпараттық мазмұнын азайту арқылы осы жасырын айнымалыны да реттеу керек. Сонымен, сізде қазір екі мәселе бар, ол қандай да бір нейрондық желінің шығысының ақпараттық мазмұнын қалай арттыруға болады, ал екіншісі - кейбір жасырын айнымалының ақпараттық мазмұнын қалай азайтуға болады? Ал егер сіз осы екі нәрсені жасамасаңыз, жүйе құлдырады. Бұл қызықты ештеңе үйренбейді. Ол барлық нәрсеге нөлдік қуат береді, тәуелділіктің жақсы үлгісі емес. Бұл мен айтып отырған күйреудің алдын алу мәселесі. 

Мен адамдар жасаған барлық нәрселер туралы айтып отырмын, құлдыраудың алдын алу әдістерінің тек екі санаты бар. Бірі – контрастты әдістер, екіншісі – осы реттелген әдістер. Сонымен, бұл екі кірісті ұсынудың ақпараттық мазмұнын барынша арттыру және жасырын айнымалының ақпараттық мазмұнын азайту идеясы, бұл реттелетін әдістерге жатады. Бірақ бұл біріктірілген архитектуралардағы жұмыстардың көпшілігі контрасттық әдістерді пайдаланады. Шындығында, олар қазіргі уақытта ең танымал болуы мүмкін. Мәселен, сіз оңтайландыру немесе азайту үшін ақпарат мазмұнын дәл қалай өлшеуге болады? Міне, біз ақпарат мазмұнын қалай өлшеуге болатынын білмегендіктен, бәрі қиындайды. Біз оны жуықтай аламыз, біз оны жоғары шектей аламыз, біз осындай нәрселерді жасай аламыз. Бірақ олар іс жүзінде ақпарат мазмұнын өлшемейді, ол белгілі бір дәрежеде тіпті нақты анықталмаған.

ZDNet: Бұл Шеннон заңы емес пе? Бұл ақпарат теориясы емес пе? Сізде белгілі бір энтропия, жақсы энтропия және жаман энтропия бар, ал жақсы энтропия - жұмыс істейтін символдық жүйе, нашар энтропия - шу. Мұның бәрін Шеннон шешіп қойған жоқ па?

YL: Дұрыс айтасыз, бірақ оның астарында үлкен кемшілік жатыр. Сіз дұрыс айтасыз, егер сізге келетін деректер болса және сіз қандай да бір түрде деректерді дискретті таңбаларға кванттай алсаңыз, содан кейін сол таңбалардың әрқайсысының ықтималдығын өлшесеңіз, онда бұл белгілермен тасымалданатын ақпараттың максималды мөлшері мүмкін таңбаларының қосындысы Pi журналы Pi, иә? Қайда Pi символының ықтималдығы болып табылады мен — бұл Шеннон энтропиясы. [Шеннон заңы әдетте H = – ∑ pi log pi түрінде тұжырымдалады.]

Мәселе мынада: бұл не Pi? Таңбалар саны аз болса және таңбалар дербес сызылғанда оңай. Көптеген таңбалар мен тәуелділіктер болған кезде бұл өте қиын. Сонымен, егер сізде биттердің тізбегі болса және сіз биттерді бір-бірінен тәуелсіз деп есептесеңіз және ықтималдық бір мен нөлге тең немесе кез келген нәрсеге тең болса, онда сіз энтропияны оңай өлшей аласыз, мәселе жоқ. Бірақ егер сізге келетін нәрселер жоғары өлшемді векторлар болса, мысалы, деректер кадрлары немесе осыған ұқсас нәрсе, бұл не Pi? Бөлу дегеніміз не? Алдымен сіз бұл кеңістікті кванттауыңыз керек, ол жоғары өлшемді, үздіксіз кеңістік. Сіз мұны қалай дұрыс есептеу керектігін білмейсіз. Сіз k-құралдарын және т.б. пайдалана аласыз. Бұл адамдар бейнені қысу және кескінді сығу кезінде жасайды. Бірақ бұл шамамен ғана. Содан кейін тәуелсіздік туралы жорамалдар жасау керек. Сонымен, бейнеде кезекті кадрлар тәуелсіз емес екені анық. Тәуелділіктер бар және бұл кадр бір сағат бұрын көрген басқа кадрға байланысты болуы мүмкін, ол дәл сол нәрсенің суреті болды. Демек, сіз өлшей алмайсыз Pi. Өлшеу Pi, сізде болжауды үйренетін машиналық оқыту жүйесі болуы керек. Осылайша сіз бұрынғы мәселеге қайта оралдыңыз. Сонымен, сіз тек ақпарат өлшемін шамамен ала аласыз. 

yann-lecun-сентябрь-2022-6

«Мәселе мынада: сіз оңтайландыру немесе азайту үшін ақпарат мазмұнын қалай өлшейсіз?» дейді Лекун. «Міне, біз ақпарат мазмұнын қалай өлшеу керектігін білмегендіктен, бәрі қиындайды». Осы уақытқа дейін жасауға болатын ең жақсы нәрсе - «біз қалаған тапсырма үшін жеткілікті жақсы» проксиді табу.

Нақтырақ мысал келтірейін. Біз ойнаған алгоритмдердің бірі және мен бұл бөлімде айтқан болатынмын, бұл VICReg, дисперсия-инвариантты-ковариантты реттеу деп аталатын нәрсе. Бұл ICLR-де жарияланған бөлек қағазда және ол arXiv қойылды шамамен бір жыл бұрын, 2021. Ал ондағы идея ақпаратты барынша көбейту. Бұл идея менің тобымның бұрынғы қағазынан шыққан Барлоу егіздер. Нейрондық желіден шығатын вектордың ақпараттық мазмұнын, негізінен, айнымалылар арасындағы жалғыз тәуелділік корреляция, сызықтық тәуелділік деп есептей отырып, барынша көбейтесіз. Сонымен, айнымалылар жұптары немесе жүйеңіздегі айнымалылар арасындағы мүмкін болатын жалғыз тәуелділік құндылықтар жұптары арасындағы корреляция болып табылады деп болжасаңыз, бұл өте өрескел жуықтау, онда жүйеңізден шығатын ақпарат мазмұнын барынша арттыруға болады. барлық айнымалы мәндердің нөлдік емес дисперсиясы бар екеніне көз жеткізу арқылы — айталық, бірінші вариация, оның не екені маңызды емес — содан кейін оларды кері корреляциялау, ағарту деп аталатын бірдей процесс, бұл да жаңа емес. Мәселе мынада, сізде айнымалылар топтары немесе тіпті сызықтық тәуелділіктер емес айнымалы жұптар арасында өте күрделі тәуелділіктер болуы мүмкін және олар корреляцияда көрсетілмейді. Мәселен, мысалы, сізде екі айнымалы болса және осы екі айнымалының барлық нүктелері спираль түрінде орналасса, бұл екі айнымалының арасында өте күшті тәуелділік бар, солай емес пе? Бірақ шын мәнінде, егер сіз осы екі айнымалы арасындағы корреляцияны есептесеңіз, олар корреляцияланбайды. Сонымен, осы екі айнымалының ақпараттық мазмұны шын мәнінде өте аз болатын мысал, бұл тек бір шама, себебі бұл сіздің спиральдағы позицияңыз. Олар корреляцияланған, сондықтан сізде бұл екі айнымалыдан шығатын көптеген ақпарат бар деп ойлайсыз, ал шын мәнінде сізде жоқ, сізде тек бар, сізде айнымалылардың бірін екіншісінен болжай аласыз. Демек, бұл бізде ақпарат мазмұнын өлшеудің өте жуық тәсілдері бар екенін көрсетеді.

ZDNet: Енді осымен жұмыс істеу керек нәрселердің бірі осы ма? Бұл ақпарат мазмұнын барынша ұлғайту және азайту кезінде біз қайдан білеміз деген үлкен сұрақ.

YL:  Немесе бұл үшін пайдаланып жатқан прокси біз қалаған тапсырма үшін жеткілікті түрде жақсы ма. Шындығында, біз мұны машиналық оқытуда үнемі жасаймыз. Біз азайтатын шығындар функциялары ешқашан азайтқымыз келетін функциялар емес. Мәселен, сіз классификация жасағыңыз келеді, солай ма? Жіктеуішті жаттықтырған кезде азайтқыңыз келетін шығын функциясы классификатор жіберетін қателер саны болып табылады. Бірақ бұл дифференциалданбайтын, қорқынышты шығын функциясы, оны азайтуға болмайды, өйткені сіз нейрондық желіңіздің салмағын өзгертетініңізді білесіз, сол үлгілердің бірі өз шешімін өзгертпейінше ештеңе өзгермейді, содан кейін секіру. қатеде, оң немесе теріс.

ZDNet: Сонымен, сізде объективті функция болып табылатын прокси бар, біз бұл нәрсенің градиенттерін анық айта аламыз.

YL: Дұрыс. Сондықтан адамдар осы кросс-энтропия жоғалтуын немесе SOFTMAX пайдаланады, сізде оған бірнеше атаулар бар, бірақ бұл бірдей нәрсе. Бұл негізінен жүйе жіберетін қателер санының біркелкі жуықтауы, мұнда тегістеу, негізінен, жүйе санаттардың әрқайсысына беретін ұпайды ескере отырып жасалады.

ZDNet: Біз қарастырмаған, сіз қамтығыңыз келетін нәрсе бар ма?

YL: Бұл негізгі ойларға баса назар аударатын шығар. Менің ойымша, AI жүйелері ақылға қонымды болуы керек және мен қолдайтын бұл процесс жасырын айнымалыға қатысты кейбір мақсатты азайту болып табылады. Бұл жүйеге жоспарлауға және пайымдауға мүмкіндік береді. Менің ойымша, біз ықтималдық шеңберінен бас тартуымыз керек, өйткені біз жоғары өлшемді, үздіксіз айнымалылар арасындағы тәуелділіктерді түсіру сияқты нәрселерді жасағымыз келгенде, бұл қиын. Мен генеративті модельдерден бас тартуды жақтаймын, өйткені жүйе болжау тым қиын нәрселерді болжауға тым көп ресурстарды жұмсауы керек және тым көп ресурстарды тұтынуы мүмкін. Және бұл өте көп. Бұл негізгі хабарламалар, егер қаласаңыз. Содан кейін жалпы архитектура. Содан кейін сананың табиғаты мен конфигуратордың рөлі туралы болжамдар бар, бірақ бұл шын мәнінде болжам.

ZDNet: Оған келесі жолы жетеміз. Мен сізден сұрайын деп едім, сіз бұл нәрсені қалай салыстырасыз? Бірақ менің ойымша, сіз дәл қазір бенчмаркингтен сәл алыссыз ба?

YL: Міндетті түрде соншалықты алыс емес, жеңілдетілген нұсқалар. Сіз бақылау немесе күшейту оқуында барлығының не істейтінін жасай аласыз, яғни сіз Atari ойындарын немесе соған ұқсас нәрсені немесе белгісіздігі бар басқа ойынды ойнауға үйретесіз.

ZDNet: Уақытыңыз үшін рахмет, Янн.

қайнар көз