Метанын AI гурусу ЛеКун: Бүгүнкү AI ыкмаларынын көбү эч качан чыныгы интеллектке алып келбейт

yann-lecun-сентябрь-2022-1

"Менин оюмча, AI системалары ой жүгүртүүгө жөндөмдүү болушу керек", - дейт Метанын AI боюнча башкы окумуштуусу Янн Лекун. Бүгүнкү күндөгү популярдуу AI ыкмалары, мисалы Transformers, алардын көбү бул тармактагы өзүнүн пионердик ишине негизделген. "Сиз бир кадам артка кетип: "Макул, биз бул тепкичти курдук, бирок биз Айга баргыбыз келет жана бул тепкич бизди ал жакка жеткире албайт" деп айтышыңыз керек" дейт Лекун.

Янн Лекун, башкы AI окумуштуусу Meta Properties компаниясынын ээси, Facebook, Instagram жана WhatsAppтын ээси, өз тармагында көп адамдарды таң калтырышы мүмкүн. 

Июнь айында жарыяланган ой жүгүртүү менен Open Review серверинде, ЛеКун машиналарда адамдык деңгээлдеги интеллектке жетүү үчүн убада берет деп ойлогон ыкманын кеңири баяндамасын сунуштады. 

Кагазда айтылбаса, AIдагы бүгүнкү ири долбоорлордун көпчүлүгү адамдык деңгээлдеги максатка эч качан жете албайт деген талаш.

менен ушул айда болгон талкууда ZDNet Zoom аркылуу ЛеКун учурда терең үйрөнүү боюнча изилдөөнүн эң ийгиликтүү жолдоруна чоң ишенбөөчүлүк менен карай турганын ачык айтты.

"Менин оюмча, алар зарыл, бирок жетишсиз", - деди Тьюринг сыйлыгынын лауреаты ZDNet анын курбуларынын изденуулеру. 

Аларга Transformer негизиндеги GPT-3 сыяктуу чоң тил моделдери жана алардын окшоштору кирет. ЛеКун белгилегендей, Трансформердин динчилдери: “Биз бардыгын белгилейбиз жана гиганттарды үйрөтөбүз.моделдер дискреттик болжолдоолорду жасай алышат жана кандайдыр бир жол менен AI андан пайда болот.

"Алар жаңылышпайт, - дейт ал, - бул келечектеги интеллектуалдык системанын курамдык бөлүгү болушу мүмкүн, бирок менимче, анын маанилүү бөлүктөрү жок."

Ошондой эле: Метанын AI жарыгы ЛеКун терең үйрөнүүнүн энергетикалык чек арасын изилдейт

Бул терең үйрөнүү программаларында укмуштуудай жемиштүү болгон практикалык ыкманы, конволюциялык нейрон тармактарын колдонууну өркүндөткөн окумуштуудан келип чыккан укмуштуудай сын. 

ЛеКун дисциплинанын башка көптөгөн ийгиликтүү тармактарында кемчиликтерди жана чектөөлөрдү көрөт. 

Күчтүү окутуу да эч качан жетиштүү болбойт, дейт ал. LeCun белгилегендей, AlphaZero программасын иштеп чыккан DeepMind уюмунун өкүлү Дэвид Силвер, шахмат, Шоги жана Го оюндарын өздөштүргөн программаларга көңүл бурушат, бирок Лекун: муну иш жүзүндө иш-аракеттерди жасоо менен кылабыз, биз муну байкоо менен жасайбыз». 

62 жаштагы Лекун, ондогон жылдар бою жетишкен ийгиликтеринин көз карашы боюнча, ошого карабастан, анын ою боюнча, көптөр шашып жаткан сокур аллеяларга каршы турууга жана өз талаасын анын ою боюнча, иш жүрүшү керек деп эсептеген багытка түртүүгө аракет кылууну билдирет. 

"Биз адамдык деңгээлдеги АИге карай алдыга умтулуу үчүн эмне кылышыбыз керек деген көптөгөн дооматтарды көрүп жатабыз" дейт ал. "Менин оюмча, туура эмес багытталган идеялар бар."

Лекун мындай дейт: «Биздин акылдуу машиналарыбыз мышыктай акыл-эске ээ боло турган даражага жеткен жокпуз. "Эмне үчүн биз ошол жерден баштабайбыз?" 

Ал видеодогу кийинки кадрды алдын ала айтуу сыяктуу нерселерде генеративдик тармактарды колдонуудагы мурунку ишениминен баш тартты. "Бул толук ийгиликсиз болду" дейт ал. 

Лекун өзү "диний ыктымалдуулукчулар" деп атаган адамдарды "ыктимдуулук теориясын машина үйрөнүүнү түшүндүрүү үчүн колдоно ала турган бирден-бир алкак деп эсептешет" деп айыптайт. 

Таза статистикалык ыкма чечүүгө мүмкүн эмес, дейт ал. «Дүйнөлүк моделдин толук ыктымалдуу болушун суроо өтө эле көп; биз муну кантип кылууну билбейбиз».

Академиктерге эле эмес, өнөр жайлык AI дагы терең ойлонууну талап кылат, дейт Лекун. Уэйв сыяктуу стартаптар өзүн-өзү айдаган унаалар "бир аз өтө эле оптимисттик маанайда болушту", дейт ал, алар чоң нейрон тармактарына "маалыматтарды ыргыта алат" жана "сен бардыгын үйрөнө аласың" деп ойлойт.

"Билесизби, менимче, бизде акыл-эси жок бешинчи деңгээлдеги автономдуу унаалар болушу толук мүмкүн", - дейт ал "ADAS" жөнүндө. өнүккөн айдоочу жардам системасы өзүн-өзү айдоо үчүн шарттар, "бирок сиз тозоктон чыгып инженердик кылышыңыз керек болот."

Мындай ашыкча иштелип чыккан өзүн-өзү башкаруу технологиясы терең үйрөнүү менен эскирген бардык компьютердик көрүү программалары сыяктуу бырыштуу жана морт болот, деп эсептейт ал.

"Акыр-аягы, дүйнө кандай иштээрин жакшыраак түшүнгөн системаларды камтыган дагы канааттандырарлык жана мүмкүн жакшыраак чечим болот."

Жолдо ЛеКун өзүнүн эң чоң сынчыларына, мисалы, Нью-Йорк университетинин профессору Гари Маркуска – “ал эч качан жасалма интеллектке эч кандай салым кошкон эмес” жана Дальле Молле Жасалма интеллект изилдөө институтунун тең директору Юрген Шмидхуберге карата кээ бир соолуган көз караштарын сунуштайт. туу коюу абдан оңой».

Сын-пикирлерден тышкары, ЛеКун белгилеген эң маанилүү жагдай - бул бардык AI үчүн белгилүү бир фундаменталдык көйгөйлөр, атап айтканда, маалыматты кантип өлчөө керек.

"Сиз бир кадам артка кетип: "Макул, биз бул тепкичти курдук, бирок биз айга баргыбыз келет жана бул тепкич бизди ал жакка жеткире албайт" деп айтышыңыз керек", - дейт Лекун кайра ой жүгүртүүгө түрткү бергиси келген. негизги түшүнүктөрдүн. "Негизинен, мен бул жерде жазып жаткан нерсе, биз ракеталарды куруубуз керек, мен сизге ракеталарды кантип жасап жатканыбыздын чоо-жайын айта албайм, бирок бул жерде негизги принциптер."

Гезитти жана Лекундун интервьюдагы ойлорун ушул жылдын башында Лекундун маегин окуу менен жакшыраак түшүнсө болот. ZDNet анда ал энергияга негизделген өз алдынча башкарууну терең үйрөнүүгө карай жол катары талашат. Бул ой жүгүртүүлөр ал марага жетпейт деп эсептеген нерселерге альтернатива катары курууну үмүт кылган негизги мамиленин маанисин берет. 

Төмөндө интервьюнун жеңил редакцияланган стенограммасы.

ZDNet: Биздин маектин темасы бул кагаз, "Автономдуу машиналык интеллектке карай жол", кайсы версиянын 0.9.2 версиясы сакталып калган, ооба?

Янн Лекун: Ооба, мен муну жумушчу документ деп эсептейм. Ошентип, мен аны Open Review сайтына жайгаштырдым, адамдардын комментарийлерин жана сунуштарын, балким, кошумча шилтемелерди күтүп, анан кайра каралып чыккан версиясын чыгарам. 

ZDNet: Мен Юрген Шмидхубер буга чейин Ачык карап чыгууга айрым комментарийлерди кошконун көрүп турам.

ЖАНА П: Ооба, ооба, ал ар дайым кылат. Мен анын кагаздарынын бирин гезитимде келтирем. Мен мунун баарын 1991-жылы ойлоп тапкан деп социалдык тармактарда айткан аргументтер, башка учурлардагыдай эле, андай эмес деп ойлойм. Айтайын дегеним, муну жасоо абдан оңойжелек отургузуу, жана кандайдыр бир идеяны эч кандай экспериментсиз, эч кандай теориясыз жазуу үчүн, жөн гана сиз муну ушундай кылсаңыз болот деп сунуштаңыз. Бирок, билесизби, жөн эле идеяга ээ болуу, андан кийин аны оюнчук маселеси боюнча иштеп чыгуу, анан аны чыныгы көйгөй менен иштөө жана анын эмне үчүн иштээрин көрсөткөн теорияны жасоо жана андан кийин чоң айырма бар. аны жайылтуу. Бул жерде бүтүндөй бир чынжыр бар жана анын илимий кредит жөнүндөгү идеясы – бул жөн гана, кандайдыр бир, билесиз, бул идеяга ээ болгон биринчи адам, бардык кредитти алышы керек. Жана бул күлкүлүү. 

ZDNet: Социалдык тармактарда укканыңызга ишенбеңиз. 

ЖАНА П: Айтайын дегеним, ал мен келтиришим керек деген негизги кагазда мен гезитте айткан негизги ойлордун эч бири жок. Ал муну GANs жана башка нерселер менен да жасады, бирок бул чындыкка дал келбейт. Желек коюу оңой, салым кошуу алда канча кыйын. Айтмакчы, бул кагазда мен бул терминдин кадимки маанисинде илимий иш эмес экенин ачык айттым. Бул нерсе кайда барышы керектиги жөнүндө позициялык кагаз. Жана жаңы болушу мүмкүн болгон бир нече идеялар бар, бирок алардын көбү андай эмес. Мен ошол кагазда жазгандарымдын көбүнө эч кандай артыкчылыкты талап кылбайм.

yann-lecun-сентябрь-2022-2

Күчтүү окутуу да эч качан жетиштүү болбойт, дейт ЛеКун. LeCun белгилегендей, AlphaZero программасын иштеп чыккан DeepMind компаниясынан Дэвид Силвер, шахмат, Шоги жана Го оюндарын өздөштүргөн, алар “абдан аракетке негизделген”, бирок “биз үйрөнгөндөрдүн көбүн иш жүзүндө колдонуу менен кылбайбыз. иш-аракеттерди, биз муну байкоо аркылуу жасайбыз». 

ZDNet: Бул, балким, баштоо үчүн жакшы жер, анткени мага кызык, эмне үчүн бул жолду азыр кармадың? Бул жөнүндө эмнени ойлондуңуз? Эмне үчүн муну жазгың келди?

ЖАНА П: Ооба, мен бул жөнүндө көптөн бери ойлонуп келем, адам деңгээлиндеги же жаныбарлардын деңгээлиндеги интеллект же окуу жана мүмкүнчүлүктөр жөнүндө. Жана, мен өзүмдүн баяндамаларымда, көзөмөлдөнгөн үйрөнүү да, бекемдөөчү окуу да жаныбарлар менен адамдарда байкаган үйрөнүүнү туураш үчүн жетишсиз экенин ачык айттым. Мен муну жети-сегиз жылдан бери жасап келем. Демек, бул акыркы эмес. Мен көп жыл мурун NeurIPSде негизги баяндама жасадым, анда мен бул ойду айттым, негизинен, ар кандай сүйлөшүүлөр, жазуулар бар. Эми, эмне үчүн азыр кагаз жазып? Мен бир нерсеге келдим — [Google Brain изилдөөчүсү] Джефф Хинтон да ушуга окшош нерсени жасаган — Мен, албетте, ал менден да көбүрөөк, биз убакыттын өтүп баратканын көрүп жатабыз. Биз жаш эмеспиз.

ZDNet: Алтымыш — жаңы элүү. 

ЖАНА П: Бул туура, бирок кептин баары биз AIнын адамдык деңгээлине жетиш үчүн эмне кылышыбыз керек деген көптөгөн дооматтарды көрүп жатабыз. Жана менин оюмча, туура эмес багытталып калган ойлор бар. Ошентип, бир идея, О, биз жөн гана нейрондук торлордун үстүнө символикалык ой жүгүртүүнү кошуу керек. А мен муну кантип кылууну билбейм. Ошентип, балким, мен кагазда түшүндүргөн нерсе, ачык символдорду манипуляциялоосуз эле жасай турган бир ыкма болушу мүмкүн. Бул дүйнөнүн салттуу Гари Маркузесинин түрү. Гари Маркус AI адам эмес, демек, ал психолог. Ал эч качан AIга эч нерсе кошкон эмес. Ал эксперименталдык психологияда абдан жакшы иштерди жасаган, бирок ал эч качан AI боюнча рецензияланган макала жазган эмес. Демек, ошол адамдар бар. 

Дүйнөнүн [DeepMind принцибинин изилдөөчү окумуштуусу] Дэвид Силверс бар, алар: билесиңерби, сыйлык жетиштүү, негизинен, мунун баары билимди бекемдөө, биз аны бир аз натыйжалуураак кылышыбыз керек, макулбу? Жана, менимче, алар жаңылышпайт, бирок, менимче, бекемдөөчү окутууну натыйжалуураак кылуу үчүн зарыл кадамдар, негизинен, бекемдөөчү үйрөнүүнү торттогу алчага түшүрөт. Ал эми негизги жетишпеген бөлүгү дүйнөнүн кантип иштээрин үйрөнүү болуп саналат, негизинен иш-аракет жок байкоо менен. Күчтөндүрүүчү окутуу абдан иш-аракетке негизделген, сиз иш-аракеттерди жасоо жана натыйжаларды көрүү аркылуу дүйнө жөнүндө нерселерди билесиз.

ZDNet: Жана бул сыйлыкка багытталган.

ЖАНА П: Бул сыйлыкка багытталган, ошондой эле иш-аракетке багытталган. Демек, дүйнө жөнүндө бир нерсе үйрөнүү үчүн дүйнөдө иш-аракет кылышыңыз керек. Ал эми өз алдынча башкаруу менен окутуу жөнүндө гезитте айткан негизги дооматым, биз үйрөнгөндөрдүн көбүн биз иш жүзүндө иш-аракеттерди жасоо менен эмес, байкоо аркылуу жасайбыз. Ал эми бул өтө адаттан тыш нерсе, адамдар үчүн, өзгөчө, ошондой эле көптөгөн психологдор жана когнитивдик илимпоздор үчүн, сиз билесиз, иш-аракет - мен иш-аракет маанилүү эмес деп айткан жокмун, ал is маанилүү. Бирок менин оюмча, биз үйрөнгөн нерселердин негизги бөлүгү дүйнөнүн түзүлүшү жөнүндө жана, албетте, өз ара аракеттенүүнү, аракетти жана оюнду жана ушул сыяктуу нерселерди камтыйт, бирок анын көбү байкоочулук.

ZDNet: Сиз ошол эле учурда Transformer элин, тилди биринчи элди белгилей аласыз. Муну биринчи тилсиз кантип кура аласыз? Көптөгөн адамдардын көңүлүн бура аласыз. 

ЖАНА П: Ооба, мен буга көнүп калдым. Ошентип, ооба, тил-биринчи адамдар бар, алар билесиңерби, интеллект тил жөнүндө, акылдын субстраты тил, бла, бла, бла. Бирок бул жаныбарлардын акылын жокко чыгарат. Билесизби, биз биздин акылдуу машиналар мышыктай акыл-эске ээ боло элекпиз. Анда эмне үчүн биз ошол жерден баштабайбыз? Мышыкка курчап турган дүйнөнү түшүнүүгө, акылдуу нерселерди жасоого, пландаштырууга жана ушуга окшогон нерселерди жасоого, ал эми иттерге андан да жакшыраак болууга эмне мүмкүндүк берет? 

Анан баары эле «Ой, интеллект социалдык нерсе, туурабы? Биз интеллигентпиз, анткени бири-бирибиз менен сүйлөшүп, маалымат алмашып, бла, бла, бла. Осьминог же орангутандар сыяктуу абдан акылдуу ата-энесин эч качан жолуктурбаган ар кандай түрлөр бар.Айтайын дегеним, алар [орангутандар], албетте, апаларынан билим алышкан, бирок алар коомдук жаныбарлар эмес. 

Бирок мен белгилей турган башка категориядагы адамдар - бул масштабдуу деп эсептеген адамдар. Ошентип, негизинен, биз жөн гана гиганттык трансформаторлорду колдонобуз, биз аларды мультимодалдык маалыматтарга үйрөтөбүз, алар билесиңерби, видео, текст, бла, бла, бла. Биз, кандайдыр бир, таштайбызбаарын, жана баарын белгилөө, андан кийин гиганттык машыгуудискреттик болжолдоолорду жасоо үчүн моделдер, негизинен, жана кандайдыр бир жол менен AI андан пайда болот. Бул келечектеги интеллектуалдык системанын компоненти болушу мүмкүн деген мааниде алар жаңылышпайт. Бирок, менимче, анда маанилүү бөлүктөр жетишпей жатат. 

Мен бул кагаз менен белгилей турган адамдардын дагы бир категориясы бар. Ал эми бул ыктымалисттер, диний ыктымалчылар. Ошентип, ыктымалдуулук теориясын ойлогон адамдар - бул машина үйрөнүүнү түшүндүрүү үчүн колдоно турган жалгыз негиз. Жана мен макалада түшүндүрүүгө аракет кылганымдай, дүйнөлүк моделдин толук ыктымалдуу болушун талап кылуу өтө эле көп. Биз муну кантип кылууну билбейбиз. Эсептөөнүн татаалдыгы бар. Ошондуктан мен бул идеядан баш тартууну сунуш кылам. Жана, албетте, билесизби, бул машина үйрөнүүнүн гана эмес, бардык статистиканын эбегейсиз тиреги, ал машина үйрөнүү үчүн кадимки формализм болуп саналат. 

Башка нерсе - 

ZDNet: Сиз ролдо турасыз…

ЖАНА П: — бул генеративдик моделдер деп аталат. Демек, сиз алдын ала айтууну үйрөнө аласыз, балким, болжолдоо менен дүйнө жөнүндө көп нерсени биле аласыз. Ошентип, мен сизге видеонун бир бөлүгүн берем жана системадан видеодо андан ары эмне болорун алдын ала айтууну суранам. Жана мен сизден бардык деталдар менен чыныгы видео кадрларды алдын ала айтууну суранышым мүмкүн. Бирок мен гезитте талашып жаткан нерсе, бул чындыгында суроо үчүн өтө көп жана өтө татаал. Жана бул менин оюмду өзгөрткөн нерсе. Болжол менен эки жыл мурун, мен жашыруун өзгөрмө генеративдик моделдер деп атаган нерсенин жактоочусу болчумун, мындан ары эмне болорун болжолдоочу моделдер же жок болгон маалыматты, балким, эгер болжолдоо мүмкүн болбосо, жашыруун өзгөрмөнүн жардамы менен. детерминисттик. А мен бул нерседен баш тарттым. Мен мындан баш тартканымдын себеби эмпирикалык натыйжаларга негизделген, мында адамдар БЕРТте колдонулган түрүн, алдын ала айтууга же реконструкциялоого негизделген окутууну колдонууга аракет кылышкан.жана чоң тил моделдеринде, алар муну сүрөттөргө колдонууга аракет кылышкан жана бул толук ийгиликсиз болду. Жана анын толук ийгиликсиз болушунун себеби, дагы бир жолу, ыктымалдык моделдердин чектөөлөрүнөн улам, анда сөздөр сыяктуу дискреттик белгилерди алдын ала айтуу салыштырмалуу оңой, анткени биз сөздүктөгү бардык сөздөр боюнча ыктымалдык бөлүштүрүүнү эсептей алабыз. Бул оңой. Бирок биз системадан бардык мүмкүн болгон видео кадрлар боюнча ыктымалдык бөлүштүрүүнү сурасак, биз аны кантип параметрлештирүү керек экенин билбейбиз, же аны кантип параметрлештирүү боюнча кандайдыр бир ойубуз бар, бирок аны кантип нормалдаштырууну билбейбиз. Бул биз чече албаган математикалык көйгөйдү козгойт. 

yann-lecun-сентябрь-2022-3

Лекун мындай дейт: «Биздин акылдуу машиналарыбыз мышыктай акыл-эске ээ боло турган даражага жеткен жокпуз. «Эмне үчүн биз ошол жерден баштабайбыз? Мышыкка курчап турган дүйнөнү түшүнүүгө, акылдуу нерселерди жасоого, пландоо жана ушуга окшогон нерселерди жасоого эмне мүмкүндүк берет, ал эми иттерге андан да жакшыраак?

Ошондуктан, мен ыктымалдуулук теориясын же ушул сыяктуу нерселердин алкагын, алсызыраак, энергияга негизделген моделдерден баш тарталы деп айтам. Мен муну ондогон жылдар бою жактап келем, андыктан бул жакында болгон нерсе эмес. Бирок ошол эле учурда генеративдик моделдер идеясынан баш тартуу, анткени дүйнөдө түшүнүксүз жана алдын ала айтууга мүмкүн болбогон нерселер көп. Эгер сиз инженер болсоңуз, аны ызы-чуу дейсиз. Эгер сиз физик болсоңуз, аны жылуулук дейсиз. Эгер сиз машинаны үйрөнүп жаткан адам болсоңуз, анда сиз аны эч кандай тиешеси жок деталдарды же башка нерсе деп атайсыз.

Ошентип, мен кагазда колдонгон мисал, же мен сүйлөшүүлөрдө колдонгон, сиз өзүн-өзү башкара турган унаада жардам бере турган дүйнөнү болжолдоо системасын каалайсызбы? Ал бардык башка унаалардын траекториясын, кыймылдашы мүмкүн болгон башка объектилердин, жөө жүргүнчүлөрдүн, велосипеддердин, футбол тобунун артынан чуркаган баланын жана ушул сыяктуу нерселердин эмне болорун алдын ала билгиси келет. Ошентип, дүйнө жөнүндө ар кандай нерселер. Бирок жолду чектеп, бак-дарактар ​​болушу мүмкүн, бүгүн шамал бар, ошондуктан жалбырактар ​​шамалда жылып жатат, ал эми дарактардын артында көлмө бар, көлмөдө толкундар бар. Жана бул, негизинен, күтүлбөгөн көрүнүштөр. Ошондой эле, сиз моделиңиздин алдын ала айтуу кыйын жана тиешеси жок нерселерди алдын ала айтууга көп сандагы ресурстарды коротушун каалабайсыз. Ошон үчүн мен биргелешкен кыстаруу архитектурасын жактап жатам, сиз моделдөө үчүн аракет кылып жаткан өзгөрмө, сиз аны алдын ала айтууга аракет кылбайсыз, сиз аны моделдөөгө аракет кылып жатасыз, бирок ал коддоочу аркылуу иштейт жана ал коддоочу кирүүгө тиешеси жок же өтө татаал көптөгөн деталдарды жок кыла алат - негизинен, ызы-чуу менен барабар.

ZDNet: Биз ушул жылдын башында энергияга негизделген JEPA жана H-JEPA моделдерин талкууладык. Менин оюмча, эгер мен сизди туура түшүнсөм, анда X жана Y кыстаруусунун бул эки божомолу эң окшош болгон энергиянын аздыгын таап жатасызбы, демек, бир даракта көгүчкөн бар болсо, ал эми дарактын ичинде бир нерсе болсо. көрүнүштүн фонунда, алар бул кыстарууларды бири-бирине жакын кылган маанилүү пункттар болбошу мүмкүн.

ЖАНА П: Туура. Ошентип, JEPA архитектурасы, чындыгында, киргизүүлөр жөнүндө максималдуу маалымат берүүчү, бирок ошондой эле кандайдыр бир деңгээлде тактык же ишенимдүүлүк менен бири-биринен болжолдоого боло турган өкүлчүлүктөрдү алуу ортосунда компромиссти табууга аракет кылат. Бул соодалашууну табат. Демек, эгерде ал жалбырактардын кыймылынын деталдарын камтыган эбегейсиз көлөмдөгү ресурстарды коротуу жана андан кийин жалбырактардын бир секунддан кийин кандай жылып жатканын чече турган динамиканы моделдөө же аны жөн эле жерге түшүрүү ортосунда тандоо бар болсо. жөн гана Y өзгөрмөсүн ошол деталдардын баарын жок кылган божомолдоочу аркылуу иштетүү, балким, аны жок кылат, анткени моделдөө жана басып алуу өтө кыйын.

ZDNet: Таң калган бир нерсе, сиз "Бул иштейт, биз аны түшүндүрүү үчүн термодинамика теориясын кийинчерээк аныктайбыз" дегенди мыкты жактаган экенсиз. Бул жерде сиз: "Мен муну сөзсүз түрдө кантип чечерибизди билбейм, бирок мен бул жөнүндө ойлонуу үчүн кээ бир идеяларды айткым келет" деген ыкманы кабыл алдыңыз, ал тургай, теорияга же гипотезага жакындайт. жок дегенде. Бул кызыктуу, анткени машинанын акыл-эси бар-жогуна карабастан, жөө жүргүнчүнү көрө алган машинеге көп акча короткон адамдар көп. Мен ошол адамдардын кээ бирлери белгиленбей калат деп элестетем, бирок алар: “Жакшы, анын акыл-эси жок болсо бизге баары бир, биз симуляция курдук, симуляция укмуштуудай, жана биз мындан ары да жакшыртабыз, симуляцияны масштабдуу кыла беребиз. 

Ошентип, сиз азыр бир кадам артка чегинип, эмне кылып жатканыбыз жөнүндө ойлонолу деп айта турган абалда экениңиз кызык. Ал эми өнөр жай биз жөн гана масштабдуу, масштабдуу, масштабдуу, масштабдуу деп жатабыз, анткени бул кранка чындап иштейт. Айтайын дегеним, GPUлардын жарым өткөргүчтөрү чындап эле иштейт.

ЖАНА П: Ал жерде беш суроо бар. Демек, масштабдоо керек дегеним. Мен масштабдуу болушубуз керек деп сындаган жокмун. Биз масштабдуу болушубуз керек. Бул нейрон торлору чоңойгон сайын жакшырат. Биз масштабдашыбыз керек деген суроо жок. Ал эми кандайдыр бир деңгээлде акыл-эске ээ болгондор чоң болот. Менимче, мунун айласы жок. Ошентип, масштабдоо жакшы, бул зарыл, бирок жетиштүү эмес. Мен мына ушуну айтып жатам. Бул жөн эле масштабдоо эмес. Бул биринчи пункт. 

Экинчи жагдай, теория биринчи орунда турабы жана ушул сыяктуу нерселер. Ошентип, менимче, биринчи орунда турган түшүнүктөр бар, сиз бир кадам артка кетип, макул, биз бул тепкичти курдук, бирок биз Айга баргыбыз келет жана бул тепкич бизди ал жакка жеткире албайт деп айтуу керек. Ошентип, негизи, мен бул жерде жазып жатам, биз ракеталарды куруу керек. Мен ракеталарды кантип жасап жатканыбыздын чоо-жайын айта албайм, бирок бул жерде негизги принциптер бар. Мен бул үчүн теория же башка нерсе жазган жокмун, бирок бул ракета болот, макулбу? Же космостук лифт же башкасы. Бизде бардык технологиянын деталдары жок болушу мүмкүн. Биз JEPAда иштегеним сыяктуу, ошол нерселердин айрымдарын ишке ашырууга аракет кылып жатабыз. Биргелешкен кыстаруу сүрөттү таануу үчүн абдан жакшы иштейт, бирок аны дүйнөлүк моделди үйрөтүү үчүн колдонууда кыйынчылыктар бар. Биз мунун үстүндө иштеп жатабыз, аны ишке ашырабыз деп үмүттөнөбүз soon, бирок ал жерде биз жеңе албаган кээ бир тоскоолдуктарга туш болушубуз мүмкүн. 

Андан кийин макалада ой жүгүртүү жөнүндө негизги ой бар, анда биз системалар пландаштырууга жөндөмдүү болушун кааласак, аны сиз ой жүгүртүүнүн жөнөкөй формасы деп ойлосоңуз, алар жашыруун өзгөрмөлөргө ээ болушу керек. Башка сөз менен айтканда, эч кандай нейрондук тармак менен эсептелбеген нерселер, бирок баалуулугу кандайдыр бир объективдүү функцияны, кээ бир чыгымдар функциясын минималдаштыруу үчүн чыгарылган нерселер. Ошондо сиз системанын жүрүм-турумун башкаруу үчүн бул чыгым функциясын колдоно аласыз. Жана бул таптакыр жаңы идея эмес, туурабы? Бул абдан классикалык, оптималдуу башкаруу, мунун негизи 50-жылдардын аягында, 60-жылдардын башына барып такалат. Демек, бул жерде эч кандай жаңылык талап кылынбайт. Бирок менин айтайын дегеним, тыянак чыгаруунун бул түрү пландаштырууга жөндөмдүү акылдуу системанын бир бөлүгү болушу керек жана анын жүрүм-туруму такталган же башкарылуучу жүрүм-турум менен эмес, имитацияга таянуу менен эмес, объективдүү функция менен аныкталышы керек. жүрүм-турумга түрткү берет — сөзсүз түрдө үйрөнүүгө түрткү бербейт, бирок жүрүм-турумга түрткү берет. Билесизби, бул биздин мээбизде бар жана ар бир жаныбардын ички баасы же нерселер үчүн ички мотивациялары бар. Бул тогуз айлык ымыркайлардын ордунан тургусу келет. Сиз турганда бактылуу болуунун баасы, чыгым функциясында бул термин катуу жабдылган. Бирок сен кантип турганың эмес, бул үйрөнүү.

yann-lecun-сентябрь-2022-4

GPT-3 түрүндөгү Transformer-негизделген программалар сыяктуу гигант тилдердин моделдери жөнүндө ЛеКун: "Масштабдоо жакшы, бул зарыл, бирок жетиштүү эмес" дейт. Трансформатордун динчилдери мындай деп эсептешет: “Биз бардыгын белгилейбиз жана гиганттарды үйрөтөбүздискреттик болжолдоолорду жасоо үчүн моделдер, жана кандайдыр бир жол менен AI пайда болот ... бирок менимче, бул маанилүү бөлүктөргө жетишпей жатат.

ZDNet: Ушул ойду жыйынтыктоо үчүн, терең үйрөнүү коомчулугунун көпчүлүгү акылга сыйбаган нерсе менен алдыга бара жатканы жакшы көрүнөт. Сиз бул жерде кандайдыр бир учурда туңгуюк болуп калат деп абдан так аргумент келтирип жаткан окшойсуз. Кээ бир адамдар бизге акыл-эси бар автономдуу унаанын кереги жок деп айтышат, анткени масштабдуу иш муну кылат. Бул жол менен кете берген туура эмес деп айтып жатасызбы?

ЖАНА П: Билесизби, менимче, бизде акыл-эси жок бешинчи деңгээлдеги автономдуу унаалар болушу толук мүмкүн. Бирок бул ыкманын көйгөйү, бул убактылуу болуп калат, анткени сиз аны тозокко чыгарууга туура келет. Ошентип, сиз билесизби, бүткүл дүйнөнүн картасын түзүңүз, ар кандай конкреттүү бурчтук иш жүрүм-туруму менен тыгыз байланышта болуңуз, сизде жолдордо туш боло турган кызыктай жагдайлар бар жетиштүү маалыматтарды чогултуңуз, бла, бла, бла. Жана менин оюмча, жетиштүү инвестиция жана убакыт менен сиз аны жөн гана инженердик кыла аласыз. Бирок, акырында, дүйнө кандай иштээрин жакшыраак түшүнгөн системаларды камтыган жана биз жалпы акыл деп атаган нерсенин кандайдыр бир деңгээлине ээ болгон дагы канааттандырарлык жана мүмкүн жакшыраак чечим болот. Бул адамдык деңгээлдеги акыл-эстин кереги жок, бирок система кимдир-бирөөнүн айдап баратканын көрүү эмес, жөн гана кыймылдап жаткан нерселерди көрүү жана дүйнө жөнүндө көп нерсени түшүнүү, фондун пайдубалын куруу аркылуу ээ боло турган билимдин бир түрү. дүйнө кантип иштээри жөнүндө билим, анын үстүнө сиз айдоо үйрөнө аласыз. 

Буга тарыхый бир мисал келтирейин. Классикалык компьютердик көрүү көптөгөн жабдылган, инженердик модулдарга негизделген, алардын үстүнө сиз үйрөнүүнүн жука катмарына ээ болосуз. Ошентип, 2012-жылы AlexNet тарабынан талкаланган нерселер, негизинен, SIFTs [Scale-Invariant Feature Transform (SIFT), сүрөттөлүштөгү көрүнүктүү объекттерди аныктоо үчүн классикалык көрүү техникасы] сыяктуу, биринчи этапта, кол менен жасалган өзгөчөлүктөргө ээ болгон. жана HOG [Багытталган градиенттердин гистограммасы, дагы бир классикалык техника] жана башка ар кандай нерселер. Андан кийин өзгөчөлүк өзөктөрүнө жана башкасына негизделген орто деңгээлдеги функциялардын экинчи катмары жана кандайдыр бир көзөмөлсүз ыкма. Анан мунун үстүнө сиз колдоочу вектордук машинаны, же болбосо салыштырмалуу жөнөкөй классификаторду коесуз. Бул 2000-жылдардын ортосунан 2012-жылга чейинки типтүү стандарттык куур болчу. Анын ордун учу-кыйырына конволюциондук торлор алмаштырды, мында сиз мунун эч кимисин туташтырбайсыз, сизде жөн гана маалымат көп. жана сиз нерсени башынан аягына чейин үйрөтөсүз, бул мен көптөн бери жактап келген ыкма, бирок билесизби, ага чейин чоң көйгөйлөр үчүн практикалык болгон эмес. 

Кепти таанууда ушундай окуя болгон, анда дагы бир жолу, сиз маалыматты алдын ала кантип иштетесиз, массалык масштабдагы цепструмды (сигналдарды иштетүү үчүн Тез Фурье трансформациясынын тескери бөлүгү) чыгарып аласыз, андан кийин деталдуу инженерия болгон. Сизде Жашыруун Марков моделдери бар, алар алдын ала коюлган архитектурасы бар, бла, бла, бла, Гаусстардын аралашмасы бар. Ошентип, бул көрүнүш менен бир аз архитектура, анда сиз өзүңүздүн колуңуз менен жасалган алдыңкы бөлүк, андан кийин бир аз көзөмөлсүз, үйрөтүлгөн, ортоңку катмар, анан үстүнө көзөмөлдөнгөн катмар. Эми бул, негизинен, учу-кыйырына нейрондук торлор тарабынан жок кылынды. Ошентип, мен ал жерде бардыгын үйрөнүүгө аракет кылуу сыяктуу бир нерсени көрүп жатам, бирок сизде туура алдын ала, туура архитектура, туура структура болушу керек.

yann-lecun-сентябрь-2022-5

Waymo жана Wayve сыяктуу стартаптар өзүн-өзү айдаган унаалар "бир аз өтө эле оптимисттик маанайда болушкан", дейт ал, алар "маалыматтарды ыргыта алабыз жана сиз көп нерсени үйрөнө аласыз" деп ойлошкон. ADASтын 5-деңгээлиндеги өзүн-өзү башкара турган унаалар мүмкүн, "Бирок сиз аны тозокко чыгарышыңыз керек" жана компьютердик көрүүнүн алгачкы моделдериндей "морт" болот.

ZDNet: Сиз айтып жаткан нерсе, кээ бир адамдар, мисалы, өнөр жайда колдонулушу үчүн терең үйрөнүү менен иштебеген нерсени инженериялоого аракет кылышат жана алар компьютердик көрүнүштө эскирип калган нерсени түзө башташат беле?

ЖАНА П: Туура. Жана жарым-жартылай эмне үчүн автономдуу айдоодо иштеген адамдар акыркы бир нече жылда бир аз оптимисттик маанайда болушту, анткени, билесизби, сизде конволюциялык торлор жана трансформаторлор сыяктуу жалпы нерселер бар, сиз ага маалыматтарды таштай аласыз. , жана ал дээрлик бардык нерсени үйрөнө алат. Ошентип, сен: Макул, менде бул маселенин чечими бар деп айтасың. Эң биринчи кыла турган нерсе - бул демонстрацияны куруу, анда унаа эч кимге зыян келтирбестен бир нече мүнөткө өзүн айдайт. Анан сиз бурчтук каптар көп экенин түшүнөсүз жана мен машыгуу топтомун эки эсеге көбөйткөн сайын мен канчалык жакшыраак болуп жатканымдын ийри сызыгын түзүүгө аракет кыласыз, жана сиз ал жакка эч качан жете албасыңызды түшүнөсүз, анткени бурчтук каптардын ар кандай түрлөрү бар. . Ал эми ар бир 200 миллион километрден азыраак өлүмгө алып келе турган унаа болушу керек, туурабы? Анда эмне кыласың? Ооба, сен эки тарапты басып баратат. 

Биринчи багыт - менин тутумумду үйрөнүү үчүн зарыл болгон маалыматтардын көлөмүн кантип азайтсам болот? Мына ушундан улам өзүн-өзү башкарган окутуу башталат. Ошентип, өзүн-өзү башкарган унаалардын кийимдери өзүн өзү көзөмөлдөгөн окууга абдан кызыкдар, анткени бул имитациялоо үчүн чоң көлөмдөгү көзөмөлдүк маалыматтарды дагы эле колдонуунун жолу. алдын ала даярдоо, негизинен. Ал азырынча так чечиле элек, бирок болот. Анан дагы башка вариант бар, аны азыркы учурда өнүккөн компаниялардын көпчүлүгү кабыл алышкан, бул, макул, биз аягына чейин окута алабыз, бирок биз жасай ала турган көптөгөн бурчтук учурлар бар' t туткасы, ошондуктан биз жөн гана бул бурчтук иштерге кам көрө турган системаларды иштеп чыгабыз, жана, негизинен, аларды өзгөчө жагдайлар катары карап, башкарууну бекемдейбиз, андан кийин өзгөчө кырдаалдарды чечүү үчүн көптөгөн негизги жүрүм-турумду түзөбүз. Эгер сизде инженерлердин жетиштүү тобу бар болсо, анда сиз аны чечип алсаңыз болот. Бирок бул көп убакытты талап кылат жана акырында ал дагы эле бир аз морт болот, балким орното ала тургандай ишенимдүү болот, бирок морттуктун кандайдыр бир деңгээли менен, бул окууга негизделген ыкмада пайда болушу мүмкүн. Келечекте унаалар болбойт, анткени анда дүйнөнүн кандайча иштээри жөнүндө кандайдыр бир деңгээлде акыл-эс жана түшүнүк болушу мүмкүн. 

Кыска мөөнөттө, кандайдыр бир инженердик ыкма жеңет - ал утуп алат. Бул дүйнөнүн Waymo жана Cruise жана Wayveжана кандай болсо да, алар эмне кылышат. Андан кийин өзүн-өзү көзөмөлдөгөн окутуу ыкмасы бар, ал инженердик ыкмага прогресске жетүүгө жардам берет. Бирок, андан кийин, узак мөөнөттүү келечекте, бул компаниялардын күтүүсү үчүн өтө узак болушу мүмкүн, балким, бир кыйла интеграцияланган автономдуу акылдуу айдоо системасы болуп калат.

ZDNet: Биз көпчүлүк инвесторлордун инвестициялык горизонтунан тышкары деп айтабыз.

ЖАНА П: Бул туура. Демек, спектакль каалаган деңгээлге жеткенче элдин чыдамы кетеби же акчасы түгөнүп калабы деген суроо туулат.

ZDNet: Моделде сиз тандаган элементтердин айрымдарын эмне үчүн тандаганыңыз жөнүндө айта турган кызыктуу нерсе барбы? Анткени сиз Кеннет Крейкти [1943-ж.Түшүндүрүүнүн табияты], жана сиз Bryson жана Ho [1969, Колдонулган оптималдуу башкаруу], жана мага эмне үчүн бул таасирлерден баштаганыңыз кызык, эгер сиз өзгөчө бул адамдар муну алар жасаган иштерине чейин кадап алышкан деп ишенсеңиз. Эмне үчүн ошол жерден баштадыңыз?

ЖАНА П: Ооба, мен ойлобойм, албетте, алар бардык майда-чүйдөсүнө чейин кадап алышкан. Ошентип, Брайсон жана Хо, бул мен 1987-жылы Торонтодо Джеффри Хинтон менен постдок болуп жүргөндө окуган китеп. Бирок мен докторлук диссертациямды жазып жатканда бул иш багытын алдын ала билчүмүн жана оптималдуу башкаруу менен бэкпроптун ортосундагы байланышты түздүм. Эгер сиз чындап эле башка Шмидхубер болгуңуз келсе, анда сиз backpropдун чыныгы ойлоп табуучулары чындыгында оптималдуу башкаруу теоретиктери Генри Дж. Келли, Артур Брайсон, жана балким, оптималдуу башкаруунун орус теоретиги Лев Понтрягин болгон деп айтмаксыз. 50-жылдардын аягында. 

Ошентип, алар муну түшүнүштү, жана чындыгында, мунун тамырын көрө аласыз, анын астындагы математика, Лагранж механикасы. Ошентип, сиз Эйлер менен Лагранжга кайрылып, чындыгында Лагранждын классикалык механикасынын аныктамасынан мунун жытын таба аласыз. Ошентип, оптималдуу башкаруу контекстинде, бул балдар кызыккан нерсе, негизинен, ракета траекторияларын эсептөө болчу. Билесизби, бул алгачкы космос доору болчу. Эгер сизде ракетанын модели бар болсо, анда ал ракетанын ошол убактагы абалын айтып турат t, жана бул жерде мен жасай турган иш-аракет, ошондуктан, ар кандай түрдөгү түртүүчү жана кыймылдаткычтар, бул жерде ракетанын ошол убактагы абалы Т + 1.

ZDNet: Мамлекет-аракет модели, баалуулук модели.

ЖАНА П: Туура, көзөмөлдүн негизи. Ошентип, эми сиз буйруктардын ырааттуулугун элестетүү менен ракетаңызды атууну симуляциялай аласыз, андан кийин сизде кандайдыр бир чыгым функциясы бар, бул ракетанын бутага, космос станциясына же башка нерсеге чейинки аралык. Анан кандайдыр бир градиенттин түшүүсү менен, мен ракетам бутага мүмкүн болушунча жакындаш үчүн мен өз аракеттеримди кантип жаңырта алам деп түшүнө аласыз. Жана бул сигналдарды убакыттын өтүшү менен артка таратуу менен келиши керек. Жана бул артка жайылуу, градиенттик артка жайылуу. Бул сигналдар, алар Лагранж механикасында конъюгациялык өзгөрмөлөр деп аталат, бирок чындыгында алар градиенттер. Ошентип, алар backprop ойлоп табышты, бирок алар бул принцип үлгү таанууну же ушуга окшогон нерселерди жасай алган көп баскычтуу системаны окутуу үчүн колдонулушу мүмкүн экенин түшүнүшкөн эмес. Бул, балким, 70-жылдардын аягында, 80-жылдардын башына чейин ишке ашкан эмес, андан кийин иш жүзүндө 80-жылдардын ортосуна чейин ишке ашырылган эмес. Макул, дал ушул жерде бэкпроп чындап эле, жакшынакай болуп чыкты, анткени адамдар бул жерде бир нече сап кодду көрсөтүштү, сиз нейрондук торду, башынан аягына чейин, көп катмарлуу үйрөтө аласыз. Жана бул Перцептрондун чектөөлөрүн алып салат. Жана, ооба, оптималдуу башкаруу менен байланыштар бар, бирок бул жакшы.

ZDNet: Демек, сиз баштаган бул таасирлер кайра артка кайтты деп айтуунун узак жолу жана бул сиз үчүн башталгыч чекит катары маанилүү беле?

ЖАНА П: Ооба, бирок менин оюмча, адамдар бир аз унутуп калган нерсе, бул боюнча 90-жылдары, атүгүл 80-жылдары, анын ичинде Майкл Джордан [MIT департаменти. жана Когнитивдик илимдер] жана ушул сыяктуу адамдар нейрондук торлорду эми кылбай, бирок башкаруу үчүн нейрондук торлорду колдоно аласыз жана оптималдуу башкаруунун классикалык идеяларын колдоно аласыз. Ошентип, моделди болжолдоочу башкаруу деп аталган нерселер, азыр моделди болжолдоочу башкаруу деп аталат, бул идея, сиз башкарууга аракет кылып жаткан системанын жакшы моделине ээ болсоңуз, иш-аракеттердин ырааттуулугун имитациялай аласыз же анын натыйжасын элестете аласыз. жана ал турган чөйрө. Анан градиент ылдыйлоо боюнча, негизинен — бул үйрөнүү эмес, бул тыянак — менин максатымды азайта турган аракеттердин эң жакшы ырааттуулугу кайсы экенин биле аласыз. Ошентип, тыянак үчүн жашыруун өзгөрмөлүү чыгым функциясын колдонуу, менимче, масштабдуу нейрондук торлордун учурдагы өсүмдүктөрү унуткан нерсе. Бирок ал узак убакыт бою машинаны үйрөнүүнүн абдан классикалык компоненти болгон. Ошентип, ар бир Bayesian Net же графикалык модель же ыктымалдык графикалык модель корутундунун бул түрүн колдонгон. Сизде бир топ өзгөрмөлөрдүн ортосундагы көз карандылыкты камтыган моделиңиз бар, сизге айрым өзгөрмөлөрдүн мааниси айтылат, андан кийин калган өзгөрмөлөрдүн эң ыктымалдуу маанисин чыгарышыңыз керек. Бул графикалык моделдердеги жана Bayesian Netsтеги тыянак чыгаруунун негизги принциби жана ушул сыяктуу нерселер. Менимче, негизи бул ой жүгүртүү, ой жүгүртүү жана пландоо жөнүндө болушу керек.

ZDNet: Сиз шкаф Байесянсыз.

ЖАНА П: Мен ыктымалдык эмес Байезистмин. Мен бул тамашаны мурун эле жасагам. Мен чындыгында бир нече жыл мурун NeurIPSде болгом, менимче, бул 2018 же 2019-жылдары жана мени Байесиялык адам видеого тартып алды, ал менден Байесиялык экенимди сурады жана мен: Ооба, мен Байесиялыкмын, бирок мен дедим. Кааласаңыз, мен ыктымалдык эмес Байезианмын, энергияга негизделген Байезианмын. 

ZDNet: Бул, албетте, бир нерсеге окшош Star Trek. Сиз бул кагаздын аягында белгилегендей, сиз ойлогон нерсени ишке ашыруу үчүн бир нече жыл талап кылынат. Учурда ал чыгарманын айрымдары эмнеден турганы жөнүндө айтып бериңизчи.

ЖАНА П: Ошентип, мен кагазда JEPAны кантип үйрөтүп, кура турганыңызды түшүндүрөм. Жана мен жактап жаткан критерий - бул алынган өкүлчүлүктөр киргизүү жөнүндө маалыматтын мазмунун максималдуу көбөйтүүнүн кандайдыр бир жолу. Анан экинчиси, болжолдоо катасын азайтат. Жана эгерде сизде болжолдоочуда детерминистикалык эмес болууга мүмкүндүк берүүчү жашыруун өзгөрмө болсо, анда анын маалыматтык мазмунун минималдаштыруу менен бул жашыруун өзгөрмөнү да регулировкалашыңыз керек. Ошентип, сизде азыр эки маселе бар, бул кайсы бир нейрондук тармактын чыгышындагы маалыматтын мазмунун кантип максималдаштыруу, экинчиси - кандайдыр бир жашыруун өзгөрмөнүн маалыматтык мазмунун кантип минималдаштыруу? Ал эми ушул эки нерсени кылбасаңыз, система кыйрайт. Бул кызыктуу эч нерсе үйрөнбөйт. Ал бардык нерсеге нөлдүк энергия берет, көз карандылыктын жакшы үлгүсү эмес. Бул мен айтып жаткан кыйроонун алдын алуу маселеси. 

Мен адамдар жасаган нерселердин баарын айтып жатам, кыйроонун алдын алуу үчүн эки гана категория бар. Бири контрасттык методдор, экинчиси ошол регуляризацияланган ыкмалар. Ошентип, бул эки киргизүүнүн өкүлчүлүктөрүнүн маалыматтык мазмунун максималдаштыруу жана жашыруун өзгөрмөнүн маалыматтык мазмунун минималдаштыруу идеясы регуляризацияланган методдорго кирет. Бирок ошол биргелешкен кыстаруу архитектурасындагы көп иштер контрасттык ыкмаларды колдонууда. Чынында, алар, балким, учурда абдан популярдуу болуп саналат. Демек, суроо сиз оптималдаштыруу же азайтуу үчүн маалымат мазмунун кантип өлчөй аласыз? Жана бул жерде иш татаалдашат, анткени биз маалыматтын мазмунун кантип өлчөөнү билбейбиз. Биз аны болжолдой алабыз, биз аны жогору чектей алабыз, ушуга окшогон нерселерди жасай алабыз. Бирок алар иш жүзүндө маалыматтын мазмунун өлчөшпөйт, алар кандайдыр бир деңгээлде так аныктала элек.

ZDNet: Бул Шеннондун мыйзамы эмеспи? Бул маалымат теориясы эмес? Сизде белгилүү бир энтропия, жакшы энтропия жана жаман энтропия бар, ал эми жакшы энтропия иштеген символ системасы, жаман энтропия - ызы-чуу. Мунун баарын Шеннон чечкен эмеспи?

ЖАНА П: Туура айтасыз, бирок мунун артында чоң кемчилик бар. Сиз туура айтасыз, эгер сизге маалымат келип жатса жана сиз кандайдыр бир жол менен дискреттик символдорго маалыматтарды кванттасаңыз, анан ал символдордун ар биринин ыктымалдыгын өлчөсөңүз, анда ал символдор алып жүргөн маалыматтын максималдуу көлөмү мүмкүн болгон символдордун үстүнөн сумма Pi log Pi, туурабы? Кайда Pi символдун ыктымалдыгы болуп саналат мен — бул Шеннон энтропиясы. [Шеннондун мыйзамы адатта H = – ∑ pi log pi катары формулировкаланат.]

Бул жерде маселе, бирок: эмне Pi? Символдордун саны аз болуп, символдор өз алдынча тартылганда оңой. Көптөгөн символдор жана көз карандылыктар болгондо, бул абдан кыйын. Ошентип, эгер сизде биттердин ырааттуулугу бар болсо жана сиз биттер бири-биринен көз карандысыз жана ыктымалдуулук бирден нөлгө же башкасына барабар деп ойлосоңуз, анда энтропияны оңой эле өлчөй аласыз, көйгөй жок. Бирок, эгер сизге келген нерселер жогорку өлчөмдүү векторлор болсо, мисалы, маалымат алкактары же ушул сыяктуу нерсе, бул эмне Pi? бөлүштүрүү деген эмне? Биринчиден, сиз ошол мейкиндикти квантташыңыз керек, ал жогорку өлчөмдүү, үзгүлтүксүз мейкиндик. Сиз муну кантип туура сандаштырууну билбейсиз. Сиз к-каражаттарды, ж.б. колдоно аласыз. Бул адамдар видеону кысуу жана сүрөттү кысуу кылганда эмне кылышат. Бирок бул болжолдуу гана. Анан көз карандысыздыкты болжолдоо керек. Демек, видеодо ырааттуу кадрлар көз карандысыз эмес экени түшүнүктүү. Көз карандылыктар бар жана ал кадр бир саат мурун көргөн башка кадрга көз каранды болушу мүмкүн, ал ошол эле нерсенин сүрөтү болгон. Демек, билесизби, сиз өлчөй албайсыз Pi. Өлчөө үчүн Pi, сизде алдын ала айтууну үйрөнгөн машина үйрөнүү системасы болушу керек. Ошентип, сиз мурунку көйгөйгө кайтып келдиңиз. Ошентип, сиз маалыматтын өлчөмүн гана болжолдой аласыз. 

yann-lecun-сентябрь-2022-6

"Суроо, сиз оптималдаштыруу же минималдаштыруу үчүн маалыматтын мазмунун кантип өлчөй аласыз?" дейт Лекун. "Ошондо иш татаалдашат, анткени биз маалыматтын мазмунун кантип өлчөөнү билбейбиз." Азырынча жасала турган эң жакшы нерсе - бул "биз каалаган иш үчүн жетиштүү" проксиди табуу.

Конкреттуураак мисал келтирейин. Биз ойноп жаткан алгоритмдердин бири жана мен бул макалада айтып өткөн бул нерсе VICReg, дисперсия-инвариантты-ковариацияны регуляризациялоо. Бул ICLRде жарыяланган өзүнчө кагазда жана ал arXiv коюлган Болжол менен бир жыл мурун, 2021. Ал эми маалыматты максималдаштыруу идеясы бар. Ал эми идея чындыгында менин тобум тарабынан мурда жарыяланган кагаздан чыккан Барлоу эгиздер. Нейрондук тармактан чыккан вектордун маалыматтык мазмунун, негизинен, өзгөрмөлөр ортосундагы бирден-бир көз карандылык корреляция, сызыктуу көз карандылык деп ойлойсуз. Ошентип, эгер сиз жуп өзгөрмөлөр ортосунда же тутумуңуздагы өзгөрмөлөр ортосунда мүмкүн болгон бирден-бир көз карандылык жуп баалуулуктар ортосундагы корреляция деп ойлосоңуз, анда сиз тутумуңуздан чыккан маалыматтын мазмунун максималдуу түрдө арттыра аласыз. бардык өзгөрмөлөрдүн нөл эмес дисперсиясы бар экенине ынануу менен — айталы, дисперсия биринчи, ал эмне экендиги маанилүү эмес — анан аларды кайра корреляциялоо, агартуу деп аталган процесс, бул да жаңы эмес. Мунун көйгөйү, сиз өзгөрмө топторунун же сызыктуу көз карандылык эмес өзгөрмөлөрдүн жуптарынын ортосунда өтө татаал көз карандылыктарга ээ болушуңуз мүмкүн жана алар корреляцияда көрүнбөйт. Демек, мисалы, сизде эки өзгөрмө болсо жана ал эки өзгөрмөнүн бардык чекиттери кандайдыр бир спираль түрүндө тизилип турса, бул эки өзгөрмөнүн ортосунда абдан күчтүү көз карандылык бар, туурабы? Бирок чындыгында, эгерде сиз бул эки өзгөрмөнүн ортосундагы корреляцияны эсептесеңиз, алар корреляцияланбайт. Ошентип, бул эки өзгөрмөнүн маалымат мазмуну чындыгында абдан кичинекей болгон мисал, бул бир гана сан, анткени бул сиздин спиральдагы позицияңыз. Алар корреляцияланган, ошондуктан сизде бул эки өзгөрмөнүн ичинен көп маалымат бар деп ойлойсуз, бирок чындыгында сизде андай эмес, сизде гана бар, билесиз, өзгөрмөлөрдүн бирин экинчисинен болжолдой аласыз. Демек, бул бизде маалыматтын мазмунун өлчөөнүн болжолдуу жолдору бар экенин көрсөтүп турат.

ZDNet: Эми бул менен сиз иштеп жаткан нерселердин бири ушулбу? Бул маалыматтын мазмунун максималдуу жана азайтып жатканыбызды кантип билебиз деген чоң суроо?

ЖАНА П:  Же бул үчүн биз колдонуп жаткан прокси биз каалаган тапшырма үчүн жетиштүүбү. Чынында, биз муну дайыма машина үйрөнүүдө жасайбыз. Биз минимумга келтирген чыгаша функциялары эч качан биз чындыгында азайтууну каалагандай эмес. Демек, мисалы, сиз классификация кылгыңыз келет, макулбу? Классификаторду үйрөткөндө азайткыңыз келген чыгым функциясы классификатор кетирген каталардын саны. Бирок бул дифференциацияланбаган, коркунучтуу чыгым функциясы, аны азайта албайсыз, анткени сиз нейрон желеңиздин салмагын өзгөртө турганыңызды билесиз, ал үлгүлөрдүн бири өз чечимин өзгөртмөйүнчө эч нерсе өзгөрбөйт, анан секирүү катасында, оң же терс.

ZDNet: Демек, сизде объективдүү функция болгон прокси бар, биз бул нерсенин градиенттерин сөзсүз түрдө айта алабыз.

ЖАНА П: Бул туура. Ошентип, адамдар бул кайчылаш-энтропия жоготуу, же SOFTMAX колдонушат, сизде анын бир нече аталышы бар, бирок бул бир эле нерсе. Жана бул, негизинен, система кетирген каталардын санын жылмакай жакындаштыруу, мында текшилөө, негизинен, системанын ар бир категорияга берген упайларын эске алуу менен жүргүзүлөт.

ZDNet: Сиз жаап салгыңыз келген биз камтыбаган нерсе барбы?

ЖАНА П: Бул, балким, негизги ойлорду баса белгилеп жатат. Менин оюмча, AI системалары ой жүгүртүүгө жөндөмдүү болушу керек жана мен жактап жаткан бул процесс кандайдыр бир жашыруун өзгөрмөлөргө карата кандайдыр бир максатты азайтат. Бул системаларды пландаштырууга жана ойлонууга мүмкүндүк берет. Менимче, биз ыктымалдык алкактан баш тартышыбыз керек, анткени биз жогорку өлчөмдүү, үзгүлтүксүз өзгөрмөлөрдүн ортосундагы көз карандылыкты кармап калуу сыяктуу нерселерди кылгыбыз келгенде, ал чечилбейт. Жана мен генеративдик моделдерден баш тартууну жактап жатам, анткени система алдын ала айтуу өтө кыйын нерселерди алдын ала айтуу үчүн өтө көп ресурстарды жумшашы керек жана балким, өтө көп ресурстарды керектейт. Жана бул дээрлик. Кааласаңыз, бул негизги билдирүүлөр. Анан жалпы архитектура. Анан аң-сезимдин табияты жана конфигуратордун ролу тууралуу божомолдор бар, бирок бул чындап эле божомол.

ZDNet: Биз ага кийинки жолу жетебиз. Мен сизден сурайын дедим эле, бул нерсени кантип салыштырасыз? Бирок менимче, сиз азыр бенчмаркингден бир аз алыстап жатасызбы?

ЖАНА П: Мынчалык алыс эмес, жөнөкөйлөштүрүлгөн версиялар. Башкарууда же бекемдөөдө ар ким эмне кыла алат, башкача айтканда, Atari оюндарын же ушуга окшогон нерсени же кандайдыр бир белгисиздик бар башка оюнду ойноого үйрөтөсүз.

ZDNet: Убактыңыз үчүн рахмат, Янн.

булак