મેટાના એઆઈ ગુરુ લેકન: આજના મોટાભાગના એઆઈ અભિગમો ક્યારેય સાચી બુદ્ધિ તરફ દોરી જશે નહીં

yann-lecun-sept-2022-1

"મને લાગે છે કે AI પ્રણાલીઓને તર્ક આપવા માટે સક્ષમ હોવું જરૂરી છે," મેટાના મુખ્ય AI વૈજ્ઞાનિક યાન લેકન કહે છે. આજના લોકપ્રિય AI અભિગમો જેમ કે ટ્રાન્સફોર્મર્સ, જેમાંથી ઘણા તેના ક્ષેત્રમાં પોતાના અગ્રણી કાર્ય પર આધારિત છે, તે પૂરતા નથી. "તમારે એક ડગલું પાછળ જવું પડશે અને કહેવું પડશે કે, ઠીક છે, અમે આ સીડી બનાવી છે, પરંતુ અમે ચંદ્ર પર જવા માંગીએ છીએ, અને આ સીડી અમને ત્યાં સુધી પહોંચાડવાનો કોઈ રસ્તો નથી," લેકન કહે છે.

યાન લેકુન, મુખ્ય AI વૈજ્ઞાનિક મેટા પ્રોપર્ટીઝના, ફેસબુક, ઇન્સ્ટાગ્રામ અને વોટ્સએપના માલિક, તેમના ક્ષેત્રના ઘણા લોકોને ટિક ઑફ કરે તેવી શક્યતા છે. 

એક થિંક પીસની જૂનમાં પોસ્ટિંગ સાથે ઓપન રિવ્યુ સર્વર પર, LeCun એ અભિગમની વ્યાપક ઝાંખી ઓફર કરી હતી જે તેઓ માને છે કે મશીનોમાં માનવ-સ્તરની બુદ્ધિ પ્રાપ્ત કરવા માટેનું વચન ધરાવે છે. 

પેપરમાં સ્પષ્ટ ન હોય તો ગર્ભિત દલીલ એ છે કે AI માં આજના મોટા ભાગના મોટા પ્રોજેક્ટ્સ ક્યારેય તે માનવ-સ્તરના લક્ષ્ય સુધી પહોંચી શકશે નહીં.

સાથે આ મહિને ચર્ચામાં ZDNet ઝૂમ દ્વારા, LeCun એ સ્પષ્ટ કર્યું કે તે આ ક્ષણે ઊંડા શિક્ષણમાં સંશોધનના ઘણા સફળ માર્ગોને ખૂબ જ શંકા સાથે જુએ છે.

"મને લાગે છે કે તેઓ જરૂરી છે પરંતુ પૂરતા નથી," ટ્યુરિંગ એવોર્ડ વિજેતાએ કહ્યું ZDNet તેના સાથીઓની ધંધો. 

તેમાં ટ્રાન્સફોર્મર-આધારિત GPT-3 અને તેમના જેવા મોટા ભાષાના મોડલનો સમાવેશ થાય છે. જેમ કે લેકન તેની લાક્ષણિકતા દર્શાવે છે, ટ્રાન્સફોર્મર ભક્તો માને છે, “અમે દરેક વસ્તુને ટોકનાઇઝ કરીએ છીએ, અને વિશાળઅલગ આગાહીઓ કરવા માટેના મોડલ, અને કોઈક રીતે AI આમાંથી બહાર આવશે."

"તેઓ ખોટા નથી," તે કહે છે, "તે અર્થમાં કે તે ભવિષ્યની બુદ્ધિશાળી સિસ્ટમનો એક ઘટક હોઈ શકે છે, પરંતુ મને લાગે છે કે તેમાં આવશ્યક ભાગો ખૂટે છે."

પણ: Meta's AI લ્યુમિનરી LeCun ડીપ લર્નિંગની એનર્જી ફ્રન્ટિયરની શોધ કરે છે

તે એક ચોંકાવનારી વિવેચન છે જે વિદ્વાન પાસેથી આવે છે કે જેમણે કોન્વોલ્યુશનલ ન્યુરલ નેટવર્કનો ઉપયોગ પૂર્ણ કર્યો છે, એક પ્રાયોગિક તકનીક કે જે ઊંડા શિક્ષણ કાર્યક્રમોમાં અવિશ્વસનીય રીતે ઉત્પાદક રહી છે. 

LeCun શિસ્તના અન્ય અત્યંત સફળ ક્ષેત્રોમાં ખામીઓ અને મર્યાદાઓ જુએ છે. 

મજબૂતીકરણ શિક્ષણ પણ ક્યારેય પૂરતું નહીં હોય, તે જાળવી રાખે છે. ડીપમાઇન્ડના ડેવિડ સિલ્વર જેવા સંશોધકો, જેમણે ચેસ, શોગી અને ગોમાં નિપુણતા ધરાવતા આલ્ફાઝીરો પ્રોગ્રામનો વિકાસ કર્યો હતો, તે એવા પ્રોગ્રામ્સ પર ધ્યાન કેન્દ્રિત કરી રહ્યા છે જે "ખૂબ જ ક્રિયા-આધારિત" છે, લેકનનું અવલોકન છે, પરંતુ "મોટાભાગનું શિક્ષણ આપણે કરીએ છીએ, અમે નથી કરતા. વાસ્તવમાં ક્રિયાઓ કરીને તે કરો, અમે તેને અવલોકન કરીને કરીએ છીએ." 

લેક્યુન, 62, દાયકાઓની સિદ્ધિઓના પરિપ્રેક્ષ્યમાં, તેમ છતાં, તે જે વિચારે છે તે આંધળી ગલીઓ છે જેનો સામનો કરવાની તાકીદ વ્યક્ત કરે છે, જેના તરફ ઘણા લોકો દોડી રહ્યા છે, અને તેના ક્ષેત્રને તે દિશામાં આગળ વધારવાનો પ્રયાસ કરે છે જે તેને લાગે છે કે વસ્તુઓ આગળ વધવી જોઈએ. 

"અમે માનવ-સ્તર AI તરફ આગળ વધવા માટે શું કરવું જોઈએ તે અંગે ઘણા બધા દાવાઓ જોવા મળે છે," તે કહે છે. "અને એવા વિચારો છે જે મને લાગે છે કે ગેરમાર્ગે દોરવામાં આવ્યા છે."

"અમે એવા મુદ્દા પર નથી કે જ્યાં અમારા બુદ્ધિશાળી મશીનો બિલાડી જેટલી સામાન્ય સમજ ધરાવે છે," લેક્યુન અવલોકન કરે છે. "તો, શા માટે આપણે ત્યાં શરૂ ન કરીએ?" 

તેણે વિડિયોમાં આગળની ફ્રેમની આગાહી કરવા જેવી બાબતોમાં જનરેટિવ નેટવર્કનો ઉપયોગ કરવામાંનો તેમનો પૂર્વ વિશ્વાસ છોડી દીધો છે. "તે સંપૂર્ણ નિષ્ફળ રહી છે," તે કહે છે. 

LeCun તેઓને "ધાર્મિક સંભાવનાવાદીઓ" કહે છે, જેઓ માને છે કે "સંભાવના સિદ્ધાંત એ એકમાત્ર માળખું છે જેનો ઉપયોગ તમે મશીન લર્નિંગને સમજાવવા માટે કરી શકો છો" તેની નિંદા કરે છે. 

તે કહે છે કે સંપૂર્ણ આંકડાકીય અભિગમ અસ્પષ્ટ છે. "સંપૂર્ણપણે સંભવિત બનવા માટે વિશ્વ મોડેલ માટે પૂછવું ખૂબ જ છે; અમને ખબર નથી કે તે કેવી રીતે કરવું.”

LeCun દલીલ કરે છે કે માત્ર વિદ્વાનો જ નહીં, પરંતુ ઔદ્યોગિક AI ને ઊંડા પુનઃવિચારની જરૂર છે. સ્વ-ડ્રાઇવિંગ કાર ભીડ, વેવે જેવા સ્ટાર્ટઅપ્સ, "થોડા વધુ આશાવાદી" રહ્યા છે, તે કહે છે, વિચારીને તેઓ "મોટા ન્યુરલ નેટવર્ક્સ" પર "ડેટા ફેંકી શકે છે" અને તમે ઘણું બધું શીખી શકો છો.

"તમે જાણો છો, મને લાગે છે કે તે સંપૂર્ણપણે શક્ય છે કે અમારી પાસે સામાન્ય સમજ વિના લેવલ-ફાઇવ ઓટોનોમસ કાર હશે," તે "ADAS" નો ઉલ્લેખ કરતા કહે છે. અદ્યતન ડ્રાઈવર સહાયતા સિસ્ટમ સ્વ-ડ્રાઇવિંગ માટેની શરતો, "પરંતુ તમારે તેમાંથી નરકને એન્જિનિયર કરવું પડશે."

તે માને છે કે આવી ઓવર-એન્જિનિયર્ડ સેલ્ફ-ડ્રાઇવિંગ ટેક તમામ કોમ્પ્યુટર વિઝન પ્રોગ્રામની જેમ ચીકણું અને બરડ હશે, તે માને છે.

"આખરે, ત્યાં એક વધુ સંતોષકારક અને સંભવતઃ બહેતર ઉકેલ હશે જેમાં એવી સિસ્ટમ્સ શામેલ છે જે વિશ્વ કેવી રીતે કાર્ય કરે છે તે સમજવા માટે વધુ સારું કામ કરે છે."

રસ્તામાં, LeCun તેના સૌથી મોટા વિવેચકો, જેમ કે NYU પ્રોફેસર ગેરી માર્કસ - "તેમણે ક્યારેય AI માં કંઈપણ યોગદાન આપ્યું નથી" - અને આર્ટિફિશિયલ ઇન્ટેલિજન્સ રિસર્ચ માટે ડેલે મોલે ઇન્સ્ટિટ્યૂટના સહ-નિર્દેશક જુર્ગેન શ્મિધુબર - "તે છે. ધ્વજ-રોપણ કરવું ખૂબ જ સરળ છે."

ટીકાઓ ઉપરાંત, LeCun દ્વારા કરવામાં આવેલો વધુ મહત્વનો મુદ્દો એ છે કે અમુક મૂળભૂત સમસ્યાઓ તમામ AI, ખાસ કરીને, માહિતીને કેવી રીતે માપવી તેનો સામનો કરે છે.

"તમારે એક ડગલું પાછું લેવું પડશે અને કહેવું પડશે, ઠીક છે, અમે આ સીડી બનાવી છે, પરંતુ અમે ચંદ્ર પર જવા માંગીએ છીએ, અને આ સીડી અમને ત્યાં સુધી પહોંચાડવાનો કોઈ રસ્તો નથી," લેકન કહે છે કે તેની પુનર્વિચારની ઇચ્છા છે. મૂળભૂત ખ્યાલો. "મૂળભૂત રીતે, હું અહીં શું લખી રહ્યો છું, આપણે રોકેટ બનાવવાની જરૂર છે, અમે રોકેટ કેવી રીતે બનાવીએ છીએ તેની વિગતો હું તમને આપી શકતો નથી, પરંતુ અહીં મૂળભૂત સિદ્ધાંતો છે."

પેપર, અને ઇન્ટરવ્યુમાં લેકુનના વિચારો, આ વર્ષની શરૂઆતમાં લેકનનો ઇન્ટરવ્યુ વાંચીને વધુ સારી રીતે સમજી શકાય છે. ZDNet જેમાં તે ઉર્જા-આધારિત સ્વ-નિરીક્ષણ શિક્ષણ માટે ગહન શિક્ષણ માટે આગળના માર્ગ તરીકે દલીલ કરે છે. તે પ્રતિબિંબો તે જે વસ્તુઓનો દાવો કરે છે તેના વિકલ્પ તરીકે તે શું બનાવવાની આશા રાખે છે તેના માટેના મુખ્ય અભિગમની સમજ આપે છે. 

નીચે આપેલ ઇન્ટરવ્યુની હળવા સંપાદિત ટ્રાન્સક્રિપ્ટ છે.

ZDNet: અમારી ચેટનો વિષય આ પેપર છે, "એ પાથ ટુ ઓટોનોમસ મશીન ઇન્ટેલિજન્સ", જેનું વર્ઝન 0.9.2 હાલનું વર્ઝન છે, હા?

યાન લેકુન: હા, હું આને એક કાર્યકારી દસ્તાવેજ માનું છું. તેથી, મેં તેને ઓપન રિવ્યુ પર પોસ્ટ કર્યું, લોકો ટિપ્પણીઓ અને સૂચનો કરે તેની રાહ જોઈને, કદાચ વધારાના સંદર્ભો, અને પછી હું સુધારેલું સંસ્કરણ બનાવીશ. 

ZDNet: હું જોઉં છું કે Juergen Schmidhuber એ ઓપન રિવ્યુમાં પહેલેથી જ કેટલીક ટિપ્પણીઓ ઉમેરી છે.

YL: સારું, હા, તે હંમેશા કરે છે. હું મારા પેપરમાં તેના ત્યાંના એક કાગળને ટાંકું છું. મને લાગે છે કે તેણે સોશિયલ નેટવર્ક પર કરેલી દલીલો કે તેણે મૂળભૂત રીતે 1991 માં આ બધાની શોધ કરી હતી, જેમ કે તેણે અન્ય કેસોમાં કર્યું છે, તે કેસ નથી. મારો મતલબ, તે કરવું ખૂબ જ સરળ છેફ્લેગ-પ્લાન્ટિંગ, અને, પ્રકારનું, કોઈપણ પ્રયોગો વિના, કોઈપણ સિદ્ધાંત વિના એક વિચાર લખો, ફક્ત સૂચવો કે તમે આ રીતે કરી શકો. પરંતુ, તમે જાણો છો, માત્ર વિચાર રાખવા, અને પછી તેને રમકડાની સમસ્યા પર કામ કરવા માટે, અને પછી તેને વાસ્તવિક સમસ્યા પર કામ કરવા માટે, અને પછી તે શા માટે કામ કરે છે તે બતાવે છે તે સિદ્ધાંતમાં ઘણો તફાવત છે, અને પછી તેને જમાવવું. ત્યાં એક આખી સાંકળ છે, અને તેનો વૈજ્ઞાનિક ધિરાણનો વિચાર એ છે કે તે પ્રથમ વ્યક્તિ છે જેને તમે જાણો છો કે, તેનો વિચાર હતો, તેને તમામ ક્રેડિટ મળવી જોઈએ. અને તે હાસ્યાસ્પદ છે. 

ZDNet: તમે સોશિયલ મીડિયા પર જે સાંભળો છો તેના પર વિશ્વાસ ન કરો. 

YL: મારો મતલબ, તેમણે જે મુખ્ય પેપરને ટાંકવું જોઈએ તે કહે છે તેમાં હું પેપરમાં જે મુખ્ય વિચારો વિશે વાત કરું છું તેમાંથી કોઈ નથી. તેણે GAN અને અન્ય વસ્તુઓ સાથે પણ આ કર્યું છે, જે સાચું ન હતું. ધ્વજ-રોપણ કરવું સહેલું છે, યોગદાન આપવું ઘણું અઘરું છે. અને, માર્ગ દ્વારા, આ ચોક્કસ પેપરમાં, મેં સ્પષ્ટપણે કહ્યું કે આ શબ્દના સામાન્ય અર્થમાં વૈજ્ઞાનિક પેપર નથી. આ વસ્તુ ક્યાં જવી જોઈએ તે વિશે તે વધુ એક પોઝિશન પેપર છે. અને ત્યાં કેટલાક વિચારો છે જે નવા હોઈ શકે છે, પરંતુ તેમાંના મોટા ભાગના નથી. તે પેપરમાં મેં જે લખ્યું છે તેમાંના મોટા ભાગના પર હું કોઈ પ્રાથમિકતાનો દાવો કરતો નથી, અનિવાર્યપણે.

yann-lecun-sept-2022-2

મજબૂતીકરણ શિક્ષણ પણ ક્યારેય પૂરતું નહીં હોય, LeCun જાળવે છે. ડીપમાઇન્ડના ડેવિડ સિલ્વર જેવા સંશોધકો, જેમણે ચેસ, શોગી અને ગોમાં નિપુણતા મેળવનાર આલ્ફાઝીરો પ્રોગ્રામ વિકસાવ્યો હતો, તે "ખૂબ જ ક્રિયા આધારિત" છે, લેકનનું અવલોકન છે, પરંતુ "અમે જે શીખીએ છીએ તેમાંથી મોટા ભાગનું આપણે ખરેખર લેતા નથી. ક્રિયાઓ, અમે તેને અવલોકન કરીને કરીએ છીએ." 

ZDNet: અને તે કદાચ શરૂ કરવા માટેનું એક સારું સ્થળ છે, કારણ કે હું ઉત્સુક છું કે તમે હવે આ રસ્તો કેમ અપનાવ્યો? તમે આ વિશે શું વિચાર્યું? તમે આ કેમ લખવા માંગતા હતા?

YL: સારું, તેથી, હું આ વિશે ઘણા લાંબા સમયથી વિચારી રહ્યો છું, માનવ-સ્તર અથવા પ્રાણી-સ્તર-પ્રકારની બુદ્ધિ અથવા શીખવાની અને ક્ષમતાઓ તરફના માર્ગ વિશે. અને, મારી વાર્તાલાપમાં હું આ સમગ્ર બાબત વિશે ખૂબ જ અવાજ ઉઠાવી રહ્યો છું કે દેખરેખ હેઠળનું શિક્ષણ અને પ્રબળ શિક્ષણ બંને પ્રાણીઓ અને મનુષ્યોમાં આપણે જે શિક્ષણનું અવલોકન કરીએ છીએ તેનું અનુકરણ કરવા માટે અપૂરતા છે. હું સાત કે આઠ વર્ષથી આવું કંઈક કરી રહ્યો છું. તેથી, તે તાજેતરનું નથી. મારી પાસે ઘણા વર્ષો પહેલા NeurIPS પર એક કીનોટ હતી જ્યાં મેં તે મુદ્દો બનાવ્યો હતો, અનિવાર્યપણે, અને વિવિધ વાતો, રેકોર્ડિંગ્સ છે. હવે, હવે કાગળ કેમ લખો? હું મુદ્દા પર આવ્યો છું — [ગૂગલ બ્રેઈન સંશોધક] જ્યોફ હિન્ટને કંઈક આવું જ કર્યું હતું — મારો મતલબ, ચોક્કસપણે, તે મારા કરતાં વધુ છે, આપણે સમય પસાર થતો જોઈ રહ્યા છીએ. અમે યુવાન નથી.

ZDNet: સાઠ એ નવું પચાસ છે. 

YL: તે સાચું છે, પરંતુ મુદ્દો એ છે કે, આપણે AI ના માનવ-સ્તર તરફ આગળ વધવા માટે શું કરવું જોઈએ તે અંગે ઘણા બધા દાવાઓ જોવા મળે છે. અને એવા વિચારો છે જે મને લાગે છે કે ગેરમાર્ગે દોરવામાં આવ્યા છે. તેથી, એક વિચાર એ છે કે, ઓહ, આપણે ન્યુરલ નેટની ટોચ પર માત્ર સાંકેતિક તર્ક ઉમેરવો જોઈએ. અને મને ખબર નથી કે આ કેવી રીતે કરવું. તેથી, કદાચ મેં પેપરમાં જે સમજાવ્યું છે તે એક અભિગમ હોઈ શકે છે જે સ્પષ્ટ પ્રતીક મેનીપ્યુલેશન વિના સમાન કાર્ય કરશે. આ વિશ્વના પરંપરાગત રીતે ગેરી માર્કસનો પ્રકાર છે. ગેરી માર્કસ એઆઈ વ્યક્તિ નથી, માર્ગ દ્વારા, તે મનોવિજ્ઞાની છે. તેણે AI માં ક્યારેય કોઈ યોગદાન આપ્યું નથી. તેણે પ્રાયોગિક મનોવિજ્ઞાનમાં ખરેખર સારું કામ કર્યું છે પરંતુ તેણે ક્યારેય AI પર પીઅર-સમીક્ષા કરેલ પેપર લખ્યું નથી. તેથી, ત્યાં તે લોકો છે. 

વિશ્વના [ડીપમાઇન્ડ સિદ્ધાંત સંશોધન વૈજ્ઞાનિક] ડેવિડ સિલ્વર્સ છે જે કહે છે, તમે જાણો છો, પુરસ્કાર પૂરતો છે, મૂળભૂત રીતે, તે બધું મજબૂતીકરણ શિક્ષણ વિશે છે, આપણે તેને થોડું વધુ કાર્યક્ષમ બનાવવાની જરૂર છે, ઠીક છે? અને, મને લાગે છે કે તેઓ ખોટા નથી, પરંતુ મને લાગે છે કે મજબૂતીકરણના શિક્ષણને વધુ કાર્યક્ષમ બનાવવા તરફના જરૂરી પગલાં, મૂળભૂત રીતે, કેક પર ચેરીના સ્વરૂપમાં મજબૂતીકરણ શિક્ષણને દૂર કરશે. અને મુખ્ય ખૂટે છે તે શીખવાનું છે કે વિશ્વ કેવી રીતે કાર્ય કરે છે, મોટે ભાગે ક્રિયા વિના અવલોકન દ્વારા. મજબૂતીકરણ શિક્ષણ ખૂબ જ ક્રિયા-આધારિત છે, તમે ક્રિયાઓ કરીને અને પરિણામો જોઈને વિશ્વ વિશે વસ્તુઓ શીખો છો.

ZDNet: અને તે પુરસ્કાર-કેન્દ્રિત છે.

YL: તે પુરસ્કાર-કેન્દ્રિત છે, અને તે ક્રિયા-કેન્દ્રિત પણ છે. તેથી, તમારે વિશ્વ વિશે કંઈક શીખવા માટે સક્ષમ બનવા માટે વિશ્વમાં કાર્ય કરવું પડશે. અને સ્વ-નિરીક્ષિત શિક્ષણ વિશે મેં પેપરમાં જે મુખ્ય દાવો કર્યો છે તે એ છે કે, મોટાભાગનું શિક્ષણ આપણે કરીએ છીએ, આપણે તે ખરેખર ક્રિયાઓ કરીને નથી કરતા, આપણે તેને અવલોકન કરીને કરીએ છીએ. અને તે ખૂબ જ બિનપરંપરાગત છે, મજબૂતીકરણ શીખનારા લોકો માટે, ખાસ કરીને, પણ ઘણા મનોવૈજ્ઞાનિકો અને જ્ઞાનાત્મક વૈજ્ઞાનિકો માટે પણ જેઓ વિચારે છે કે, તમે જાણો છો, ક્રિયા છે — હું એમ નથી કહેતો કે ક્રિયા આવશ્યક નથી, તે is આવશ્યક પરંતુ મને લાગે છે કે આપણે જે શીખીએ છીએ તે મોટાભાગે વિશ્વની રચના વિશે છે, અને તેમાં, અલબત્ત, ક્રિયાપ્રતિક્રિયા અને ક્રિયા અને રમત, અને તે જેવી વસ્તુઓનો સમાવેશ થાય છે, પરંતુ તેમાંથી ઘણું બધું નિરીક્ષણ છે.

ZDNet: તમે તે જ સમયે ટ્રાન્સફોર્મર લોકો, ભાષા-પ્રથમ લોકો, ને પણ ટિક કરી શકશો. તમે પહેલા ભાષા વિના આ કેવી રીતે બનાવી શકો? તમે ઘણા લોકોને ટિક ઓફ કરી શકો છો. 

YL: હા, મને તેની આદત છે. તેથી, હા, ત્યાં ભાષા-પ્રથમ લોકો છે, જેઓ કહે છે, તમે જાણો છો, બુદ્ધિ એ ભાષા વિશે છે, બુદ્ધિનો સબસ્ટ્રેટ ભાષા છે, બ્લાહ, બ્લાહ, બ્લાહ. પરંતુ તે, પ્રકારની, પ્રાણીની બુદ્ધિને નકારી કાઢે છે. તમે જાણો છો, અમે એવા મુદ્દા પર નથી કે જ્યાં અમારા બુદ્ધિશાળી મશીનોમાં બિલાડી જેટલી સામાન્ય સમજ હોય. તો, શા માટે આપણે ત્યાં શરૂ ન કરીએ? તે શું છે જે બિલાડીને આસપાસના વિશ્વને પકડવા, સુંદર સ્માર્ટ વસ્તુઓ કરવા અને તેના જેવી યોજના અને સામગ્રી અને કૂતરાઓને વધુ સારી રીતે કરવાની મંજૂરી આપે છે? 

પછી એવા બધા લોકો છે કે જેઓ કહે છે કે ઓહ, બુદ્ધિ એ સામાજિક વસ્તુ છે ને? અમે બુદ્ધિશાળી છીએ કારણ કે અમે એકબીજા સાથે વાત કરીએ છીએ અને અમે માહિતીની આપ-લે કરીએ છીએ, અને બ્લા, બ્લા, બ્લાહ. ત્યાં તમામ પ્રકારની બિનસામાજિક પ્રજાતિઓ છે જે તેમના માતાપિતાને ક્યારેય મળતી નથી જેઓ ખૂબ જ સ્માર્ટ છે, જેમ કે ઓક્ટોપસ અથવા ઓરંગુટાન્સ.મારો મતલબ, તેઓ [ઓરંગુટાન્સ] ચોક્કસપણે તેમની માતા દ્વારા શિક્ષિત છે, પરંતુ તેઓ સામાજિક પ્રાણીઓ નથી. 

પરંતુ અન્ય કેટેગરીના લોકો કે જેને હું ટિક કરી શકું તે એવા લોકો છે જેઓ કહે છે કે સ્કેલિંગ પર્યાપ્ત છે. તેથી, મૂળભૂત રીતે, અમે ફક્ત વિશાળ ટ્રાન્સફોર્મર્સનો ઉપયોગ કરીએ છીએ, અમે તેમને મલ્ટિમોડલ ડેટા પર તાલીમ આપીએ છીએ જેમાં તમે જાણો છો, વિડિઓ, ટેક્સ્ટ, બ્લાહ, બ્લાહ, બ્લાહ. અમે, પ્રકારની, petriifyબધું, અને બધું ટોકનાઇઝ કરો, અને પછી વિશાળ તાલીમ આપોમૂળભૂત રીતે, સ્વતંત્ર આગાહીઓ કરવા માટેના મોડેલો, અને કોઈક રીતે AI આમાંથી બહાર આવશે. તેઓ ખોટા નથી, આ અર્થમાં કે તે ભવિષ્યની બુદ્ધિશાળી સિસ્ટમનો એક ઘટક હોઈ શકે છે. પરંતુ મને લાગે છે કે તે આવશ્યક ટુકડાઓ ખૂટે છે. 

લોકોની બીજી શ્રેણી છે જેને હું આ પેપરથી ટિક ઑફ કરવા જઈ રહ્યો છું. અને તે સંભવિત છે, ધાર્મિક સંભાવનાવાદીઓ. તેથી, જે લોકો વિચારે છે કે સંભાવના સિદ્ધાંત એ એકમાત્ર માળખું છે જેનો ઉપયોગ તમે મશીન લર્નિંગને સમજાવવા માટે કરી શકો છો. અને જેમ મેં ભાગ માં સમજાવવાનો પ્રયાસ કર્યો છે, તે મૂળભૂત રીતે વિશ્વ મોડેલને સંપૂર્ણપણે સંભવિત હોવાનું પૂછવું ખૂબ જ વધારે છે. તે કેવી રીતે કરવું તે અમને ખબર નથી. કોમ્પ્યુટેશનલ ઇન્ટ્રેક્ટેબિલિટી છે. તેથી હું આ સમગ્ર વિચારને છોડી દેવાનો પ્રસ્તાવ મૂકું છું. અને અલબત્ત, તમે જાણો છો, આ માત્ર મશીન લર્નિંગનો જ નહીં, પરંતુ તમામ આંકડાઓનો એક વિશાળ આધારસ્તંભ છે, જે મશીન લર્નિંગ માટે સામાન્ય ઔપચારિકતા હોવાનો દાવો કરે છે. 

બીજી વાત - 

ZDNet: તમે રોલ પર છો...

YL: - જેને જનરેટિવ મોડલ કહેવામાં આવે છે. તેથી, વિચાર કે તમે આગાહી કરવાનું શીખી શકો છો, અને તમે આગાહી દ્વારા વિશ્વ વિશે ઘણું શીખી શકો છો. તેથી, હું તમને વિડિઓનો એક ભાગ આપું છું અને હું સિસ્ટમને વિડિયોમાં આગળ શું થશે તેની આગાહી કરવા માટે કહું છું. અને હું તમને બધી વિગતો સાથે વાસ્તવિક વિડિયો ફ્રેમ્સની આગાહી કરવા માટે કહી શકું છું. પરંતુ હું પેપરમાં જે દલીલ કરું છું તે એ છે કે તે વાસ્તવમાં પૂછવા માટે ખૂબ જ છે અને ખૂબ જટિલ છે. અને આ એવી વસ્તુ છે જેના વિશે મેં મારો વિચાર બદલી નાખ્યો. લગભગ બે વર્ષ પહેલાં સુધી, હું જેને હું સુપ્ત વેરીએબલ જનરેટિવ મોડલ્સ કહું છું તેનો હિમાયતી હતો, જે મોડલ જે આગાહી કરે છે કે આગળ શું થવાનું છે અથવા જે માહિતી ખૂટે છે, સંભવતઃ સુપ્ત ચલની મદદથી, જો આગાહી કરી શકાતી નથી. નિર્ધારિત અને મેં આ છોડી દીધું છે. અને મેં આનો ત્યાગ કર્યો છે તેનું કારણ પ્રયોગમૂલક પરિણામો પર આધારિત છે, જ્યાં લોકોએ BERT માં ઉપયોગમાં લેવાતી પ્રકારની તાલીમ, સૉર્ટ-ઓફ, અનુમાન અથવા પુનર્નિર્માણ આધારિત તાલીમ લાગુ કરવાનો પ્રયાસ કર્યો છે.અને મોટા ભાષાના મોડલ્સ, તેઓએ આને ઈમેજો પર લાગુ કરવાનો પ્રયાસ કર્યો છે, અને તે સંપૂર્ણ નિષ્ફળ રહી છે. અને તે સંપૂર્ણ નિષ્ફળતાનું કારણ છે, ફરીથી, સંભવિત મોડેલોની મર્યાદાઓને કારણે જ્યાં શબ્દો જેવા અલગ ટોકન્સની આગાહી કરવી પ્રમાણમાં સરળ છે કારણ કે આપણે શબ્દકોશમાંના તમામ શબ્દો પર સંભાવના વિતરણની ગણતરી કરી શકીએ છીએ. તે સરળ છે. પરંતુ જો આપણે સિસ્ટમને તમામ સંભવિત વિડિયો ફ્રેમ્સ પર સંભાવના વિતરણ ઉત્પન્ન કરવા માટે કહીએ, તો અમને તેનું પેરામીટરાઇઝેશન કેવી રીતે કરવું તે વિશે કોઈ ખ્યાલ નથી, અથવા તેને કેવી રીતે પેરામીટરાઇઝ કરવું તે અંગે અમને થોડો ખ્યાલ છે, પરંતુ અમે તેને સામાન્ય કેવી રીતે કરવું તે જાણતા નથી. તે એક અસ્પષ્ટ ગાણિતિક સમસ્યાને હિટ કરે છે જેને આપણે કેવી રીતે હલ કરવી તે જાણતા નથી. 

yann-lecun-sept-2022-3

"અમે એવા મુદ્દા પર નથી કે જ્યાં અમારા બુદ્ધિશાળી મશીનો બિલાડી જેટલી સામાન્ય સમજ ધરાવે છે," લેક્યુન અવલોકન કરે છે. “તો, શા માટે આપણે ત્યાં શરૂ ન કરીએ? તે શું છે જે બિલાડીને આસપાસના વિશ્વને પકડવા, સુંદર સ્માર્ટ વસ્તુઓ કરવા અને તેના જેવી યોજના અને સામગ્રી અને કૂતરાઓને વધુ સારી બનાવવા દે છે?"

તેથી, તેથી જ હું કહું છું કે ચાલો સંભાવના સિદ્ધાંત અથવા તેના જેવી વસ્તુઓ માટેનું માળખું, નબળા, ઉર્જા-આધારિત મોડલને છોડી દઈએ. હું આની તરફેણ કરી રહ્યો છું, પણ, દાયકાઓથી, તેથી આ તાજેતરની વાત નથી. પરંતુ તે જ સમયે, જનરેટિવ મોડલના વિચારને છોડી દેવું કારણ કે વિશ્વમાં ઘણી બધી વસ્તુઓ છે જે સમજી શકાતી નથી અને અનુમાન કરી શકાતી નથી. જો તમે એન્જિનિયર છો, તો તમે તેને અવાજ કહો છો. જો તમે ભૌતિકશાસ્ત્રી છો, તો તમે તેને ગરમી કહો છો. અને જો તમે મશીન લર્નિંગ વ્યક્તિ છો, તો તમે તેને કૉલ કરો છો, તમે જાણો છો, અપ્રસ્તુત વિગતો અથવા ગમે તે.

તેથી, મેં પેપરમાં જે ઉદાહરણનો ઉપયોગ કર્યો છે, અથવા મેં વાર્તાલાપમાં ઉપયોગ કર્યો છે, તે છે, તમે વિશ્વ-અનુમાન પ્રણાલી ઇચ્છો છો જે સ્વ-ડ્રાઇવિંગ કારમાં મદદ કરે, ખરું? તે અગાઉથી, અન્ય તમામ કારના માર્ગની આગાહી કરવા સક્ષમ બનવા માંગે છે, અન્ય વસ્તુઓ કે જે આગળ વધી શકે છે, રાહદારીઓ, સાયકલ, સોકર બોલની પાછળ દોડતું બાળક, આવી વસ્તુઓનું શું થશે. તેથી, વિશ્વ વિશે તમામ પ્રકારની વસ્તુઓ. પરંતુ રસ્તાની કિનારે, વૃક્ષો હોઈ શકે છે, અને આજે પવન છે, તેથી પાંદડા પવનમાં ફરે છે, અને ઝાડની પાછળ એક તળાવ છે, અને તળાવમાં લહેર છે. અને તે, અનિવાર્યપણે, મોટાભાગે અણધારી ઘટના છે. અને, તમે નથી ઇચ્છતા કે તમારું મોડેલ એવી વસ્તુઓની આગાહી કરવા માટે નોંધપાત્ર પ્રમાણમાં સંસાધનો ખર્ચ કરે કે જેનું અનુમાન લગાવવું મુશ્કેલ અને અપ્રસ્તુત છે. તેથી જ હું સંયુક્ત એમ્બેડિંગ આર્કિટેક્ચરની હિમાયત કરી રહ્યો છું, તે વસ્તુઓ જ્યાં તમે જે વેરીએબલનું મોડેલ બનાવવાનો પ્રયાસ કરી રહ્યાં છો, તમે તેની આગાહી કરવાનો પ્રયાસ કરી રહ્યાં નથી, તમે તેને મોડેલ કરવાનો પ્રયાસ કરી રહ્યાં છો, પરંતુ તે એન્કોડર દ્વારા ચાલે છે, અને તે એન્કોડર ઇનપુટ વિશે ઘણી બધી વિગતોને દૂર કરી શકે છે જે અપ્રસ્તુત અથવા ખૂબ જટિલ છે — મૂળભૂત રીતે, અવાજની સમકક્ષ.

ZDNet: અમે આ વર્ષની શરૂઆતમાં ઊર્જા-આધારિત મોડલ, JEPA અને H-JEPA વિશે ચર્ચા કરી હતી. મારી સમજ, જો હું તમને યોગ્ય રીતે સમજું, તો શું તમે ઓછી ઉર્જાનો મુદ્દો શોધી રહ્યાં છો જ્યાં X અને Y એમ્બેડિંગ્સની આ બે આગાહીઓ સૌથી વધુ સમાન છે, જેનો અર્થ એ છે કે જો એક ઝાડમાં એક કબૂતર હોય, અને તેમાં કંઈક હોય. દ્રશ્યની પૃષ્ઠભૂમિ, તે આવશ્યક બિંદુઓ ન હોઈ શકે જે આ એમ્બેડિંગ્સને એકબીજાની નજીક બનાવે છે.

YL: અધિકાર. તેથી, JEPA આર્કિટેક્ચર વાસ્તવમાં ઈનપુટ્સ વિશે મહત્તમ માહિતીપ્રદ હોય પણ અમુક સ્તરની ચોકસાઈ અથવા વિશ્વસનીયતા સાથે એકબીજાથી અનુમાન કરી શકાય તેવી રજૂઆતો વચ્ચે સમજૂતી, સમાધાન શોધવાનો પ્રયાસ કરે છે. તે વેપાર શોધે છે. તેથી, જો તેની પાસે પાંદડાઓની ગતિની વિગતો સહિત વિશાળ માત્રામાં સંસાધનો ખર્ચવા, અને પછી ગતિશીલતાનું મોડેલિંગ કરવાની પસંદગી છે જે નક્કી કરશે કે પાંદડા હવેથી એક સેકંડ કેવી રીતે આગળ વધી રહ્યા છે, અથવા ફક્ત તેને ફ્લોર પર છોડી દે છે. માત્ર મૂળભૂત રીતે Y વેરીએબલને પ્રિડિક્ટર દ્વારા ચલાવવું જે તે બધી વિગતોને દૂર કરે છે, તે કદાચ તેને દૂર કરી દેશે કારણ કે તેનું મોડેલ બનાવવું અને કેપ્ચર કરવું ખૂબ જ મુશ્કેલ છે.

ZDNet: આશ્ચર્યજનક બાબત એ છે કે તમે "તે કામ કરે છે, અમે તેને સમજાવવા માટે થર્મોડાયનેમિક્સનો સિદ્ધાંત પાછળથી શોધીશું." અહીં તમે એક અભિગમ અપનાવ્યો છે, "મને ખબર નથી કે અમે આને આવશ્યકપણે કેવી રીતે હલ કરીશું, પરંતુ હું તેના વિશે વિચારવા માટે કેટલાક વિચારો આગળ મૂકવા માંગુ છું," અને કદાચ કોઈ સિદ્ધાંત અથવા પૂર્વધારણાનો સંપર્ક કરવા માટે, અહીં ઓછામાં ઓછું તે રસપ્રદ છે કારણ કે કાર પર કામ કરવા માટે ઘણા બધા લોકો ઘણા પૈસા ખર્ચે છે જે રાહદારીને જોઈ શકે છે કે કારમાં સામાન્ય સમજ છે કે કેમ. અને હું કલ્પના કરું છું કે તેમાંથી કેટલાક લોકો એવા હશે, જેમને ટિક કરવામાં આવશે નહીં, પરંતુ તેઓ કહેશે, "તે સારું છે, જો તેમાં સામાન્ય સમજ ન હોય તો અમને કોઈ વાંધો નથી, અમે સિમ્યુલેશન બનાવ્યું છે, સિમ્યુલેશન અદ્ભુત છે, અને અમે સુધારવાનું ચાલુ રાખીશું, અમે સિમ્યુલેશનને માપવાનું ચાલુ રાખીશું." 

અને તેથી તે રસપ્રદ છે કે તમે અત્યારે કહેવાની સ્થિતિમાં છો, ચાલો એક પગલું પાછળ લઈએ અને આપણે શું કરી રહ્યા છીએ તે વિશે વિચારીએ. અને ઉદ્યોગ કહે છે કે અમે ફક્ત સ્કેલ, સ્કેલ, સ્કેલ, સ્કેલ પર જઈ રહ્યાં છીએ, કારણ કે તે ક્રેન્ક ખરેખર કામ કરે છે. મારો મતલબ, GPU ની સેમિકન્ડક્ટર ક્રેન્ક ખરેખર કામ કરે છે.

YL: ત્યાં, જેમ કે, પાંચ પ્રશ્નો છે. તેથી, મારો મતલબ, સ્કેલિંગ જરૂરી છે. હું એ હકીકતની ટીકા કરતો નથી કે આપણે માપન કરવું જોઈએ. આપણે માપન કરવું જોઈએ. તે ન્યુરલ નેટ જેમ જેમ મોટી થાય છે તેમ તે વધુ સારી થાય છે. તેમાં કોઈ પ્રશ્ન નથી કે આપણે માપન કરવું જોઈએ. અને જેની પાસે સામાન્ય જ્ઞાનનું અમુક સ્તર હશે તે મોટા હશે. મને લાગે છે કે તેની આસપાસ કોઈ રસ્તો નથી. તેથી સ્કેલિંગ સારું છે, તે જરૂરી છે, પરંતુ પૂરતું નથી. તે મુદ્દો હું બનાવી રહ્યો છું. તે માત્ર સ્કેલિંગ નથી. તે પ્રથમ બિંદુ છે. 

બીજો મુદ્દો, શું સિદ્ધાંત પ્રથમ આવે છે અને તે જેવી વસ્તુઓ. તેથી, મને લાગે છે કે એવા ખ્યાલો છે જે પહેલા આવે છે કે, તમારે એક ડગલું પાછળ જવું પડશે અને કહેવું પડશે, ઠીક છે, અમે આ સીડી બનાવી છે, પરંતુ અમે ચંદ્ર પર જવા માંગીએ છીએ અને આ સીડી અમને ત્યાં સુધી પહોંચાડવાનો કોઈ રસ્તો નથી. તેથી, મૂળભૂત રીતે, હું અહીં જે લખી રહ્યો છું તે છે, આપણે રોકેટ બનાવવાની જરૂર છે. અમે રોકેટ કેવી રીતે બનાવીએ છીએ તેની વિગતો હું તમને આપી શકતો નથી, પરંતુ અહીં મૂળભૂત સિદ્ધાંતો છે. અને હું તેના માટે અથવા કંઈપણ માટે કોઈ સિદ્ધાંત લખી રહ્યો નથી, પરંતુ, તે એક રોકેટ બનશે, ઠીક છે? અથવા સ્પેસ એલિવેટર અથવા ગમે તે. અમારી પાસે તમામ ટેક્નોલોજીની તમામ વિગતો હોઈ શકે નહીં. અમે તેમાંથી કેટલીક વસ્તુઓને કામ કરવા માટે પ્રયાસ કરી રહ્યા છીએ, જેમ કે હું JEPA પર કામ કરી રહ્યો છું. સંયુક્ત એમ્બેડિંગ ઇમેજ ઓળખ માટે ખરેખર સારી રીતે કામ કરે છે, પરંતુ તેનો ઉપયોગ વિશ્વ મોડેલને તાલીમ આપવા માટે, મુશ્કેલીઓ છે. અમે તેના પર કામ કરી રહ્યા છીએ, અમને આશા છે કે અમે તેને કામ કરવા જઈ રહ્યા છીએ soon, પરંતુ આપણે ત્યાં અમુક અવરોધો આવી શકે છે જેને આપણે પાર કરી શકતા નથી, સંભવતઃ. 

પછી તર્ક વિશેના પેપરમાં એક મુખ્ય વિચાર છે જ્યાં જો આપણે સિસ્ટમો આયોજન કરવા સક્ષમ બનવા માંગતા હોય, જેને તમે તર્કના સરળ સ્વરૂપ તરીકે વિચારી શકો, તો તેમાં સુપ્ત ચલો હોવા જરૂરી છે. બીજા શબ્દોમાં કહીએ તો, જે વસ્તુઓની ગણતરી કોઈપણ ન્યુરલ નેટ દ્વારા કરવામાં આવતી નથી પરંતુ વસ્તુઓ જે છે - જેની કિંમત અમુક ઉદ્દેશ્ય કાર્ય, અમુક ખર્ચ કાર્યને ઘટાડવા માટે અનુમાનિત કરવામાં આવે છે. અને પછી તમે સિસ્ટમના વર્તનને ચલાવવા માટે આ ખર્ચ કાર્યનો ઉપયોગ કરી શકો છો. અને આ કોઈ નવો વિચાર તો નથી ને? આ ખૂબ જ શાસ્ત્રીય, શ્રેષ્ઠ નિયંત્રણ છે જ્યાં તેનો આધાર 50 ના દાયકાના અંતમાં, 60 ના દાયકાની શરૂઆતમાં પાછો જાય છે. તેથી, અહીં કોઈ નવીનતાનો દાવો નથી. પરંતુ હું જે કહું છું તે એ છે કે આ પ્રકારનું અનુમાન એ એક બુદ્ધિશાળી પ્રણાલીનો ભાગ હોવો જોઈએ જે આયોજન કરવામાં સક્ષમ છે, અને જેની વર્તણૂકને નિર્દિષ્ટ અથવા નિયંત્રિત કરી શકાય છે તે સખત વર્તણૂક દ્વારા નહીં, અનુકરણના વલણ દ્વારા નહીં, પરંતુ ઉદ્દેશ્ય કાર્ય દ્વારા. વર્તણૂકને આગળ ધપાવે છે - તે શીખવાનું ચલાવતું નથી, જરૂરી છે, પરંતુ તે વર્તનને ચલાવે છે. તમે જાણો છો, આપણા મગજમાં તે છે, અને દરેક પ્રાણીની આંતરિક કિંમત અથવા વસ્તુઓ માટે આંતરિક પ્રેરણા હોય છે. તે નવ મહિનાના બાળકોને ઉભા થવાની ઇચ્છા કરે છે. જ્યારે તમે ઉભા થાઓ ત્યારે ખુશ રહેવાની કિંમત, ખર્ચ કાર્યમાં તે શબ્દ હાર્ડવાયર્ડ છે. પરંતુ તમે કેવી રીતે ઉભા થાઓ છો તે નથી, તે શીખવાનું છે.

yann-lecun-sept-2022-4

"સ્કેલિંગ સારું છે, તે જરૂરી છે, પરંતુ પૂરતું નથી," GPT-3 વિવિધતાના ટ્રાન્સફોર્મર-આધારિત પ્રોગ્રામ્સ જેવા વિશાળ લેંગ્વેજ મોડલના લેકન કહે છે. ટ્રાન્સફોર્મર ભક્તો માને છે કે, “અમે દરેક વસ્તુને ટોકનાઇઝ કરીએ છીએ, અને વિશાળકાયને તાલીમ આપીએ છીએઅલગ આગાહીઓ કરવા માટેના મોડેલો, અને કોઈક રીતે AI આમાંથી બહાર આવશે … પરંતુ મને લાગે છે કે તેમાં આવશ્યક ભાગો ખૂટે છે.”

ZDNet: ફક્ત તે મુદ્દાને પૂર્ણ કરવા માટે, મોટાભાગનો ઊંડો અધ્યયન સમુદાય એવી વસ્તુ સાથે આગળ વધી રહ્યો છે કે જેની પાસે સામાન્ય સમજ નથી. એવું લાગે છે કે તમે અહીં એક સુંદર સ્પષ્ટ દલીલ કરી રહ્યા છો કે અમુક સમયે તે મડાગાંઠ બની જાય છે. કેટલાક લોકો કહે છે કે અમને સામાન્ય સમજ સાથે સ્વાયત્ત કારની જરૂર નથી કારણ કે સ્કેલિંગ તે કરશે. એવું લાગે છે કે તમે કહો છો કે તે માર્ગ પર આગળ વધવું ઠીક નથી?

YL: તમે જાણો છો, મને લાગે છે કે તે સંપૂર્ણપણે શક્ય છે કે અમારી પાસે સામાન્ય જ્ઞાન વિના લેવલ-ફાઇવ સ્વાયત્ત કાર હશે. પરંતુ આ અભિગમ સાથેની સમસ્યા, આ કામચલાઉ હશે, કારણ કે તમારે તેમાંથી નરકનું એન્જિનિયરિંગ કરવું પડશે. તેથી, તમે જાણો છો, સમગ્ર વિશ્વનો નકશો બનાવો, તમામ પ્રકારના ચોક્કસ કોર્નર-કેસ વર્તનને હાર્ડ-વાયર કરો, પૂરતો ડેટા એકત્રિત કરો કે તમારી પાસે બધી, પ્રકારની, વિચિત્ર પરિસ્થિતિઓ છે જેનો તમે રસ્તાઓ પર સામનો કરી શકો, બ્લા, બ્લા, બ્લા. અને મારું અનુમાન છે કે પૂરતા રોકાણ અને સમય સાથે, તમે ફક્ત તેમાંથી નરકને એન્જિનિયર કરી શકો છો. પરંતુ આખરે, ત્યાં એક વધુ સંતોષકારક અને સંભવતઃ બહેતર ઉકેલ હશે જેમાં એવી સિસ્ટમ્સ શામેલ છે જે વિશ્વ કેવી રીતે કાર્ય કરે છે તે સમજવા માટે વધુ સારું કામ કરે છે, અને તમે જાણો છો કે, આપણે જેને સામાન્ય જ્ઞાન કહીશું તેનું અમુક સ્તર છે. તે માનવ-સ્તરની સામાન્ય સમજ હોવી જરૂરી નથી, પરંતુ અમુક પ્રકારનું જ્ઞાન કે જે સિસ્ટમ જોઈને મેળવી શકે છે, પરંતુ કોઈને વાહન ચલાવતા જોઈને નહીં, ફક્ત વસ્તુઓને ફરતી જોઈને અને વિશ્વ વિશે ઘણું સમજવું, પૃષ્ઠભૂમિનો પાયો બનાવવો. વિશ્વ કેવી રીતે કાર્ય કરે છે તે વિશેનું જ્ઞાન, જેની ટોચ પર તમે ડ્રાઇવિંગ શીખી શકો છો. 

ચાલો હું આનું એક ઐતિહાસિક ઉદાહરણ લઉં. ક્લાસિકલ કોમ્પ્યુટર વિઝન ઘણાં હાર્ડવાયર, એન્જિનિયર્ડ મોડ્યુલો પર આધારિત હતું, જેની ટોચ પર તમારી પાસે શીખવાની એક પાતળી પડ હશે. તેથી, 2012 માં એલેક્સનેટ દ્વારા જે સામગ્રીને પછાડવામાં આવી હતી, તેમાં મૂળભૂત રીતે પ્રથમ તબક્કો હતો, પ્રકારની, હાથથી બનાવેલ વિશેષતા નિષ્કર્ષણ, જેમ કે SIFTs [સ્કેલ-ઇન્વેરિયન્ટ ફીચર ટ્રાન્સફોર્મ (SIFT), ઇમેજમાં મુખ્ય વસ્તુઓને ઓળખવા માટેની ક્લાસિક વિઝન તકનીક] અને HOG [ઓરિએન્ટેડ ગ્રેડિયન્ટ્સનો હિસ્ટોગ્રામ, અન્ય ક્લાસિક તકનીક] અને અન્ય વિવિધ વસ્તુઓ. અને પછી બીજા સ્તર, સૉર્ટ-ઓફ, મધ્યમ-સ્તરની વિશેષતાઓ ફિચર કર્નલ અને જે કંઈપણ પર આધારિત છે, અને અમુક પ્રકારની અસુરક્ષિત પદ્ધતિ. અને પછી આની ટોચ પર, તમે સપોર્ટ વેક્ટર મશીન મૂકો, અથવા તો પ્રમાણમાં સરળ વર્ગીકૃત કરો. અને તે 2000 ના દાયકાના મધ્યભાગથી 2012 સુધીની પ્રમાણભૂત પાઇપલાઇન હતી. અને તે એન્ડ-ટુ-એન્ડ કન્વોલ્યુશનલ નેટ્સ દ્વારા બદલવામાં આવી હતી, જ્યાં તમે આમાંના કોઈપણને હાર્ડવાયર કરતા નથી, તમારી પાસે માત્ર ઘણો ડેટા છે, અને તમે વસ્તુને છેડેથી અંત સુધી તાલીમ આપો છો, જે અભિગમની હું લાંબા સમયથી હિમાયત કરતો હતો, પરંતુ તમે જાણો છો, ત્યાં સુધી, મોટી સમસ્યાઓ માટે વ્યવહારુ ન હતું. 

સ્પીચ રેકગ્નિશનમાં એક સમાન વાર્તા છે જ્યાં, ફરીથી, તમે ડેટાને કેવી રીતે પૂર્વ-પ્રોસેસ કરો છો તેના માટે વિગતવાર એન્જિનિયરિંગનો વિશાળ જથ્થો હતો, તમે માસ-સ્કેલ સેપસ્ટ્રમ [સિગ્નલ પ્રોસેસિંગ માટે ફાસ્ટ ફૌરિયર ટ્રાન્સફોર્મનું ઊલટું] કાઢો છો, અને પછી તમારી પાસે છુપાયેલા માર્કોવ મોડલ્સ છે, જેમાં સોર્ટ-ઓફ, પ્રી-સેટ આર્કિટેક્ચર, બ્લાહ, બ્લા, બ્લાહ, ગૌસીયન્સના મિશ્રણ સાથે. અને તેથી, તે વિઝન જેવું જ આર્કિટેક્ચર છે જ્યાં તમે ફ્રન્ટ-એન્ડને હેન્ડક્રાફ્ટ કર્યું છે, અને પછી કંઈક અંશે દેખરેખ વિનાનું, પ્રશિક્ષિત, મધ્યમ સ્તર અને પછી ટોચ પર એક દેખરેખ સ્તર. અને હવે તે મૂળભૂત રીતે, એન્ડ-ટુ-એન્ડ ન્યુરલ નેટ દ્વારા નાશ પામ્યું છે. તેથી હું ત્યાં બધું શીખવાનો પ્રયાસ કરવા જેવું કંઈક જોઈ રહ્યો છું, પરંતુ તમારી પાસે યોગ્ય પૂર્વ, યોગ્ય સ્થાપત્ય, યોગ્ય માળખું હોવું જોઈએ.

yann-lecun-sept-2022-5

સ્વ-ડ્રાઇવિંગ કાર ભીડ, વેમો અને વેવે જેવા સ્ટાર્ટઅપ્સ "થોડા વધુ આશાવાદી" રહ્યા છે, તે કહે છે, વિચારીને તેઓ "તેના પર ડેટા ફેંકી શકે છે, અને તમે ઘણું બધું શીખી શકો છો." ADAS ના લેવલ 5 પર સ્વ-ડ્રાઇવિંગ કાર શક્ય છે, "પરંતુ તમારે તેમાંથી નરકનું એન્જિનિયરિંગ કરવું પડશે" અને તે પ્રારંભિક કમ્પ્યુટર વિઝન મોડલ્સની જેમ "બરડ" હશે.

ZDNet: તમે શું કહી રહ્યાં છો તે એ છે કે, કેટલાક લોકો એ એન્જીનિયર કરવાનો પ્રયાસ કરશે જે હાલમાં લાગુ પડવા માટે ડીપ લર્નિંગ સાથે કામ કરતું નથી, કહો કે ઉદ્યોગમાં, અને તેઓ કંઈક એવું બનાવવાનું શરૂ કરવા જઈ રહ્યાં છે જે કમ્પ્યુટર વિઝનમાં અપ્રચલિત થઈ ગઈ છે?

YL: અધિકાર. અને તે અંશતઃ શા માટે સ્વાયત્ત ડ્રાઇવિંગ પર કામ કરતા લોકો છેલ્લા કેટલાક વર્ષોમાં થોડા વધુ આશાવાદી રહ્યા છે, કારણ કે, તમે જાણો છો, તમારી પાસે આ પ્રકારની સામાન્ય વસ્તુઓ છે જેમ કે કન્વોલ્યુશનલ નેટ્સ અને ટ્રાન્સફોર્મર્સ, જેનાથી તમે તેના પર ડેટા ફેંકી શકો છો. , અને તે ઘણું બધું શીખી શકે છે. તો, તમે કહો, ઠીક છે, મારી પાસે તે સમસ્યાનો ઉકેલ છે. તમે જે કરો છો તે પ્રથમ વસ્તુ એ છે કે તમે એક ડેમો બનાવો જ્યાં કાર કોઈને નુકસાન પહોંચાડ્યા વિના થોડી મિનિટો માટે પોતાની જાતને ચલાવે છે. અને પછી તમને ખ્યાલ આવે છે કે ત્યાં ઘણા બધા કોર્નર કેસ છે, અને જ્યારે હું તાલીમ સેટ બમણો કરું છું ત્યારે હું કેટલો બહેતર બની રહ્યો છું તે અંગે તમે વળાંક લાવવાનો પ્રયાસ કરો છો, અને તમે સમજો છો કે તમે ક્યારેય ત્યાં પહોંચવાના નથી કારણ કે ત્યાં તમામ પ્રકારના કોર્નર કેસ છે. . અને તમારી પાસે એવી કાર હોવી જરૂરી છે જે દર 200 મિલિયન કિલોમીટર કરતા ઓછા અંતરે જીવલેણ અકસ્માત સર્જે, ખરું ને? તો, તમે શું કરો છો? સારું, તમે બે દિશામાં ચાલો. 

પ્રથમ દિશા એ છે કે, મારી સિસ્ટમ શીખવા માટે જરૂરી ડેટાની માત્રાને હું કેવી રીતે ઘટાડી શકું? અને તે જ છે જ્યાં સ્વ-નિરીક્ષણ કરેલ શિક્ષણ આવે છે. તેથી, ઘણા સ્વ-ડ્રાઇવિંગ કાર પોશાક પહેરે સ્વ-નિરીક્ષણ શિક્ષણમાં ખૂબ જ રસ ધરાવે છે કારણ કે તે અનુકરણ શીખવા માટે હજુ પણ સુપરવાઇઝરી ડેટાની વિશાળ માત્રાનો ઉપયોગ કરવાનો એક માર્ગ છે, પરંતુ તેના દ્વારા વધુ સારું પ્રદર્શન મેળવવામાં આવે છે. પૂર્વ-તાલીમ, આવશ્યકપણે. અને તે હજી સુધી સંપૂર્ણ રીતે બહાર આવ્યું નથી, પરંતુ તે થશે. અને પછી બીજો વિકલ્પ છે, જે મોટાભાગની કંપનીઓએ અપનાવ્યો છે જે આ સમયે વધુ અદ્યતન છે, જે એ છે કે, ઠીક છે, અમે એન્ડ-ટુ-એન્ડ તાલીમ કરી શકીએ છીએ, પરંતુ ઘણા બધા કોર્નર કેસ છે જે આપણે કરી શકીએ છીએ' t હેન્ડલ, તેથી અમે ફક્ત એવી સિસ્ટમો બનાવવા જઈ રહ્યા છીએ કે જે તે ખૂણાના કેસોની કાળજી લેશે, અને, મૂળભૂત રીતે, તેમને વિશિષ્ટ કેસ તરીકે માને છે, અને નિયંત્રણને હાર્ડવાયર કરશે, અને પછી ખાસ પરિસ્થિતિઓને હેન્ડલ કરવા માટે ઘણી મૂળભૂત વર્તણૂકને હાર્ડવાયર કરશે. અને જો તમારી પાસે એન્જિનિયરોની પૂરતી મોટી ટીમ હોય, તો તમે તેને ખેંચી શકો છો. પરંતુ તે લાંબો સમય લેશે, અને અંતે, તે હજુ પણ થોડું બરડ હશે, કદાચ એટલું ભરોસાપાત્ર હશે કે તમે જમાવી શકો છો, પરંતુ અમુક સ્તરની બરડતા સાથે, જે વધુ શીખવા-આધારિત અભિગમ સાથે, જે કદાચ ભવિષ્યમાં, કાર પાસે નહીં હોય કારણ કે તેમાં વિશ્વ કેવી રીતે કાર્ય કરે છે તે અંગેની સામાન્ય સમજ અને સમજણ હોઈ શકે છે. 

ટૂંકા ગાળામાં, સૉર્ટ-ઓફ, એન્જિનિયર્ડ અભિગમ જીતશે — તે પહેલાથી જ જીતે છે. તે વિશ્વ અને વેવનો વેમો અને ક્રૂઝ છેઅને ગમે તે હોય, તેઓ શું કરે છે. પછી સ્વ-નિરીક્ષણ શિક્ષણ અભિગમ છે, જે સંભવતઃ ઇજનેરી અભિગમને પ્રગતિ કરવામાં મદદ કરશે. પરંતુ તે પછી, લાંબા ગાળે, જે તે કંપનીઓ માટે રાહ જોવા માટે ખૂબ લાંબો હોઈ શકે છે, તે કદાચ વધુ સંકલિત સ્વાયત્ત બુદ્ધિશાળી ડ્રાઇવિંગ સિસ્ટમ હશે.

ZDNet: અમે મોટાભાગના રોકાણકારોના રોકાણની ક્ષિતિજની બહાર કહીએ છીએ.

YL: તે સાચું છે. તેથી, પ્રશ્ન એ છે કે, પ્રદર્શન ઇચ્છિત સ્તરે પહોંચે તે પહેલાં લોકો ધીરજ ગુમાવશે અથવા પૈસા સમાપ્ત થશે.

ZDNet: તમે મોડેલમાં પસંદ કરેલા ઘટકોમાંથી તમે શા માટે પસંદ કર્યા તે વિશે કહેવા માટે કંઈ રસપ્રદ છે? કારણ કે તમે કેનેથ ક્રેકને ટાંકો છો [1943,સમજૂતીની પ્રકૃતિ], અને તમે બ્રાયસન અને હો [1969, લાગુ શ્રેષ્ઠ નિયંત્રણ], અને હું આતુર છું કે તમે આ પ્રભાવોથી શા માટે શરૂઆત કરી, જો તમે ખાસ કરીને માનતા હોવ કે આ લોકોએ તેઓ જે કર્યું છે ત્યાં સુધી તેને ખીલવ્યું હતું. તમે ત્યાં કેમ શરૂઆત કરી?

YL: ઠીક છે, મને નથી લાગતું, ચોક્કસપણે, તેમની પાસે બધી વિગતો ખીલી હતી. તેથી, બ્રાયસન અને હો, આ એક પુસ્તક છે જે મેં 1987 માં વાંચ્યું હતું જ્યારે હું ટોરોન્ટોમાં જ્યોફ્રી હિન્ટન સાથે પોસ્ટડોક હતો. પરંતુ જ્યારે હું મારી પીએચડી લખી રહ્યો હતો ત્યારે કામની આ લાઇન વિશે હું અગાઉથી જાણતો હતો, અને આવશ્યકપણે શ્રેષ્ઠ નિયંત્રણ અને બેકપ્રોપ વચ્ચે જોડાણ કર્યું હતું. જો તમે ખરેખર બનવા માંગતા હો, તો તમે જાણો છો, અન્ય એક શ્મિધુબર, તમે કહેશો કે બેકપ્રોપના વાસ્તવિક શોધકર્તાઓ વાસ્તવમાં શ્રેષ્ઠ નિયંત્રણ સિદ્ધાંતવાદીઓ હેનરી જે. કેલી, આર્થર બ્રાયસન અને કદાચ લેવ પોન્ટ્રીઆગિન પણ હતા, જેઓ શ્રેષ્ઠ નિયંત્રણના રશિયન સિદ્ધાંતવાદી છે. 50 ના દાયકાના અંતમાં. 

તેથી, તેઓએ તે શોધી કાઢ્યું, અને વાસ્તવમાં, તમે ખરેખર આનું મૂળ જોઈ શકો છો, તેની નીચેનું ગણિત, લેગ્રાંગિયન મિકેનિક્સ છે. તેથી તમે વાસ્તવમાં યુલર અને લેગ્રેન્જ પર પાછા જઈ શકો છો, અને ખરેખર, લેગ્રેન્જિયન ક્લાસિકલ મિકેનિક્સની તેમની વ્યાખ્યામાં આનો એક પ્રકારનો ઘોંઘાટ શોધી શકો છો. તેથી, શ્રેષ્ઠ નિયંત્રણના સંદર્ભમાં, આ લોકોને જે રસ હતો તે મૂળભૂત રીતે રોકેટ ટ્રેજેકટ્રીઝની ગણતરી હતી. તમે જાણો છો, આ પ્રારંભિક અવકાશ યુગ હતો. અને જો તમારી પાસે રોકેટનું મોડેલ હોય, તો તે તમને જણાવે છે કે અહીં રોકેટની સ્થિતિ શું છે t, અને અહીં હું જે ક્રિયા કરવા જઈ રહ્યો છું તે છે, તેથી, વિવિધ પ્રકારના થ્રસ્ટ અને એક્ટ્યુએટર, અહીં રોકેટની સ્થિતિ છે t+1.

ZDNet: સ્ટેટ-એક્શન મોડલ, મૂલ્ય મોડલ.

YL: તે સાચું છે, નિયંત્રણનો આધાર. તેથી, હવે તમે આદેશોના ક્રમની કલ્પના કરીને તમારા રોકેટના શૂટિંગનું અનુકરણ કરી શકો છો, અને પછી તમારી પાસે અમુક ખર્ચ કાર્ય છે, જે રોકેટનું તેના લક્ષ્ય સુધીનું અંતર છે, સ્પેસ સ્ટેશન અથવા તે ગમે તે હોય. અને પછી અમુક પ્રકારના ગ્રેડિયન્ટ વંશ દ્વારા, તમે આકૃતિ કરી શકો છો, હું મારી ક્રિયાના ક્રમને કેવી રીતે અપડેટ કરી શકું જેથી મારું રોકેટ વાસ્તવમાં લક્ષ્યની શક્ય તેટલી નજીક આવે. અને તે સમયની પાછળ પાછળની તરફ પ્રસારિત સિગ્નલો દ્વારા આવવું પડશે. અને તે બેક-પ્રોપેગેશન, ગ્રેડિએન્ટ બેક-પ્રોપગેશન છે. તે સિગ્નલો, તેઓને લેગ્રેન્જિયન મિકેનિક્સમાં સંયોજક ચલો કહેવામાં આવે છે, પરંતુ હકીકતમાં, તે ગ્રેડિએન્ટ્સ છે. તેથી, તેઓએ બેકપ્રોપની શોધ કરી, પરંતુ તેઓને ખ્યાલ ન હતો કે આ સિદ્ધાંતનો ઉપયોગ બહુ-તબક્કાની સિસ્ટમને તાલીમ આપવા માટે થઈ શકે છે જે પેટર્નની ઓળખ અથવા તેના જેવું કંઈક કરી શકે છે. કદાચ 70 ના દાયકાના અંત સુધી, 80 ના દાયકાની શરૂઆતમાં સુધી આ ખરેખર સમજાયું ન હતું, અને પછી ખરેખર અમલમાં આવ્યું ન હતું અને 80 ના દાયકાના મધ્ય સુધી કામ કરવામાં આવ્યું ન હતું. ઠીક છે, તેથી, આ તે છે જ્યાં બેકપ્રોપ ખરેખર, પ્રકારનું, ઉપડ્યું કારણ કે લોકોએ બતાવ્યું કે અહીં કોડની કેટલીક લાઇન છે કે તમે ન્યુરલ નેટ, એન્ડ ટુ એન્ડ, મલ્ટિલેયરને તાલીમ આપી શકો છો. અને તે પરસેપ્ટ્રોનની મર્યાદાઓને દૂર કરે છે. અને, હા, શ્રેષ્ઠ નિયંત્રણ સાથે જોડાણો છે, પરંતુ તે ઠીક છે.

ZDNet: તેથી, તે કહેવાની લાંબી રીત છે કે આ પ્રભાવો કે જેની સાથે તમે પ્રારંભ કર્યો હતો તે પાછા બેકપ્રોપ પર જઈ રહ્યા હતા, અને તે તમારા માટે પ્રારંભિક બિંદુ તરીકે મહત્વપૂર્ણ હતું?

YL: હા, પણ મને લાગે છે કે લોકો જેના વિશે થોડું ભૂલી ગયા હતા, આના પર ઘણું કામ હતું, તમે જાણો છો, 90 ના દાયકામાં અથવા તો 80 ના દાયકામાં પણ, જેમાં માઈકલ જોર્ડન [MIT ડિપાર્ટમેન્ટ ઓફ બ્રેઈન' જેવા લોકોનો સમાવેશ થાય છે. અને જ્ઞાનાત્મક વિજ્ઞાન] અને તેના જેવા લોકો કે જેઓ હવે ન્યુરલ નેટ નથી કરતા, પરંતુ તમે નિયંત્રણ માટે ન્યુરલ નેટનો ઉપયોગ કરી શકો છો અને તમે શ્રેષ્ઠ નિયંત્રણના શાસ્ત્રીય વિચારોનો ઉપયોગ કરી શકો છો. તેથી, જેને મોડલ-પ્રેડિક્ટિવ કંટ્રોલ કહેવાય છે, જેને હવે મોડલ-પ્રેડિક્ટિવ કંટ્રોલ કહેવામાં આવે છે, આ વિચાર કે જે તમે નિયંત્રિત કરવાનો પ્રયાસ કરી રહ્યાં છો તે સિસ્ટમનું સારું મોડલ હોય તો તમે ક્રિયાઓના ક્રમના પરિણામનું અનુકરણ કરી શકો છો અથવા તેની કલ્પના કરી શકો છો. અને તે જે વાતાવરણમાં છે. અને પછી ઢાળ વંશ દ્વારા, આવશ્યકપણે — આ શીખવાનું નથી, આ અનુમાન છે — તમે સમજી શકો છો કે ક્રિયાઓનો શ્રેષ્ઠ ક્રમ કયો છે જે મારા ઉદ્દેશ્યને ઘટાડી દેશે. તેથી, અનુમાન માટે સુપ્ત ચલ સાથેના ખર્ચ કાર્યનો ઉપયોગ, મને લાગે છે કે, મોટા પાયે ન્યુરલ નેટના વર્તમાન પાકો ભૂલી ગયા છે. પરંતુ તે લાંબા સમયથી મશીન લર્નિંગનું ખૂબ જ શાસ્ત્રીય ઘટક હતું. તેથી, દરેક બાયસિયન નેટ અથવા ગ્રાફિકલ મોડેલ અથવા સંભવિત ગ્રાફિકલ મોડેલ આ પ્રકારના અનુમાનનો ઉપયોગ કરે છે. તમારી પાસે એક મોડેલ છે જે ચલોના સમૂહ વચ્ચેની અવલંબનને કેપ્ચર કરે છે, તમને કેટલાક ચલોનું મૂલ્ય કહેવામાં આવે છે, અને પછી તમારે બાકીના ચલોની સંભવિત કિંમતનું અનુમાન લગાવવું પડશે. તે ગ્રાફિકલ મોડલ્સ અને બેયસિયન નેટ્સ અને તેના જેવી વસ્તુઓમાં અનુમાનનો મૂળ સિદ્ધાંત છે. અને મને લાગે છે કે મૂળભૂત રીતે તર્ક, તર્ક અને આયોજન વિશે શું હોવું જોઈએ.

ZDNet: તમે એક કબાટ Bayesian છો.

YL: હું બિન-સંભવિત બેયેશિયન છું. મેં તે મજાક પહેલા કરી હતી. હું ખરેખર થોડા વર્ષો પહેલા NeurIPS માં હતો, મને લાગે છે કે તે 2018 અથવા 2019 માં હતું, અને મને એક બાયસિયન દ્વારા વિડિયો પર પકડવામાં આવ્યો હતો જેણે મને પૂછ્યું હતું કે શું હું બેયેસિયન છું, અને મેં કહ્યું, હા, હું બેયેશિયન છું, પણ હું જો તમે ઇચ્છો તો હું બિન-સંભવિત બેયેસિયન, સૉર્ટ-ઓફ, ઊર્જા-આધારિત બેયેશિયન છું. 

ZDNet: જે ચોક્કસપણે માંથી કંઈક જેવું લાગે છે સ્ટાર ટ્રેક. તમે આ પેપરના અંતમાં ઉલ્લેખ કર્યો છે, તમે જે કલ્પના કરો છો તે સમજવા માટે ખરેખર સખત મહેનતના વર્ષો લાગશે. મને કહો કે આ ક્ષણે તે કેટલાક કાર્યમાં શું છે.

YL: તેથી, હું સમજાવું છું કે તમે પેપરમાં JEPA કેવી રીતે તાલીમ અને બિલ્ડ કરો છો. અને હું જે માપદંડની હિમાયત કરી રહ્યો છું તે માહિતી સામગ્રીને મહત્તમ બનાવવાની કેટલીક રીતો ધરાવે છે કે જે રજૂઆતોમાં ઇનપુટ વિશે છે. અને પછી બીજો એક આગાહી ભૂલને ઘટાડી રહ્યો છે. અને જો તમારી પાસે આગાહી કરનારમાં સુપ્ત ચલ છે જે આગાહી કરનારને બિન-નિશ્ચયવાદી બનવાની મંજૂરી આપે છે, તો તમારે તેની માહિતી સામગ્રીને ઘટાડીને આ સુપ્ત ચલને પણ નિયમિત કરવું પડશે. તેથી, તમારી પાસે હવે બે મુદ્દાઓ છે, જે એ છે કે તમે અમુક ન્યુરલ નેટના આઉટપુટની માહિતી સામગ્રીને કેવી રીતે મહત્તમ કરો છો, અને બીજો એ છે કે તમે કેટલાક સુપ્ત ચલની માહિતી સામગ્રીને કેવી રીતે ઘટાડી શકો છો? અને જો તમે તે બે વસ્તુઓ નહીં કરો, તો સિસ્ટમ પડી ભાંગશે. તે કંઈપણ રસપ્રદ શીખશે નહીં. તે દરેક વસ્તુને શૂન્ય ઊર્જા આપશે, એવું કંઈક, જે નિર્ભરતાનું સારું મોડેલ નથી. તે પતન-નિવારણ સમસ્યા છે જેનો હું ઉલ્લેખ કરું છું. 

અને હું તે બધી વસ્તુઓ વિશે કહું છું જે લોકોએ ક્યારેય કર્યું છે, પતન અટકાવવા માટેની પદ્ધતિઓની માત્ર બે શ્રેણીઓ છે. એક વિરોધાભાસી પદ્ધતિઓ છે, અને બીજી તે નિયમિત પદ્ધતિઓ છે. તેથી, બે ઇનપુટ્સની રજૂઆતોની માહિતી સામગ્રીને મહત્તમ કરવાનો અને સુપ્ત ચલની માહિતી સામગ્રીને ઘટાડવાનો આ વિચાર, જે નિયમિત પદ્ધતિઓનો છે. પરંતુ તે સંયુક્ત એમ્બેડિંગ આર્કિટેક્ચરમાં ઘણું કામ વિરોધાભાસી પદ્ધતિઓનો ઉપયોગ કરે છે. હકીકતમાં, તેઓ કદાચ આ ક્ષણે સૌથી વધુ લોકપ્રિય છે. તેથી, પ્રશ્ન એ છે કે તમે માહિતી સામગ્રીને કેવી રીતે માપો છો તે રીતે તમે ઑપ્ટિમાઇઝ અથવા ઘટાડી શકો છો? અને તે તે છે જ્યાં વસ્તુઓ જટિલ બની જાય છે કારણ કે આપણે ખરેખર માહિતી સામગ્રીને કેવી રીતે માપવી તે જાણતા નથી. આપણે તેનો અંદાજ લગાવી શકીએ છીએ, આપણે તેને ઉપરથી બાંધી શકીએ છીએ, આપણે તેના જેવી વસ્તુઓ કરી શકીએ છીએ. પરંતુ તેઓ વાસ્તવમાં માહિતી સામગ્રીને માપતા નથી, જે વાસ્તવમાં, અમુક અંશે સારી રીતે વ્યાખ્યાયિત પણ નથી.

ZDNet: તે શેનોનનો કાયદો નથી? તે માહિતી સિદ્ધાંત નથી? તમારી પાસે ચોક્કસ માત્રામાં એન્ટ્રોપી, સારી એન્ટ્રોપી અને ખરાબ એન્ટ્રોપી છે, અને સારી એન્ટ્રોપી એ એક સિમ્બોલ સિસ્ટમ છે જે કામ કરે છે, ખરાબ એન્ટ્રોપી એ અવાજ છે. શું તે બધું શેનોન દ્વારા ઉકેલવામાં આવતું નથી?

YL: તમે સાચા છો, પરંતુ તેની પાછળ એક મોટી ખામી છે. તમે એ અર્થમાં સાચા છો કે જો તમારી પાસે ડેટા આવી રહ્યો છે અને તમે કોઈક રીતે ડેટાને અલગ પ્રતીકોમાં પરિમાણિત કરી શકો છો, અને પછી તમે તે દરેક પ્રતીકોની સંભાવનાને માપો છો, તો તે પ્રતીકો દ્વારા વહન કરવામાં આવતી માહિતીની મહત્તમ રકમ છે. ના સંભવિત પ્રતીકોનો સરવાળો પી લોગ પી, ખરું ને? જ્યાં Pi પ્રતીકની સંભાવના છે હું - તે શેનોન એન્ટ્રોપી છે. [શેનોનનો કાયદો સામાન્ય રીતે H = – ∑ pi log pi તરીકે ઘડવામાં આવે છે.]

અહીં સમસ્યા છે, જોકે: શું છે Pi? જ્યારે પ્રતીકોની સંખ્યા ઓછી હોય અને પ્રતીકો સ્વતંત્ર રીતે દોરવામાં આવે ત્યારે તે સરળ છે. જ્યારે ઘણા પ્રતીકો અને નિર્ભરતા હોય છે, ત્યારે તે ખૂબ જ મુશ્કેલ છે. તેથી, જો તમારી પાસે બિટ્સનો ક્રમ હોય અને તમે ધારો કે બિટ્સ એકબીજાથી સ્વતંત્ર છે અને સંભાવના એક અને શૂન્ય અથવા ગમે તે વચ્ચે સમાન છે, તો તમે એન્ટ્રોપીને સરળતાથી માપી શકો છો, કોઈ વાંધો નથી. પરંતુ જો તમારી પાસે જે વસ્તુઓ આવે છે તે ઉચ્ચ-પરિમાણીય વેક્ટર છે, જેમ કે, તમે જાણો છો, ડેટા ફ્રેમ્સ અથવા આના જેવું કંઈક, તો શું છે Pi? વિતરણ શું છે? પ્રથમ તમારે તે જગ્યાનું પરિમાણ કરવું પડશે, જે ઉચ્ચ-પરિમાણીય, સતત જગ્યા છે. આને યોગ્ય રીતે કેવી રીતે માપવું તે તમને કોઈ ખ્યાલ નથી. તમે k-મીન્સ વગેરેનો ઉપયોગ કરી શકો છો. જ્યારે લોકો વિડિયો કમ્પ્રેશન અને ઇમેજ કમ્પ્રેશન કરે છે ત્યારે આ તે જ કરે છે. પરંતુ તે માત્ર એક અંદાજ છે. અને પછી તમારે સ્વતંત્રતાની ધારણાઓ કરવી પડશે. તેથી, તે સ્પષ્ટ છે કે વિડિઓમાં, ક્રમિક ફ્રેમ્સ સ્વતંત્ર નથી. ત્યાં અવલંબન છે, અને તે ફ્રેમ તમે એક કલાક પહેલાં જોયેલી બીજી ફ્રેમ પર આધાર રાખે છે, જે સમાન વસ્તુનું ચિત્ર હતું. તેથી, તમે જાણો છો, તમે માપી શકતા નથી Pi. માપવા માટે Pi, તમારી પાસે મશીન લર્નિંગ સિસ્ટમ હોવી જોઈએ જે આગાહી કરવાનું શીખે છે. અને તેથી તમે પાછલી સમસ્યા પર પાછા ફરો. તેથી, તમે આવશ્યકપણે, માત્ર માહિતીના માપનો અંદાજ લગાવી શકો છો. 

yann-lecun-sept-2022-6

"પ્રશ્ન એ છે કે તમે માહિતી સામગ્રીને કેવી રીતે માપો છો તે રીતે તમે ઑપ્ટિમાઇઝ અથવા ઘટાડી શકો છો?" LeCun કહે છે. "અને તે તે છે જ્યાં વસ્તુઓ જટિલ બની જાય છે કારણ કે આપણે ખરેખર માહિતી સામગ્રીને કેવી રીતે માપવી તે જાણતા નથી." અત્યાર સુધી જે શ્રેષ્ઠ કરી શકાય છે તે પ્રોક્સી શોધવાનું છે જે "અમે ઈચ્છીએ છીએ તે કાર્ય માટે પૂરતું સારું છે."

મને વધુ નક્કર ઉદાહરણ લેવા દો. એક એલ્ગોરિધમ કે જેની સાથે આપણે રમી રહ્યા છીએ, અને મેં તેના વિશે વાત કરી છે, આ વસ્તુ VICReg કહેવાય છે, variance-invariance-covariance નિયમિતીકરણ. તે એક અલગ પેપરમાં છે જે ICLR પર પ્રકાશિત થયું હતું, અને તે arXiv પર મૂકવામાં આવ્યું હતું લગભગ એક વર્ષ પહેલા, 2021. અને ત્યાંનો વિચાર માહિતીને મહત્તમ કરવાનો છે. અને આ વિચાર વાસ્તવમાં મારા જૂથ દ્વારા બોલાવવામાં આવેલા અગાઉના પેપરમાંથી આવ્યો હતો બાર્લો ટ્વિન્સ. મૂળભૂત રીતે, ચલ વચ્ચેની એકમાત્ર અવલંબન સહસંબંધ, રેખીય અવલંબન છે એમ ધારીને તમે ન્યુરલ નેટમાંથી બહાર આવતા વેક્ટરની માહિતી સામગ્રીને મહત્તમ કરો છો. તેથી, જો તમે ધારો છો કે ચલોની જોડી વચ્ચે અથવા તમારી સિસ્ટમમાં ચલોની વચ્ચે એકમાત્ર નિર્ભરતા શક્ય છે, તે કિંમતી વસ્તુઓની જોડી વચ્ચેનો સહસંબંધ છે, જે અત્યંત રફ અંદાજ છે, તો પછી તમે તમારી સિસ્ટમમાંથી આવતી માહિતી સામગ્રીને મહત્તમ કરી શકો છો. બધા ચલોમાં બિન-શૂન્ય ભિન્નતા છે તેની ખાતરી કરીને — ચાલો કહીએ કે, એક ભિન્નતા, તે શું છે તેનાથી કોઈ ફરક પડતો નથી — અને પછી તેને બેક-કોરિલેટીંગ કરો, તે જ પ્રક્રિયા જેને વ્હાઈટિંગ કહેવામાં આવે છે, તે નવી પણ નથી. આની સાથે સમસ્યા એ છે કે તમારી પાસે ચલોના જૂથો અથવા તો વેરીએબલ્સની માત્ર જોડી વચ્ચે અત્યંત જટિલ નિર્ભરતા હોઈ શકે છે જે રેખીય અવલંબન નથી, અને તે સહસંબંધોમાં દેખાતા નથી. તેથી, ઉદાહરણ તરીકે, જો તમારી પાસે બે ચલો હોય, અને તે બે ચલોના તમામ બિંદુઓ અમુક પ્રકારના સર્પાકારમાં લાઇન કરે, તો તે બે ચલો વચ્ચે ખૂબ જ મજબૂત અવલંબન છે, ખરું ને? પરંતુ હકીકતમાં, જો તમે તે બે ચલો વચ્ચેના સહસંબંધની ગણતરી કરો છો, તો તે સહસંબંધિત નથી. તેથી, અહીં એક ઉદાહરણ છે જ્યાં આ બે ચલોની માહિતી સામગ્રી ખરેખર ખૂબ જ નાની છે, તે માત્ર એક જ જથ્થો છે કારણ કે તે સર્પાકારમાં તમારી સ્થિતિ છે. તેઓ અસંબંધિત છે, તેથી તમને લાગે છે કે તમારી પાસે તે બે ચલોમાંથી ઘણી બધી માહિતી બહાર આવી રહી છે જ્યારે હકીકતમાં તમારી પાસે નથી, તમારી પાસે માત્ર છે, તમે જાણો છો, તમે આવશ્યકપણે, અન્યમાંથી એક ચલની આગાહી કરી શકો છો. તેથી, તે દર્શાવે છે કે માહિતી સામગ્રીને માપવા માટે અમારી પાસે માત્ર ખૂબ જ અંદાજિત રીતો છે.

ZDNet: અને તેથી તે વસ્તુઓમાંથી એક છે કે જેના પર તમારે હવે આ સાથે કામ કરવું પડશે? આ સૌથી મોટો પ્રશ્ન છે કે જ્યારે આપણે માહિતી સામગ્રીને મહત્તમ અને ઘટાડી રહ્યા છીએ ત્યારે આપણે કેવી રીતે જાણી શકીએ?

YL:  અથવા અમે આ માટે જે પ્રોક્સીનો ઉપયોગ કરી રહ્યા છીએ તે કાર્ય માટે પૂરતું સારું છે કે નહીં. હકીકતમાં, અમે મશીન લર્નિંગમાં આ બધું કરીએ છીએ. અમે જે ખર્ચ કાર્યોને ઘટાડીએ છીએ તે ક્યારેય એવા નથી કે જેને આપણે ખરેખર ઘટાડવા માંગીએ છીએ. તેથી, ઉદાહરણ તરીકે, તમે વર્ગીકરણ કરવા માંગો છો, ઠીક છે? જ્યારે તમે ક્લાસિફાયરને તાલીમ આપો છો ત્યારે તમે જે ખર્ચ કાર્ય ઘટાડવા માંગો છો તે વર્ગીકૃત કરનાર ભૂલોની સંખ્યા છે. પરંતુ તે એક બિન-વિભેદક, ભયાનક ખર્ચ કાર્ય છે જેને તમે ઘટાડી શકતા નથી કારણ કે તમે જાણો છો કે તમે તમારા ન્યુરલ નેટના વજનમાં ફેરફાર કરવા જઈ રહ્યા છો, જ્યાં સુધી તેમાંથી એક નમૂના તેના નિર્ણયને ફ્લિપ ન કરે ત્યાં સુધી કંઈપણ બદલાશે નહીં, અને પછી એક કૂદકો ભૂલમાં, હકારાત્મક અથવા નકારાત્મક.

ZDNet: તેથી તમારી પાસે એક પ્રોક્સી છે જે એક ઉદ્દેશ્ય કાર્ય છે જે તમે ચોક્કસપણે કહી શકો છો, અમે ચોક્કસપણે આ વસ્તુના ગ્રેડિએન્ટ્સને પ્રવાહિત કરી શકીએ છીએ.

YL: તે સાચું છે. તેથી લોકો આ ક્રોસ-એન્ટ્રોપી લોસ, અથવા સોફ્ટમેક્સનો ઉપયોગ કરે છે, તમારી પાસે તેના માટે ઘણા નામ છે, પરંતુ તે એક જ વસ્તુ છે. અને તે મૂળભૂત રીતે સિસ્ટમ દ્વારા કરવામાં આવતી ભૂલોની સંખ્યાનો સરળ અંદાજ છે, જ્યાં સ્મૂથિંગ કરવામાં આવે છે, મૂળભૂત રીતે, સિસ્ટમ દરેક કેટેગરીને જે સ્કોર આપે છે તેને ધ્યાનમાં રાખીને.

ZDNet: શું એવી કોઈ વસ્તુ છે જે અમે આવરી લીધી નથી જે તમે આવરી લેવા માંગો છો?

YL: તે કદાચ મુખ્ય મુદ્દાઓ પર ભાર મૂકે છે. મને લાગે છે કે AI પ્રણાલીઓએ તર્ક કરવા માટે સક્ષમ બનવાની જરૂર છે, અને આ માટે હું જે પ્રક્રિયાની હિમાયત કરી રહ્યો છું તે કેટલાક સુપ્ત ચલના સંદર્ભમાં કેટલાક ઉદ્દેશ્યને ઘટાડી રહી છે. તે સિસ્ટમોને યોજના અને તર્ક માટે પરવાનગી આપે છે. મને લાગે છે કે આપણે સંભવિત માળખું છોડી દેવું જોઈએ કારણ કે જ્યારે આપણે ઉચ્ચ-પરિમાણીય, સતત ચલો વચ્ચે કેપ્ચર ડિપેન્ડન્સી જેવી વસ્તુઓ કરવા માંગીએ છીએ ત્યારે તે અવ્યવસ્થિત છે. અને હું જનરેટિવ મોડલ્સને છોડી દેવાની હિમાયત કરું છું કારણ કે સિસ્ટમને એવી વસ્તુઓની આગાહી કરવા માટે ઘણા બધા સંસાધનો ફાળવવા પડશે કે જેની આગાહી કરવી ખૂબ મુશ્કેલ છે અને કદાચ વધુ પડતા સંસાધનોનો ઉપયોગ કરે છે. અને તે ખૂબ જ છે. જો તમે ઇચ્છો તો તે મુખ્ય સંદેશાઓ છે. અને પછી એકંદર આર્કિટેક્ચર. પછી ચેતનાની પ્રકૃતિ અને રૂપરેખાકારની ભૂમિકા વિશે તે અટકળો છે, પરંતુ આ ખરેખર અનુમાન છે.

ZDNet: અમે તેને આગલી વખતે મળીશું. હું તમને પૂછવા જઈ રહ્યો હતો કે તમે આ વસ્તુને કેવી રીતે બેન્ચમાર્ક કરો છો? પરંતુ હું માનું છું કે તમે હમણાં બેન્ચમાર્કિંગથી થોડા આગળ છો?

YL: જરૂરી નથી કે તે દૂર, સૉર્ટ-ઓફ, સરળ સંસ્કરણોમાં હોય. તમે એ કરી શકો છો જે દરેક વ્યક્તિ નિયંત્રણ અથવા મજબૂતીકરણના શિક્ષણમાં કરે છે, એટલે કે, તમે એટારી રમતો અથવા તેના જેવું કંઈક અથવા અન્ય કોઈ રમત રમવાની તાલીમ આપો છો જેમાં કેટલીક અનિશ્ચિતતા હોય છે.

ZDNet: તમારા સમય માટે આભાર, યાન.

સોર્સ