મેટાના એઆઈ ગુરુ લેકન: આજના મોટાભાગના એઆઈ અભિગમો ક્યારેય સાચી બુદ્ધિ તરફ દોરી જશે નહીં

yann-lecun-sept-2022-1 — "મને લાગે છે કે AI પ્રણાલીઓને તર્ક આપવા માટે સક્ષમ હોવું જરૂરી છે," મેટાના મુખ્ય AI વૈજ્ઞાનિક યાન લેકન કહે છે. આજના લોકપ્રિય AI અભિગમો જેમ કે ટ્રાન્સફોર્મર્સ, જેમાંથી ઘણા તેના ક્ષેત્રમાં પોતાના અગ્રણી કાર્ય પર આધારિત છે, તે પૂરતા નથી. "તમારે એક ડગલું પાછળ જવું પડશે અને કહેવું પડશે કે, ઠીક છે, અમે આ સીડી બનાવી છે, પરંતુ અમે ચંદ્ર પર જવા માંગીએ છીએ, અને આ સીડી અમને ત્યાં સુધી પહોંચાડવાનો કોઈ રસ્તો નથી," લેકન કહે છે.

યાન લેકુન, મુખ્ય AI વૈજ્ઞાનિક મેટા પ્રોપર્ટીઝના, ફેસબુક, ઇન્સ્ટાગ્રામ અને વોટ્સએપના માલિક, તેમના ક્ષેત્રના ઘણા લોકોને ટિક ઑફ કરે તેવી શક્યતા છે.

એક થિંક પીસની જૂનમાં પોસ્ટિંગ સાથે ઓપન રિવ્યુ સર્વર પર, LeCun એ અભિગમની વ્યાપક ઝાંખી ઓફર કરી હતી જે તેઓ માને છે કે મશીનોમાં માનવ-સ્તરની બુદ્ધિ પ્રાપ્ત કરવા માટેનું વચન ધરાવે છે.

પેપરમાં સ્પષ્ટ ન હોય તો ગર્ભિત દલીલ એ છે કે AI માં આજના મોટા ભાગના મોટા પ્રોજેક્ટ્સ ક્યારેય તે માનવ-સ્તરના લક્ષ્ય સુધી પહોંચી શકશે નહીં.

સાથે આ મહિને ચર્ચામાં ZDNet ઝૂમ દ્વારા, LeCun એ સ્પષ્ટ કર્યું કે તે આ ક્ષણે ઊંડા શિક્ષણમાં સંશોધનના ઘણા સફળ માર્ગોને ખૂબ જ શંકા સાથે જુએ છે.

"મને લાગે છે કે તેઓ જરૂરી છે પરંતુ પૂરતા નથી," ટ્યુરિંગ એવોર્ડ વિજેતાએ કહ્યું ZDNet તેના સાથીઓની ધંધો.

તેમાં ટ્રાન્સફોર્મર-આધારિત GPT-3 અને તેમના જેવા મોટા ભાષાના મોડલનો સમાવેશ થાય છે. જેમ કે લેકન તેની લાક્ષણિકતા દર્શાવે છે, ટ્રાન્સફોર્મર ભક્તો માને છે, “અમે દરેક વસ્તુને ટોકનાઇઝ કરીએ છીએ, અને વિશાળઅલગ આગાહીઓ કરવા માટેના મોડલ, અને કોઈક રીતે AI આમાંથી બહાર આવશે."

"તેઓ ખોટા નથી," તે કહે છે, "તે અર્થમાં કે તે ભવિષ્યની બુદ્ધિશાળી સિસ્ટમનો એક ઘટક હોઈ શકે છે, પરંતુ મને લાગે છે કે તેમાં આવશ્યક ભાગો ખૂટે છે."

પણ: Meta's AI લ્યુમિનરી LeCun ડીપ લર્નિંગની એનર્જી ફ્રન્ટિયરની શોધ કરે છે

તે એક ચોંકાવનારી વિવેચન છે જે વિદ્વાન પાસેથી આવે છે કે જેમણે કોન્વોલ્યુશનલ ન્યુરલ નેટવર્કનો ઉપયોગ પૂર્ણ કર્યો છે, એક પ્રાયોગિક તકનીક કે જે ઊંડા શિક્ષણ કાર્યક્રમોમાં અવિશ્વસનીય રીતે ઉત્પાદક રહી છે.

LeCun શિસ્તના અન્ય અત્યંત સફળ ક્ષેત્રોમાં ખામીઓ અને મર્યાદાઓ જુએ છે.

મજબૂતીકરણ શિક્ષણ પણ ક્યારેય પૂરતું નહીં હોય, તે જાળવી રાખે છે. ડીપમાઇન્ડના ડેવિડ સિલ્વર જેવા સંશોધકો, જેમણે ચેસ, શોગી અને ગોમાં નિપુણતા ધરાવતા આલ્ફાઝીરો પ્રોગ્રામનો વિકાસ કર્યો હતો, તે એવા પ્રોગ્રામ્સ પર ધ્યાન કેન્દ્રિત કરી રહ્યા છે જે "ખૂબ જ ક્રિયા-આધારિત" છે, લેકનનું અવલોકન છે, પરંતુ "મોટાભાગનું શિક્ષણ આપણે કરીએ છીએ, અમે નથી કરતા. વાસ્તવમાં ક્રિયાઓ કરીને તે કરો, અમે તેને અવલોકન કરીને કરીએ છીએ."

લેક્યુન, 62, દાયકાઓની સિદ્ધિઓના પરિપ્રેક્ષ્યમાં, તેમ છતાં, તે જે વિચારે છે તે આંધળી ગલીઓ છે જેનો સામનો કરવાની તાકીદ વ્યક્ત કરે છે, જેના તરફ ઘણા લોકો દોડી રહ્યા છે, અને તેના ક્ષેત્રને તે દિશામાં આગળ વધારવાનો પ્રયાસ કરે છે જે તેને લાગે છે કે વસ્તુઓ આગળ વધવી જોઈએ.
હવે લોકપ્રિય
નવા નિશાળીયા માટે શ્રેષ્ઠ SLR અને મિરરલેસ કેમેરા

"અમે માનવ-સ્તર AI તરફ આગળ વધવા માટે શું કરવું જોઈએ તે અંગે ઘણા બધા દાવાઓ જોવા મળે છે," તે કહે છે. "અને એવા વિચારો છે જે મને લાગે છે કે ગેરમાર્ગે દોરવામાં આવ્યા છે."

"અમે એવા મુદ્દા પર નથી કે જ્યાં અમારા બુદ્ધિશાળી મશીનો બિલાડી જેટલી સામાન્ય સમજ ધરાવે છે," લેક્યુન અવલોકન કરે છે. "તો, શા માટે આપણે ત્યાં શરૂ ન કરીએ?"

તેણે વિડિયોમાં આગળની ફ્રેમની આગાહી કરવા જેવી બાબતોમાં જનરેટિવ નેટવર્કનો ઉપયોગ કરવામાંનો તેમનો પૂર્વ વિશ્વાસ છોડી દીધો છે. "તે સંપૂર્ણ નિષ્ફળ રહી છે," તે કહે છે.

LeCun તેઓને "ધાર્મિક સંભાવનાવાદીઓ" કહે છે, જેઓ માને છે કે "સંભાવના સિદ્ધાંત એ એકમાત્ર માળખું છે જેનો ઉપયોગ તમે મશીન લર્નિંગને સમજાવવા માટે કરી શકો છો" તેની નિંદા કરે છે.

તે કહે છે કે સંપૂર્ણ આંકડાકીય અભિગમ અસ્પષ્ટ છે. "સંપૂર્ણપણે સંભવિત બનવા માટે વિશ્વ મોડેલ માટે પૂછવું ખૂબ જ છે; અમને ખબર નથી કે તે કેવી રીતે કરવું.”

LeCun દલીલ કરે છે કે માત્ર વિદ્વાનો જ નહીં, પરંતુ ઔદ્યોગિક AI ને ઊંડા પુનઃવિચારની જરૂર છે. સ્વ-ડ્રાઇવિંગ કાર ભીડ, વેવે જેવા સ્ટાર્ટઅપ્સ, "થોડા વધુ આશાવાદી" રહ્યા છે, તે કહે છે, વિચારીને તેઓ "મોટા ન્યુરલ નેટવર્ક્સ" પર "ડેટા ફેંકી શકે છે" અને તમે ઘણું બધું શીખી શકો છો.

"તમે જાણો છો, મને લાગે છે કે તે સંપૂર્ણપણે શક્ય છે કે અમારી પાસે સામાન્ય સમજ વિના લેવલ-ફાઇવ ઓટોનોમસ કાર હશે," તે "ADAS" નો ઉલ્લેખ કરતા કહે છે. અદ્યતન ડ્રાઈવર સહાયતા સિસ્ટમ સ્વ-ડ્રાઇવિંગ માટેની શરતો, "પરંતુ તમારે તેમાંથી નરકને એન્જિનિયર કરવું પડશે."

તે માને છે કે આવી ઓવર-એન્જિનિયર્ડ સેલ્ફ-ડ્રાઇવિંગ ટેક તમામ કોમ્પ્યુટર વિઝન પ્રોગ્રામની જેમ ચીકણું અને બરડ હશે, તે માને છે.

"આખરે, ત્યાં એક વધુ સંતોષકારક અને સંભવતઃ બહેતર ઉકેલ હશે જેમાં એવી સિસ્ટમ્સ શામેલ છે જે વિશ્વ કેવી રીતે કાર્ય કરે છે તે સમજવા માટે વધુ સારું કામ કરે છે."
હવે લોકપ્રિય
Wyze સ્વિચ સમીક્ષા | પીસીમેગ

રસ્તામાં, LeCun તેના સૌથી મોટા વિવેચકો, જેમ કે NYU પ્રોફેસર ગેરી માર્કસ - "તેમણે ક્યારેય AI માં કંઈપણ યોગદાન આપ્યું નથી" - અને આર્ટિફિશિયલ ઇન્ટેલિજન્સ રિસર્ચ માટે ડેલે મોલે ઇન્સ્ટિટ્યૂટના સહ-નિર્દેશક જુર્ગેન શ્મિધુબર - "તે છે. ધ્વજ-રોપણ કરવું ખૂબ જ સરળ છે."

ટીકાઓ ઉપરાંત, LeCun દ્વારા કરવામાં આવેલો વધુ મહત્વનો મુદ્દો એ છે કે અમુક મૂળભૂત સમસ્યાઓ તમામ AI, ખાસ કરીને, માહિતીને કેવી રીતે માપવી તેનો સામનો કરે છે.

"તમારે એક ડગલું પાછું લેવું પડશે અને કહેવું પડશે, ઠીક છે, અમે આ સીડી બનાવી છે, પરંતુ અમે ચંદ્ર પર જવા માંગીએ છીએ, અને આ સીડી અમને ત્યાં સુધી પહોંચાડવાનો કોઈ રસ્તો નથી," લેકન કહે છે કે તેની પુનર્વિચારની ઇચ્છા છે. મૂળભૂત ખ્યાલો. "મૂળભૂત રીતે, હું અહીં શું લખી રહ્યો છું, આપણે રોકેટ બનાવવાની જરૂર છે, અમે રોકેટ કેવી રીતે બનાવીએ છીએ તેની વિગતો હું તમને આપી શકતો નથી, પરંતુ અહીં મૂળભૂત સિદ્ધાંતો છે."

પેપર, અને ઇન્ટરવ્યુમાં લેકુનના વિચારો, આ વર્ષની શરૂઆતમાં લેકનનો ઇન્ટરવ્યુ વાંચીને વધુ સારી રીતે સમજી શકાય છે. ZDNet જેમાં તે ઉર્જા-આધારિત સ્વ-નિરીક્ષણ શિક્ષણ માટે ગહન શિક્ષણ માટે આગળના માર્ગ તરીકે દલીલ કરે છે. તે પ્રતિબિંબો તે જે વસ્તુઓનો દાવો કરે છે તેના વિકલ્પ તરીકે તે શું બનાવવાની આશા રાખે છે તેના માટેના મુખ્ય અભિગમની સમજ આપે છે.

નીચે આપેલ ઇન્ટરવ્યુની હળવા સંપાદિત ટ્રાન્સક્રિપ્ટ છે.

ZDNet: અમારી ચેટનો વિષય આ પેપર છે, "એ પાથ ટુ ઓટોનોમસ મશીન ઇન્ટેલિજન્સ", જેનું વર્ઝન 0.9.2 હાલનું વર્ઝન છે, હા?

યાન લેકુન: હા, હું આને એક કાર્યકારી દસ્તાવેજ માનું છું. તેથી, મેં તેને ઓપન રિવ્યુ પર પોસ્ટ કર્યું, લોકો ટિપ્પણીઓ અને સૂચનો કરે તેની રાહ જોઈને, કદાચ વધારાના સંદર્ભો, અને પછી હું સુધારેલું સંસ્કરણ બનાવીશ.
હવે લોકપ્રિય
ડીશમાં રિયલ 5G અને કૂલ ક્રિપ્ટો છે…તો શું ખોટું છે?

ZDNet: હું જોઉં છું કે Juergen Schmidhuber એ ઓપન રિવ્યુમાં પહેલેથી જ કેટલીક ટિપ્પણીઓ ઉમેરી છે.

YL: સારું, હા, તે હંમેશા કરે છે. હું મારા પેપરમાં તેના ત્યાંના એક કાગળને ટાંકું છું. મને લાગે છે કે તેણે સોશિયલ નેટવર્ક પર કરેલી દલીલો કે તેણે મૂળભૂત રીતે 1991 માં આ બધાની શોધ કરી હતી, જેમ કે તેણે અન્ય કેસોમાં કર્યું છે, તે કેસ નથી. મારો મતલબ, તે કરવું ખૂબ જ સરળ છેફ્લેગ-પ્લાન્ટિંગ, અને, પ્રકારનું, કોઈપણ પ્રયોગો વિના, કોઈપણ સિદ્ધાંત વિના એક વિચાર લખો, ફક્ત સૂચવો કે તમે આ રીતે કરી શકો. પરંતુ, તમે જાણો છો, માત્ર વિચાર રાખવા, અને પછી તેને રમકડાની સમસ્યા પર કામ કરવા માટે, અને પછી તેને વાસ્તવિક સમસ્યા પર કામ કરવા માટે, અને પછી તે શા માટે કામ કરે છે તે બતાવે છે તે સિદ્ધાંતમાં ઘણો તફાવત છે, અને પછી તેને જમાવવું. ત્યાં એક આખી સાંકળ છે, અને તેનો વૈજ્ઞાનિક ધિરાણનો વિચાર એ છે કે તે પ્રથમ વ્યક્તિ છે જેને તમે જાણો છો કે, તેનો વિચાર હતો, તેને તમામ ક્રેડિટ મળવી જોઈએ. અને તે હાસ્યાસ્પદ છે.

ZDNet: તમે સોશિયલ મીડિયા પર જે સાંભળો છો તેના પર વિશ્વાસ ન કરો.

YL: મારો મતલબ, તેમણે જે મુખ્ય પેપરને ટાંકવું જોઈએ તે કહે છે તેમાં હું પેપરમાં જે મુખ્ય વિચારો વિશે વાત કરું છું તેમાંથી કોઈ નથી. તેણે GAN અને અન્ય વસ્તુઓ સાથે પણ આ કર્યું છે, જે સાચું ન હતું. ધ્વજ-રોપણ કરવું સહેલું છે, યોગદાન આપવું ઘણું અઘરું છે. અને, માર્ગ દ્વારા, આ ચોક્કસ પેપરમાં, મેં સ્પષ્ટપણે કહ્યું કે આ શબ્દના સામાન્ય અર્થમાં વૈજ્ઞાનિક પેપર નથી. આ વસ્તુ ક્યાં જવી જોઈએ તે વિશે તે વધુ એક પોઝિશન પેપર છે. અને ત્યાં કેટલાક વિચારો છે જે નવા હોઈ શકે છે, પરંતુ તેમાંના મોટા ભાગના નથી. તે પેપરમાં મેં જે લખ્યું છે તેમાંના મોટા ભાગના પર હું કોઈ પ્રાથમિકતાનો દાવો કરતો નથી, અનિવાર્યપણે.
હવે લોકપ્રિય
પ્રથમ વેરાઇઝન સી-બેન્ડ પરિણામો દેખાય છે: પ્રોત્સાહક, પરંતુ શું FAA તેને મારી નાખશે?

મજબૂતીકરણ શિક્ષણ પણ ક્યારેય પૂરતું નહીં હોય, LeCun જાળવે છે. ડીપમાઇન્ડના ડેવિડ સિલ્વર જેવા સંશોધકો, જેમણે ચેસ, શોગી અને ગોમાં નિપુણતા મેળવનાર આલ્ફાઝીરો પ્રોગ્રામ વિકસાવ્યો હતો, તે "ખૂબ જ ક્રિયા આધારિત" છે, લેકનનું અવલોકન છે, પરંતુ "અમે જે શીખીએ છીએ તેમાંથી મોટા ભાગનું આપણે ખરેખર લેતા નથી. ક્રિયાઓ, અમે તેને અવલોકન કરીને કરીએ છીએ."

ZDNet: અને તે કદાચ શરૂ કરવા માટેનું એક સારું સ્થળ છે, કારણ કે હું ઉત્સુક છું કે તમે હવે આ રસ્તો કેમ અપનાવ્યો? તમે આ વિશે શું વિચાર્યું? તમે આ કેમ લખવા માંગતા હતા?

YL: સારું, તેથી, હું આ વિશે ઘણા લાંબા સમયથી વિચારી રહ્યો છું, માનવ-સ્તર અથવા પ્રાણી-સ્તર-પ્રકારની બુદ્ધિ અથવા શીખવાની અને ક્ષમતાઓ તરફના માર્ગ વિશે. અને, મારી વાર્તાલાપમાં હું આ સમગ્ર બાબત વિશે ખૂબ જ અવાજ ઉઠાવી રહ્યો છું કે દેખરેખ હેઠળનું શિક્ષણ અને પ્રબળ શિક્ષણ બંને પ્રાણીઓ અને મનુષ્યોમાં આપણે જે શિક્ષણનું અવલોકન કરીએ છીએ તેનું અનુકરણ કરવા માટે અપૂરતા છે. હું સાત કે આઠ વર્ષથી આવું કંઈક કરી રહ્યો છું. તેથી, તે તાજેતરનું નથી. મારી પાસે ઘણા વર્ષો પહેલા NeurIPS પર એક કીનોટ હતી જ્યાં મેં તે મુદ્દો બનાવ્યો હતો, અનિવાર્યપણે, અને વિવિધ વાતો, રેકોર્ડિંગ્સ છે. હવે, હવે કાગળ કેમ લખો? હું મુદ્દા પર આવ્યો છું — [ગૂગલ બ્રેઈન સંશોધક] જ્યોફ હિન્ટને કંઈક આવું જ કર્યું હતું — મારો મતલબ, ચોક્કસપણે, તે મારા કરતાં વધુ છે, આપણે સમય પસાર થતો જોઈ રહ્યા છીએ. અમે યુવાન નથી.

ZDNet: સાઠ એ નવું પચાસ છે.

YL: તે સાચું છે, પરંતુ મુદ્દો એ છે કે, આપણે AI ના માનવ-સ્તર તરફ આગળ વધવા માટે શું કરવું જોઈએ તે અંગે ઘણા બધા દાવાઓ જોવા મળે છે. અને એવા વિચારો છે જે મને લાગે છે કે ગેરમાર્ગે દોરવામાં આવ્યા છે. તેથી, એક વિચાર એ છે કે, ઓહ, આપણે ન્યુરલ નેટની ટોચ પર માત્ર સાંકેતિક તર્ક ઉમેરવો જોઈએ. અને મને ખબર નથી કે આ કેવી રીતે કરવું. તેથી, કદાચ મેં પેપરમાં જે સમજાવ્યું છે તે એક અભિગમ હોઈ શકે છે જે સ્પષ્ટ પ્રતીક મેનીપ્યુલેશન વિના સમાન કાર્ય કરશે. આ વિશ્વના પરંપરાગત રીતે ગેરી માર્કસનો પ્રકાર છે. ગેરી માર્કસ એઆઈ વ્યક્તિ નથી, માર્ગ દ્વારા, તે મનોવિજ્ઞાની છે. તેણે AI માં ક્યારેય કોઈ યોગદાન આપ્યું નથી. તેણે પ્રાયોગિક મનોવિજ્ઞાનમાં ખરેખર સારું કામ કર્યું છે પરંતુ તેણે ક્યારેય AI પર પીઅર-સમીક્ષા કરેલ પેપર લખ્યું નથી. તેથી, ત્યાં તે લોકો છે.

વિશ્વના [ડીપમાઇન્ડ સિદ્ધાંત સંશોધન વૈજ્ઞાનિક] ડેવિડ સિલ્વર્સ છે જે કહે છે, તમે જાણો છો, પુરસ્કાર પૂરતો છે, મૂળભૂત રીતે, તે બધું મજબૂતીકરણ શિક્ષણ વિશે છે, આપણે તેને થોડું વધુ કાર્યક્ષમ બનાવવાની જરૂર છે, ઠીક છે? અને, મને લાગે છે કે તેઓ ખોટા નથી, પરંતુ મને લાગે છે કે મજબૂતીકરણના શિક્ષણને વધુ કાર્યક્ષમ બનાવવા તરફના જરૂરી પગલાં, મૂળભૂત રીતે, કેક પર ચેરીના સ્વરૂપમાં મજબૂતીકરણ શિક્ષણને દૂર કરશે. અને મુખ્ય ખૂટે છે તે શીખવાનું છે કે વિશ્વ કેવી રીતે કાર્ય કરે છે, મોટે ભાગે ક્રિયા વિના અવલોકન દ્વારા. મજબૂતીકરણ શિક્ષણ ખૂબ જ ક્રિયા-આધારિત છે, તમે ક્રિયાઓ કરીને અને પરિણામો જોઈને વિશ્વ વિશે વસ્તુઓ શીખો છો.

ZDNet: અને તે પુરસ્કાર-કેન્દ્રિત છે.

YL: તે પુરસ્કાર-કેન્દ્રિત છે, અને તે ક્રિયા-કેન્દ્રિત પણ છે. તેથી, તમારે વિશ્વ વિશે કંઈક શીખવા માટે સક્ષમ બનવા માટે વિશ્વમાં કાર્ય કરવું પડશે. અને સ્વ-નિરીક્ષિત શિક્ષણ વિશે મેં પેપરમાં જે મુખ્ય દાવો કર્યો છે તે એ છે કે, મોટાભાગનું શિક્ષણ આપણે કરીએ છીએ, આપણે તે ખરેખર ક્રિયાઓ કરીને નથી કરતા, આપણે તેને અવલોકન કરીને કરીએ છીએ. અને તે ખૂબ જ બિનપરંપરાગત છે, મજબૂતીકરણ શીખનારા લોકો માટે, ખાસ કરીને, પણ ઘણા મનોવૈજ્ઞાનિકો અને જ્ઞાનાત્મક વૈજ્ઞાનિકો માટે પણ જેઓ વિચારે છે કે, તમે જાણો છો, ક્રિયા છે — હું એમ નથી કહેતો કે ક્રિયા આવશ્યક નથી, તે is આવશ્યક પરંતુ મને લાગે છે કે આપણે જે શીખીએ છીએ તે મોટાભાગે વિશ્વની રચના વિશે છે, અને તેમાં, અલબત્ત, ક્રિયાપ્રતિક્રિયા અને ક્રિયા અને રમત, અને તે જેવી વસ્તુઓનો સમાવેશ થાય છે, પરંતુ તેમાંથી ઘણું બધું નિરીક્ષણ છે.

ZDNet: તમે તે જ સમયે ટ્રાન્સફોર્મર લોકો, ભાષા-પ્રથમ લોકો, ને પણ ટિક કરી શકશો. તમે પહેલા ભાષા વિના આ કેવી રીતે બનાવી શકો? તમે ઘણા લોકોને ટિક ઓફ કરી શકો છો.

YL: હા, મને તેની આદત છે. તેથી, હા, ત્યાં ભાષા-પ્રથમ લોકો છે, જેઓ કહે છે, તમે જાણો છો, બુદ્ધિ એ ભાષા વિશે છે, બુદ્ધિનો સબસ્ટ્રેટ ભાષા છે, બ્લાહ, બ્લાહ, બ્લાહ. પરંતુ તે, પ્રકારની, પ્રાણીની બુદ્ધિને નકારી કાઢે છે. તમે જાણો છો, અમે એવા મુદ્દા પર નથી કે જ્યાં અમારા બુદ્ધિશાળી મશીનોમાં બિલાડી જેટલી સામાન્ય સમજ હોય. તો, શા માટે આપણે ત્યાં શરૂ ન કરીએ? તે શું છે જે બિલાડીને આસપાસના વિશ્વને પકડવા, સુંદર સ્માર્ટ વસ્તુઓ કરવા અને તેના જેવી યોજના અને સામગ્રી અને કૂતરાઓને વધુ સારી રીતે કરવાની મંજૂરી આપે છે?

પછી એવા બધા લોકો છે કે જેઓ કહે છે કે ઓહ, બુદ્ધિ એ સામાજિક વસ્તુ છે ને? અમે બુદ્ધિશાળી છીએ કારણ કે અમે એકબીજા સાથે વાત કરીએ છીએ અને અમે માહિતીની આપ-લે કરીએ છીએ, અને બ્લા, બ્લા, બ્લાહ. ત્યાં તમામ પ્રકારની બિનસામાજિક પ્રજાતિઓ છે જે તેમના માતાપિતાને ક્યારેય મળતી નથી જેઓ ખૂબ જ સ્માર્ટ છે, જેમ કે ઓક્ટોપસ અથવા ઓરંગુટાન્સ.મારો મતલબ, તેઓ [ઓરંગુટાન્સ] ચોક્કસપણે તેમની માતા દ્વારા શિક્ષિત છે, પરંતુ તેઓ સામાજિક પ્રાણીઓ નથી.

પરંતુ અન્ય કેટેગરીના લોકો કે જેને હું ટિક કરી શકું તે એવા લોકો છે જેઓ કહે છે કે સ્કેલિંગ પર્યાપ્ત છે. તેથી, મૂળભૂત રીતે, અમે ફક્ત વિશાળ ટ્રાન્સફોર્મર્સનો ઉપયોગ કરીએ છીએ, અમે તેમને મલ્ટિમોડલ ડેટા પર તાલીમ આપીએ છીએ જેમાં તમે જાણો છો, વિડિઓ, ટેક્સ્ટ, બ્લાહ, બ્લાહ, બ્લાહ. અમે, પ્રકારની, petriifyબધું, અને બધું ટોકનાઇઝ કરો, અને પછી વિશાળ તાલીમ આપોમૂળભૂત રીતે, સ્વતંત્ર આગાહીઓ કરવા માટેના મોડેલો, અને કોઈક રીતે AI આમાંથી બહાર આવશે. તેઓ ખોટા નથી, આ અર્થમાં કે તે ભવિષ્યની બુદ્ધિશાળી સિસ્ટમનો એક ઘટક હોઈ શકે છે. પરંતુ મને લાગે છે કે તે આવશ્યક ટુકડાઓ ખૂટે છે.

લોકોની બીજી શ્રેણી છે જેને હું આ પેપરથી ટિક ઑફ કરવા જઈ રહ્યો છું. અને તે સંભવિત છે, ધાર્મિક સંભાવનાવાદીઓ. તેથી, જે લોકો વિચારે છે કે સંભાવના સિદ્ધાંત એ એકમાત્ર માળખું છે જેનો ઉપયોગ તમે મશીન લર્નિંગને સમજાવવા માટે કરી શકો છો. અને જેમ મેં ભાગ માં સમજાવવાનો પ્રયાસ કર્યો છે, તે મૂળભૂત રીતે વિશ્વ મોડેલને સંપૂર્ણપણે સંભવિત હોવાનું પૂછવું ખૂબ જ વધારે છે. તે કેવી રીતે કરવું તે અમને ખબર નથી. કોમ્પ્યુટેશનલ ઇન્ટ્રેક્ટેબિલિટી છે. તેથી હું આ સમગ્ર વિચારને છોડી દેવાનો પ્રસ્તાવ મૂકું છું. અને અલબત્ત, તમે જાણો છો, આ માત્ર મશીન લર્નિંગનો જ નહીં, પરંતુ તમામ આંકડાઓનો એક વિશાળ આધારસ્તંભ છે, જે મશીન લર્નિંગ માટે સામાન્ય ઔપચારિકતા હોવાનો દાવો કરે છે.

બીજી વાત -

ZDNet: તમે રોલ પર છો...

YL: - જેને જનરેટિવ મોડલ કહેવામાં આવે છે. તેથી, વિચાર કે તમે આગાહી કરવાનું શીખી શકો છો, અને તમે આગાહી દ્વારા વિશ્વ વિશે ઘણું શીખી શકો છો. તેથી, હું તમને વિડિઓનો એક ભાગ આપું છું અને હું સિસ્ટમને વિડિયોમાં આગળ શું થશે તેની આગાહી કરવા માટે કહું છું. અને હું તમને બધી વિગતો સાથે વાસ્તવિક વિડિયો ફ્રેમ્સની આગાહી કરવા માટે કહી શકું છું. પરંતુ હું પેપરમાં જે દલીલ કરું છું તે એ છે કે તે વાસ્તવમાં પૂછવા માટે ખૂબ જ છે અને ખૂબ જટિલ છે. અને આ એવી વસ્તુ છે જેના વિશે મેં મારો વિચાર બદલી નાખ્યો. લગભગ બે વર્ષ પહેલાં સુધી, હું જેને હું સુપ્ત વેરીએબલ જનરેટિવ મોડલ્સ કહું છું તેનો હિમાયતી હતો, જે મોડલ જે આગાહી કરે છે કે આગળ શું થવાનું છે અથવા જે માહિતી ખૂટે છે, સંભવતઃ સુપ્ત ચલની મદદથી, જો આગાહી કરી શકાતી નથી. નિર્ધારિત અને મેં આ છોડી દીધું છે. અને મેં આનો ત્યાગ કર્યો છે તેનું કારણ પ્રયોગમૂલક પરિણામો પર આધારિત છે, જ્યાં લોકોએ BERT માં ઉપયોગમાં લેવાતી પ્રકારની તાલીમ, સૉર્ટ-ઓફ, અનુમાન અથવા પુનર્નિર્માણ આધારિત તાલીમ લાગુ કરવાનો પ્રયાસ કર્યો છે.અને મોટા ભાષાના મોડલ્સ, તેઓએ આને ઈમેજો પર લાગુ કરવાનો પ્રયાસ કર્યો છે, અને તે સંપૂર્ણ નિષ્ફળ રહી છે. અને તે સંપૂર્ણ નિષ્ફળતાનું કારણ છે, ફરીથી, સંભવિત મોડેલોની મર્યાદાઓને કારણે જ્યાં શબ્દો જેવા અલગ ટોકન્સની આગાહી કરવી પ્રમાણમાં સરળ છે કારણ કે આપણે શબ્દકોશમાંના તમામ શબ્દો પર સંભાવના વિતરણની ગણતરી કરી શકીએ છીએ. તે સરળ છે. પરંતુ જો આપણે સિસ્ટમને તમામ સંભવિત વિડિયો ફ્રેમ્સ પર સંભાવના વિતરણ ઉત્પન્ન કરવા માટે કહીએ, તો અમને તેનું પેરામીટરાઇઝેશન કેવી રીતે કરવું તે વિશે કોઈ ખ્યાલ નથી, અથવા તેને કેવી રીતે પેરામીટરાઇઝ કરવું તે અંગે અમને થોડો ખ્યાલ છે, પરંતુ અમે તેને સામાન્ય કેવી રીતે કરવું તે જાણતા નથી. તે એક અસ્પષ્ટ ગાણિતિક સમસ્યાને હિટ કરે છે જેને આપણે કેવી રીતે હલ કરવી તે જાણતા નથી.

"અમે એવા મુદ્દા પર નથી કે જ્યાં અમારા બુદ્ધિશાળી મશીનો બિલાડી જેટલી સામાન્ય સમજ ધરાવે છે," લેક્યુન અવલોકન કરે છે. “તો, શા માટે આપણે ત્યાં શરૂ ન કરીએ? તે શું છે જે બિલાડીને આસપાસના વિશ્વને પકડવા, સુંદર સ્માર્ટ વસ્તુઓ કરવા અને તેના જેવી યોજના અને સામગ્રી અને કૂતરાઓને વધુ સારી બનાવવા દે છે?"

તેથી, તેથી જ હું કહું છું કે ચાલો સંભાવના સિદ્ધાંત અથવા તેના જેવી વસ્તુઓ માટેનું માળખું, નબળા, ઉર્જા-આધારિત મોડલને છોડી દઈએ. હું આની તરફેણ કરી રહ્યો છું, પણ, દાયકાઓથી, તેથી આ તાજેતરની વાત નથી. પરંતુ તે જ સમયે, જનરેટિવ મોડલના વિચારને છોડી દેવું કારણ કે વિશ્વમાં ઘણી બધી વસ્તુઓ છે જે સમજી શકાતી નથી અને અનુમાન કરી શકાતી નથી. જો તમે એન્જિનિયર છો, તો તમે તેને અવાજ કહો છો. જો તમે ભૌતિકશાસ્ત્રી છો, તો તમે તેને ગરમી કહો છો. અને જો તમે મશીન લર્નિંગ વ્યક્તિ છો, તો તમે તેને કૉલ કરો છો, તમે જાણો છો, અપ્રસ્તુત વિગતો અથવા ગમે તે.

તેથી, મેં પેપરમાં જે ઉદાહરણનો ઉપયોગ કર્યો છે, અથવા મેં વાર્તાલાપમાં ઉપયોગ કર્યો છે, તે છે, તમે વિશ્વ-અનુમાન પ્રણાલી ઇચ્છો છો જે સ્વ-ડ્રાઇવિંગ કારમાં મદદ કરે, ખરું? તે અગાઉથી, અન્ય તમામ કારના માર્ગની આગાહી કરવા સક્ષમ બનવા માંગે છે, અન્ય વસ્તુઓ કે જે આગળ વધી શકે છે, રાહદારીઓ, સાયકલ, સોકર બોલની પાછળ દોડતું બાળક, આવી વસ્તુઓનું શું થશે. તેથી, વિશ્વ વિશે તમામ પ્રકારની વસ્તુઓ. પરંતુ રસ્તાની કિનારે, વૃક્ષો હોઈ શકે છે, અને આજે પવન છે, તેથી પાંદડા પવનમાં ફરે છે, અને ઝાડની પાછળ એક તળાવ છે, અને તળાવમાં લહેર છે. અને તે, અનિવાર્યપણે, મોટાભાગે અણધારી ઘટના છે. અને, તમે નથી ઇચ્છતા કે તમારું મોડેલ એવી વસ્તુઓની આગાહી કરવા માટે નોંધપાત્ર પ્રમાણમાં સંસાધનો ખર્ચ કરે કે જેનું અનુમાન લગાવવું મુશ્કેલ અને અપ્રસ્તુત છે. તેથી જ હું સંયુક્ત એમ્બેડિંગ આર્કિટેક્ચરની હિમાયત કરી રહ્યો છું, તે વસ્તુઓ જ્યાં તમે જે વેરીએબલનું મોડેલ બનાવવાનો પ્રયાસ કરી રહ્યાં છો, તમે તેની આગાહી કરવાનો પ્રયાસ કરી રહ્યાં નથી, તમે તેને મોડેલ કરવાનો પ્રયાસ કરી રહ્યાં છો, પરંતુ તે એન્કોડર દ્વારા ચાલે છે, અને તે એન્કોડર ઇનપુટ વિશે ઘણી બધી વિગતોને દૂર કરી શકે છે જે અપ્રસ્તુત અથવા ખૂબ જટિલ છે — મૂળભૂત રીતે, અવાજની સમકક્ષ.

ZDNet: અમે આ વર્ષની શરૂઆતમાં ઊર્જા-આધારિત મોડલ, JEPA અને H-JEPA વિશે ચર્ચા કરી હતી. મારી સમજ, જો હું તમને યોગ્ય રીતે સમજું, તો શું તમે ઓછી ઉર્જાનો મુદ્દો શોધી રહ્યાં છો જ્યાં X અને Y એમ્બેડિંગ્સની આ બે આગાહીઓ સૌથી વધુ સમાન છે, જેનો અર્થ એ છે કે જો એક ઝાડમાં એક કબૂતર હોય, અને તેમાં કંઈક હોય. દ્રશ્યની પૃષ્ઠભૂમિ, તે આવશ્યક બિંદુઓ ન હોઈ શકે જે આ એમ્બેડિંગ્સને એકબીજાની નજીક બનાવે છે.

YL: અધિકાર. તેથી, JEPA આર્કિટેક્ચર વાસ્તવમાં ઈનપુટ્સ વિશે મહત્તમ માહિતીપ્રદ હોય પણ અમુક સ્તરની ચોકસાઈ અથવા વિશ્વસનીયતા સાથે એકબીજાથી અનુમાન કરી શકાય તેવી રજૂઆતો વચ્ચે સમજૂતી, સમાધાન શોધવાનો પ્રયાસ કરે છે. તે વેપાર શોધે છે. તેથી, જો તેની પાસે પાંદડાઓની ગતિની વિગતો સહિત વિશાળ માત્રામાં સંસાધનો ખર્ચવા, અને પછી ગતિશીલતાનું મોડેલિંગ કરવાની પસંદગી છે જે નક્કી કરશે કે પાંદડા હવેથી એક સેકંડ કેવી રીતે આગળ વધી રહ્યા છે, અથવા ફક્ત તેને ફ્લોર પર છોડી દે છે. માત્ર મૂળભૂત રીતે Y વેરીએબલને પ્રિડિક્ટર દ્વારા ચલાવવું જે તે બધી વિગતોને દૂર કરે છે, તે કદાચ તેને દૂર કરી દેશે કારણ કે તેનું મોડેલ બનાવવું અને કેપ્ચર કરવું ખૂબ જ મુશ્કેલ છે.

ZDNet: આશ્ચર્યજનક બાબત એ છે કે તમે "તે કામ કરે છે, અમે તેને સમજાવવા માટે થર્મોડાયનેમિક્સનો સિદ્ધાંત પાછળથી શોધીશું." અહીં તમે એક અભિગમ અપનાવ્યો છે, "મને ખબર નથી કે અમે આને આવશ્યકપણે કેવી રીતે હલ કરીશું, પરંતુ હું તેના વિશે વિચારવા માટે કેટલાક વિચારો આગળ મૂકવા માંગુ છું," અને કદાચ કોઈ સિદ્ધાંત અથવા પૂર્વધારણાનો સંપર્ક કરવા માટે, અહીં ઓછામાં ઓછું તે રસપ્રદ છે કારણ કે કાર પર કામ કરવા માટે ઘણા બધા લોકો ઘણા પૈસા ખર્ચે છે જે રાહદારીને જોઈ શકે છે કે કારમાં સામાન્ય સમજ છે કે કેમ. અને હું કલ્પના કરું છું કે તેમાંથી કેટલાક લોકો એવા હશે, જેમને ટિક કરવામાં આવશે નહીં, પરંતુ તેઓ કહેશે, "તે સારું છે, જો તેમાં સામાન્ય સમજ ન હોય તો અમને કોઈ વાંધો નથી, અમે સિમ્યુલેશન બનાવ્યું છે, સિમ્યુલેશન અદ્ભુત છે, અને અમે સુધારવાનું ચાલુ રાખીશું, અમે સિમ્યુલેશનને માપવાનું ચાલુ રાખીશું."

અને તેથી તે રસપ્રદ છે કે તમે અત્યારે કહેવાની સ્થિતિમાં છો, ચાલો એક પગલું પાછળ લઈએ અને આપણે શું કરી રહ્યા છીએ તે વિશે વિચારીએ. અને ઉદ્યોગ કહે છે કે અમે ફક્ત સ્કેલ, સ્કેલ, સ્કેલ, સ્કેલ પર જઈ રહ્યાં છીએ, કારણ કે તે ક્રેન્ક ખરેખર કામ કરે છે. મારો મતલબ, GPU ની સેમિકન્ડક્ટર ક્રેન્ક ખરેખર કામ કરે છે.

YL: ત્યાં, જેમ કે, પાંચ પ્રશ્નો છે. તેથી, મારો મતલબ, સ્કેલિંગ જરૂરી છે. હું એ હકીકતની ટીકા કરતો નથી કે આપણે માપન કરવું જોઈએ. આપણે માપન કરવું જોઈએ. તે ન્યુરલ નેટ જેમ જેમ મોટી થાય છે તેમ તે વધુ સારી થાય છે. તેમાં કોઈ પ્રશ્ન નથી કે આપણે માપન કરવું જોઈએ. અને જેની પાસે સામાન્ય જ્ઞાનનું અમુક સ્તર હશે તે મોટા હશે. મને લાગે છે કે તેની આસપાસ કોઈ રસ્તો નથી. તેથી સ્કેલિંગ સારું છે, તે જરૂરી છે, પરંતુ પૂરતું નથી. તે મુદ્દો હું બનાવી રહ્યો છું. તે માત્ર સ્કેલિંગ નથી. તે પ્રથમ બિંદુ છે.

બીજો મુદ્દો, શું સિદ્ધાંત પ્રથમ આવે છે અને તે જેવી વસ્તુઓ. તેથી, મને લાગે છે કે એવા ખ્યાલો છે જે પહેલા આવે છે કે, તમારે એક ડગલું પાછળ જવું પડશે અને કહેવું પડશે, ઠીક છે, અમે આ સીડી બનાવી છે, પરંતુ અમે ચંદ્ર પર જવા માંગીએ છીએ અને આ સીડી અમને ત્યાં સુધી પહોંચાડવાનો કોઈ રસ્તો નથી. તેથી, મૂળભૂત રીતે, હું અહીં જે લખી રહ્યો છું તે છે, આપણે રોકેટ બનાવવાની જરૂર છે. અમે રોકેટ કેવી રીતે બનાવીએ છીએ તેની વિગતો હું તમને આપી શકતો નથી, પરંતુ અહીં મૂળભૂત સિદ્ધાંતો છે. અને હું તેના માટે અથવા કંઈપણ માટે કોઈ સિદ્ધાંત લખી રહ્યો નથી, પરંતુ, તે એક રોકેટ બનશે, ઠીક છે? અથવા સ્પેસ એલિવેટર અથવા ગમે તે. અમારી પાસે તમામ ટેક્નોલોજીની તમામ વિગતો હોઈ શકે નહીં. અમે તેમાંથી કેટલીક વસ્તુઓને કામ કરવા માટે પ્રયાસ કરી રહ્યા છીએ, જેમ કે હું JEPA પર કામ કરી રહ્યો છું. સંયુક્ત એમ્બેડિંગ ઇમેજ ઓળખ માટે ખરેખર સારી રીતે કામ કરે છે, પરંતુ તેનો ઉપયોગ વિશ્વ મોડેલને તાલીમ આપવા માટે, મુશ્કેલીઓ છે. અમે તેના પર કામ કરી રહ્યા છીએ, અમને આશા છે કે અમે તેને કામ કરવા જઈ રહ્યા છીએ soon, પરંતુ આપણે ત્યાં અમુક અવરોધો આવી શકે છે જેને આપણે પાર કરી શકતા નથી, સંભવતઃ.

પછી તર્ક વિશેના પેપરમાં એક મુખ્ય વિચાર છે જ્યાં જો આપણે સિસ્ટમો આયોજન કરવા સક્ષમ બનવા માંગતા હોય, જેને તમે તર્કના સરળ સ્વરૂપ તરીકે વિચારી શકો, તો તેમાં સુપ્ત ચલો હોવા જરૂરી છે. બીજા શબ્દોમાં કહીએ તો, જે વસ્તુઓની ગણતરી કોઈપણ ન્યુરલ નેટ દ્વારા કરવામાં આવતી નથી પરંતુ વસ્તુઓ જે છે - જેની કિંમત અમુક ઉદ્દેશ્ય કાર્ય, અમુક ખર્ચ કાર્યને ઘટાડવા માટે અનુમાનિત કરવામાં આવે છે. અને પછી તમે સિસ્ટમના વર્તનને ચલાવવા માટે આ ખર્ચ કાર્યનો ઉપયોગ કરી શકો છો. અને આ કોઈ નવો વિચાર તો નથી ને? આ ખૂબ જ શાસ્ત્રીય, શ્રેષ્ઠ નિયંત્રણ છે જ્યાં તેનો આધાર 50 ના દાયકાના અંતમાં, 60 ના દાયકાની શરૂઆતમાં પાછો જાય છે. તેથી, અહીં કોઈ નવીનતાનો દાવો નથી. પરંતુ હું જે કહું છું તે એ છે કે આ પ્રકારનું અનુમાન એ એક બુદ્ધિશાળી પ્રણાલીનો ભાગ હોવો જોઈએ જે આયોજન કરવામાં સક્ષમ છે, અને જેની વર્તણૂકને નિર્દિષ્ટ અથવા નિયંત્રિત કરી શકાય છે તે સખત વર્તણૂક દ્વારા નહીં, અનુકરણના વલણ દ્વારા નહીં, પરંતુ ઉદ્દેશ્ય કાર્ય દ્વારા. વર્તણૂકને આગળ ધપાવે છે - તે શીખવાનું ચલાવતું નથી, જરૂરી છે, પરંતુ તે વર્તનને ચલાવે છે. તમે જાણો છો, આપણા મગજમાં તે છે, અને દરેક પ્રાણીની આંતરિક કિંમત અથવા વસ્તુઓ માટે આંતરિક પ્રેરણા હોય છે. તે નવ મહિનાના બાળકોને ઉભા થવાની ઇચ્છા કરે છે. જ્યારે તમે ઉભા થાઓ ત્યારે ખુશ રહેવાની કિંમત, ખર્ચ કાર્યમાં તે શબ્દ હાર્ડવાયર્ડ છે. પરંતુ તમે કેવી રીતે ઉભા થાઓ છો તે નથી, તે શીખવાનું છે.

"સ્કેલિંગ સારું છે, તે જરૂરી છે, પરંતુ પૂરતું નથી," GPT-3 વિવિધતાના ટ્રાન્સફોર્મર-આધારિત પ્રોગ્રામ્સ જેવા વિશાળ લેંગ્વેજ મોડલના લેકન કહે છે. ટ્રાન્સફોર્મર ભક્તો માને છે કે, “અમે દરેક વસ્તુને ટોકનાઇઝ કરીએ છીએ, અને વિશાળકાયને તાલીમ આપીએ છીએઅલગ આગાહીઓ કરવા માટેના મોડેલો, અને કોઈક રીતે AI આમાંથી બહાર આવશે … પરંતુ મને લાગે છે કે તેમાં આવશ્યક ભાગો ખૂટે છે.”

ZDNet: ફક્ત તે મુદ્દાને પૂર્ણ કરવા માટે, મોટાભાગનો ઊંડો અધ્યયન સમુદાય એવી વસ્તુ સાથે આગળ વધી રહ્યો છે કે જેની પાસે સામાન્ય સમજ નથી. એવું લાગે છે કે તમે અહીં એક સુંદર સ્પષ્ટ દલીલ કરી રહ્યા છો કે અમુક સમયે તે મડાગાંઠ બની જાય છે. કેટલાક લોકો કહે છે કે અમને સામાન્ય સમજ સાથે સ્વાયત્ત કારની જરૂર નથી કારણ કે સ્કેલિંગ તે કરશે. એવું લાગે છે કે તમે કહો છો કે તે માર્ગ પર આગળ વધવું ઠીક નથી?

YL: તમે જાણો છો, મને લાગે છે કે તે સંપૂર્ણપણે શક્ય છે કે અમારી પાસે સામાન્ય જ્ઞાન વિના લેવલ-ફાઇવ સ્વાયત્ત કાર હશે. પરંતુ આ અભિગમ સાથેની સમસ્યા, આ કામચલાઉ હશે, કારણ કે તમારે તેમાંથી નરકનું એન્જિનિયરિંગ કરવું પડશે. તેથી, તમે જાણો છો, સમગ્ર વિશ્વનો નકશો બનાવો, તમામ પ્રકારના ચોક્કસ કોર્નર-કેસ વર્તનને હાર્ડ-વાયર કરો, પૂરતો ડેટા એકત્રિત કરો કે તમારી પાસે બધી, પ્રકારની, વિચિત્ર પરિસ્થિતિઓ છે જેનો તમે રસ્તાઓ પર સામનો કરી શકો, બ્લા, બ્લા, બ્લા. અને મારું અનુમાન છે કે પૂરતા રોકાણ અને સમય સાથે, તમે ફક્ત તેમાંથી નરકને એન્જિનિયર કરી શકો છો. પરંતુ આખરે, ત્યાં એક વધુ સંતોષકારક અને સંભવતઃ બહેતર ઉકેલ હશે જેમાં એવી સિસ્ટમ્સ શામેલ છે જે વિશ્વ કેવી રીતે કાર્ય કરે છે તે સમજવા માટે વધુ સારું કામ કરે છે, અને તમે જાણો છો કે, આપણે જેને સામાન્ય જ્ઞાન કહીશું તેનું અમુક સ્તર છે. તે માનવ-સ્તરની સામાન્ય સમજ હોવી જરૂરી નથી, પરંતુ અમુક પ્રકારનું જ્ઞાન કે જે સિસ્ટમ જોઈને મેળવી શકે છે, પરંતુ કોઈને વાહન ચલાવતા જોઈને નહીં, ફક્ત વસ્તુઓને ફરતી જોઈને અને વિશ્વ વિશે ઘણું સમજવું, પૃષ્ઠભૂમિનો પાયો બનાવવો. વિશ્વ કેવી રીતે કાર્ય કરે છે તે વિશેનું જ્ઞાન, જેની ટોચ પર તમે ડ્રાઇવિંગ શીખી શકો છો.

ચાલો હું આનું એક ઐતિહાસિક ઉદાહરણ લઉં. ક્લાસિકલ કોમ્પ્યુટર વિઝન ઘણાં હાર્ડવાયર, એન્જિનિયર્ડ મોડ્યુલો પર આધારિત હતું, જેની ટોચ પર તમારી પાસે શીખવાની એક પાતળી પડ હશે. તેથી, 2012 માં એલેક્સનેટ દ્વારા જે સામગ્રીને પછાડવામાં આવી હતી, તેમાં મૂળભૂત રીતે પ્રથમ તબક્કો હતો, પ્રકારની, હાથથી બનાવેલ વિશેષતા નિષ્કર્ષણ, જેમ કે SIFTs [સ્કેલ-ઇન્વેરિયન્ટ ફીચર ટ્રાન્સફોર્મ (SIFT), ઇમેજમાં મુખ્ય વસ્તુઓને ઓળખવા માટેની ક્લાસિક વિઝન તકનીક] અને HOG [ઓરિએન્ટેડ ગ્રેડિયન્ટ્સનો હિસ્ટોગ્રામ, અન્ય ક્લાસિક તકનીક] અને અન્ય વિવિધ વસ્તુઓ. અને પછી બીજા સ્તર, સૉર્ટ-ઓફ, મધ્યમ-સ્તરની વિશેષતાઓ ફિચર કર્નલ અને જે કંઈપણ પર આધારિત છે, અને અમુક પ્રકારની અસુરક્ષિત પદ્ધતિ. અને પછી આની ટોચ પર, તમે સપોર્ટ વેક્ટર મશીન મૂકો, અથવા તો પ્રમાણમાં સરળ વર્ગીકૃત કરો. અને તે 2000 ના દાયકાના મધ્યભાગથી 2012 સુધીની પ્રમાણભૂત પાઇપલાઇન હતી. અને તે એન્ડ-ટુ-એન્ડ કન્વોલ્યુશનલ નેટ્સ દ્વારા બદલવામાં આવી હતી, જ્યાં તમે આમાંના કોઈપણને હાર્ડવાયર કરતા નથી, તમારી પાસે માત્ર ઘણો ડેટા છે, અને તમે વસ્તુને છેડેથી અંત સુધી તાલીમ આપો છો, જે અભિગમની હું લાંબા સમયથી હિમાયત કરતો હતો, પરંતુ તમે જાણો છો, ત્યાં સુધી, મોટી સમસ્યાઓ માટે વ્યવહારુ ન હતું.

સ્પીચ રેકગ્નિશનમાં એક સમાન વાર્તા છે જ્યાં, ફરીથી, તમે ડેટાને કેવી રીતે પૂર્વ-પ્રોસેસ કરો છો તેના માટે વિગતવાર એન્જિનિયરિંગનો વિશાળ જથ્થો હતો, તમે માસ-સ્કેલ સેપસ્ટ્રમ [સિગ્નલ પ્રોસેસિંગ માટે ફાસ્ટ ફૌરિયર ટ્રાન્સફોર્મનું ઊલટું] કાઢો છો, અને પછી તમારી પાસે છુપાયેલા માર્કોવ મોડલ્સ છે, જેમાં સોર્ટ-ઓફ, પ્રી-સેટ આર્કિટેક્ચર, બ્લાહ, બ્લા, બ્લાહ, ગૌસીયન્સના મિશ્રણ સાથે. અને તેથી, તે વિઝન જેવું જ આર્કિટેક્ચર છે જ્યાં તમે ફ્રન્ટ-એન્ડને હેન્ડક્રાફ્ટ કર્યું છે, અને પછી કંઈક અંશે દેખરેખ વિનાનું, પ્રશિક્ષિત, મધ્યમ સ્તર અને પછી ટોચ પર એક દેખરેખ સ્તર. અને હવે તે મૂળભૂત રીતે, એન્ડ-ટુ-એન્ડ ન્યુરલ નેટ દ્વારા નાશ પામ્યું છે. તેથી હું ત્યાં બધું શીખવાનો પ્રયાસ કરવા જેવું કંઈક જોઈ રહ્યો છું, પરંતુ તમારી પાસે યોગ્ય પૂર્વ, યોગ્ય સ્થાપત્ય, યોગ્ય માળખું હોવું જોઈએ.

સ્વ-ડ્રાઇવિંગ કાર ભીડ, વેમો અને વેવે જેવા સ્ટાર્ટઅપ્સ "થોડા વધુ આશાવાદી" રહ્યા છે, તે કહે છે, વિચારીને તેઓ "તેના પર ડેટા ફેંકી શકે છે, અને તમે ઘણું બધું શીખી શકો છો." ADAS ના લેવલ 5 પર સ્વ-ડ્રાઇવિંગ કાર શક્ય છે, "પરંતુ તમારે તેમાંથી નરકનું એન્જિનિયરિંગ કરવું પડશે" અને તે પ્રારંભિક કમ્પ્યુટર વિઝન મોડલ્સની જેમ "બરડ" હશે.

ZDNet: તમે શું કહી રહ્યાં છો તે એ છે કે, કેટલાક લોકો એ એન્જીનિયર કરવાનો પ્રયાસ કરશે જે હાલમાં લાગુ પડવા માટે ડીપ લર્નિંગ સાથે કામ કરતું નથી, કહો કે ઉદ્યોગમાં, અને તેઓ કંઈક એવું બનાવવાનું શરૂ કરવા જઈ રહ્યાં છે જે કમ્પ્યુટર વિઝનમાં અપ્રચલિત થઈ ગઈ છે?

YL: અધિકાર. અને તે અંશતઃ શા માટે સ્વાયત્ત ડ્રાઇવિંગ પર કામ કરતા લોકો છેલ્લા કેટલાક વર્ષોમાં થોડા વધુ આશાવાદી રહ્યા છે, કારણ કે, તમે જાણો છો, તમારી પાસે આ પ્રકારની સામાન્ય વસ્તુઓ છે જેમ કે કન્વોલ્યુશનલ નેટ્સ અને ટ્રાન્સફોર્મર્સ, જેનાથી તમે તેના પર ડેટા ફેંકી શકો છો. , અને તે ઘણું બધું શીખી શકે છે. તો, તમે કહો, ઠીક છે, મારી પાસે તે સમસ્યાનો ઉકેલ છે. તમે જે કરો છો તે પ્રથમ વસ્તુ એ છે કે તમે એક ડેમો બનાવો જ્યાં કાર કોઈને નુકસાન પહોંચાડ્યા વિના થોડી મિનિટો માટે પોતાની જાતને ચલાવે છે. અને પછી તમને ખ્યાલ આવે છે કે ત્યાં ઘણા બધા કોર્નર કેસ છે, અને જ્યારે હું તાલીમ સેટ બમણો કરું છું ત્યારે હું કેટલો બહેતર બની રહ્યો છું તે અંગે તમે વળાંક લાવવાનો પ્રયાસ કરો છો, અને તમે સમજો છો કે તમે ક્યારેય ત્યાં પહોંચવાના નથી કારણ કે ત્યાં તમામ પ્રકારના કોર્નર કેસ છે. . અને તમારી પાસે એવી કાર હોવી જરૂરી છે જે દર 200 મિલિયન કિલોમીટર કરતા ઓછા અંતરે જીવલેણ અકસ્માત સર્જે, ખરું ને? તો, તમે શું કરો છો? સારું, તમે બે દિશામાં ચાલો.

પ્રથમ દિશા એ છે કે, મારી સિસ્ટમ શીખવા માટે જરૂરી ડેટાની માત્રાને હું કેવી રીતે ઘટાડી શકું? અને તે જ છે જ્યાં સ્વ-નિરીક્ષણ કરેલ શિક્ષણ આવે છે. તેથી, ઘણા સ્વ-ડ્રાઇવિંગ કાર પોશાક પહેરે સ્વ-નિરીક્ષણ શિક્ષણમાં ખૂબ જ રસ ધરાવે છે કારણ કે તે અનુકરણ શીખવા માટે હજુ પણ સુપરવાઇઝરી ડેટાની વિશાળ માત્રાનો ઉપયોગ કરવાનો એક માર્ગ છે, પરંતુ તેના દ્વારા વધુ સારું પ્રદર્શન મેળવવામાં આવે છે. પૂર્વ-તાલીમ, આવશ્યકપણે. અને તે હજી સુધી સંપૂર્ણ રીતે બહાર આવ્યું નથી, પરંતુ તે થશે. અને પછી બીજો વિકલ્પ છે, જે મોટાભાગની કંપનીઓએ અપનાવ્યો છે જે આ સમયે વધુ અદ્યતન છે, જે એ છે કે, ઠીક છે, અમે એન્ડ-ટુ-એન્ડ તાલીમ કરી શકીએ છીએ, પરંતુ ઘણા બધા કોર્નર કેસ છે જે આપણે કરી શકીએ છીએ' t હેન્ડલ, તેથી અમે ફક્ત એવી સિસ્ટમો બનાવવા જઈ રહ્યા છીએ કે જે તે ખૂણાના કેસોની કાળજી લેશે, અને, મૂળભૂત રીતે, તેમને વિશિષ્ટ કેસ તરીકે માને છે, અને નિયંત્રણને હાર્ડવાયર કરશે, અને પછી ખાસ પરિસ્થિતિઓને હેન્ડલ કરવા માટે ઘણી મૂળભૂત વર્તણૂકને હાર્ડવાયર કરશે. અને જો તમારી પાસે એન્જિનિયરોની પૂરતી મોટી ટીમ હોય, તો તમે તેને ખેંચી શકો છો. પરંતુ તે લાંબો સમય લેશે, અને અંતે, તે હજુ પણ થોડું બરડ હશે, કદાચ એટલું ભરોસાપાત્ર હશે કે તમે જમાવી શકો છો, પરંતુ અમુક સ્તરની બરડતા સાથે, જે વધુ શીખવા-આધારિત અભિગમ સાથે, જે કદાચ ભવિષ્યમાં, કાર પાસે નહીં હોય કારણ કે તેમાં વિશ્વ કેવી રીતે કાર્ય કરે છે તે અંગેની સામાન્ય સમજ અને સમજણ હોઈ શકે છે.

ટૂંકા ગાળામાં, સૉર્ટ-ઓફ, એન્જિનિયર્ડ અભિગમ જીતશે — તે પહેલાથી જ જીતે છે. તે વિશ્વ અને વેવનો વેમો અને ક્રૂઝ છેઅને ગમે તે હોય, તેઓ શું કરે છે. પછી સ્વ-નિરીક્ષણ શિક્ષણ અભિગમ છે, જે સંભવતઃ ઇજનેરી અભિગમને પ્રગતિ કરવામાં મદદ કરશે. પરંતુ તે પછી, લાંબા ગાળે, જે તે કંપનીઓ માટે રાહ જોવા માટે ખૂબ લાંબો હોઈ શકે છે, તે કદાચ વધુ સંકલિત સ્વાયત્ત બુદ્ધિશાળી ડ્રાઇવિંગ સિસ્ટમ હશે.

ZDNet: અમે મોટાભાગના રોકાણકારોના રોકાણની ક્ષિતિજની બહાર કહીએ છીએ.

YL: તે સાચું છે. તેથી, પ્રશ્ન એ છે કે, પ્રદર્શન ઇચ્છિત સ્તરે પહોંચે તે પહેલાં લોકો ધીરજ ગુમાવશે અથવા પૈસા સમાપ્ત થશે.

ZDNet: તમે મોડેલમાં પસંદ કરેલા ઘટકોમાંથી તમે શા માટે પસંદ કર્યા તે વિશે કહેવા માટે કંઈ રસપ્રદ છે? કારણ કે તમે કેનેથ ક્રેકને ટાંકો છો [1943,સમજૂતીની પ્રકૃતિ], અને તમે બ્રાયસન અને હો [1969, લાગુ શ્રેષ્ઠ નિયંત્રણ], અને હું આતુર છું કે તમે આ પ્રભાવોથી શા માટે શરૂઆત કરી, જો તમે ખાસ કરીને માનતા હોવ કે આ લોકોએ તેઓ જે કર્યું છે ત્યાં સુધી તેને ખીલવ્યું હતું. તમે ત્યાં કેમ શરૂઆત કરી?

YL: ઠીક છે, મને નથી લાગતું, ચોક્કસપણે, તેમની પાસે બધી વિગતો ખીલી હતી. તેથી, બ્રાયસન અને હો, આ એક પુસ્તક છે જે મેં 1987 માં વાંચ્યું હતું જ્યારે હું ટોરોન્ટોમાં જ્યોફ્રી હિન્ટન સાથે પોસ્ટડોક હતો. પરંતુ જ્યારે હું મારી પીએચડી લખી રહ્યો હતો ત્યારે કામની આ લાઇન વિશે હું અગાઉથી જાણતો હતો, અને આવશ્યકપણે શ્રેષ્ઠ નિયંત્રણ અને બેકપ્રોપ વચ્ચે જોડાણ કર્યું હતું. જો તમે ખરેખર બનવા માંગતા હો, તો તમે જાણો છો, અન્ય એક શ્મિધુબર, તમે કહેશો કે બેકપ્રોપના વાસ્તવિક શોધકર્તાઓ વાસ્તવમાં શ્રેષ્ઠ નિયંત્રણ સિદ્ધાંતવાદીઓ હેનરી જે. કેલી, આર્થર બ્રાયસન અને કદાચ લેવ પોન્ટ્રીઆગિન પણ હતા, જેઓ શ્રેષ્ઠ નિયંત્રણના રશિયન સિદ્ધાંતવાદી છે. 50 ના દાયકાના અંતમાં.

તેથી, તેઓએ તે શોધી કાઢ્યું, અને વાસ્તવમાં, તમે ખરેખર આનું મૂળ જોઈ શકો છો, તેની નીચેનું ગણિત, લેગ્રાંગિયન મિકેનિક્સ છે. તેથી તમે વાસ્તવમાં યુલર અને લેગ્રેન્જ પર પાછા જઈ શકો છો, અને ખરેખર, લેગ્રેન્જિયન ક્લાસિકલ મિકેનિક્સની તેમની વ્યાખ્યામાં આનો એક પ્રકારનો ઘોંઘાટ શોધી શકો છો. તેથી, શ્રેષ્ઠ નિયંત્રણના સંદર્ભમાં, આ લોકોને જે રસ હતો તે મૂળભૂત રીતે રોકેટ ટ્રેજેકટ્રીઝની ગણતરી હતી. તમે જાણો છો, આ પ્રારંભિક અવકાશ યુગ હતો. અને જો તમારી પાસે રોકેટનું મોડેલ હોય, તો તે તમને જણાવે છે કે અહીં રોકેટની સ્થિતિ શું છે t, અને અહીં હું જે ક્રિયા કરવા જઈ રહ્યો છું તે છે, તેથી, વિવિધ પ્રકારના થ્રસ્ટ અને એક્ટ્યુએટર, અહીં રોકેટની સ્થિતિ છે t+1.

ZDNet: સ્ટેટ-એક્શન મોડલ, મૂલ્ય મોડલ.

YL: તે સાચું છે, નિયંત્રણનો આધાર. તેથી, હવે તમે આદેશોના ક્રમની કલ્પના કરીને તમારા રોકેટના શૂટિંગનું અનુકરણ કરી શકો છો, અને પછી તમારી પાસે અમુક ખર્ચ કાર્ય છે, જે રોકેટનું તેના લક્ષ્ય સુધીનું અંતર છે, સ્પેસ સ્ટેશન અથવા તે ગમે તે હોય. અને પછી અમુક પ્રકારના ગ્રેડિયન્ટ વંશ દ્વારા, તમે આકૃતિ કરી શકો છો, હું મારી ક્રિયાના ક્રમને કેવી રીતે અપડેટ કરી શકું જેથી મારું રોકેટ વાસ્તવમાં લક્ષ્યની શક્ય તેટલી નજીક આવે. અને તે સમયની પાછળ પાછળની તરફ પ્રસારિત સિગ્નલો દ્વારા આવવું પડશે. અને તે બેક-પ્રોપેગેશન, ગ્રેડિએન્ટ બેક-પ્રોપગેશન છે. તે સિગ્નલો, તેઓને લેગ્રેન્જિયન મિકેનિક્સમાં સંયોજક ચલો કહેવામાં આવે છે, પરંતુ હકીકતમાં, તે ગ્રેડિએન્ટ્સ છે. તેથી, તેઓએ બેકપ્રોપની શોધ કરી, પરંતુ તેઓને ખ્યાલ ન હતો કે આ સિદ્ધાંતનો ઉપયોગ બહુ-તબક્કાની સિસ્ટમને તાલીમ આપવા માટે થઈ શકે છે જે પેટર્નની ઓળખ અથવા તેના જેવું કંઈક કરી શકે છે. કદાચ 70 ના દાયકાના અંત સુધી, 80 ના દાયકાની શરૂઆતમાં સુધી આ ખરેખર સમજાયું ન હતું, અને પછી ખરેખર અમલમાં આવ્યું ન હતું અને 80 ના દાયકાના મધ્ય સુધી કામ કરવામાં આવ્યું ન હતું. ઠીક છે, તેથી, આ તે છે જ્યાં બેકપ્રોપ ખરેખર, પ્રકારનું, ઉપડ્યું કારણ કે લોકોએ બતાવ્યું કે અહીં કોડની કેટલીક લાઇન છે કે તમે ન્યુરલ નેટ, એન્ડ ટુ એન્ડ, મલ્ટિલેયરને તાલીમ આપી શકો છો. અને તે પરસેપ્ટ્રોનની મર્યાદાઓને દૂર કરે છે. અને, હા, શ્રેષ્ઠ નિયંત્રણ સાથે જોડાણો છે, પરંતુ તે ઠીક છે.

ZDNet: તેથી, તે કહેવાની લાંબી રીત છે કે આ પ્રભાવો કે જેની સાથે તમે પ્રારંભ કર્યો હતો તે પાછા બેકપ્રોપ પર જઈ રહ્યા હતા, અને તે તમારા માટે પ્રારંભિક બિંદુ તરીકે મહત્વપૂર્ણ હતું?

YL: હા, પણ મને લાગે છે કે લોકો જેના વિશે થોડું ભૂલી ગયા હતા, આના પર ઘણું કામ હતું, તમે જાણો છો, 90 ના દાયકામાં અથવા તો 80 ના દાયકામાં પણ, જેમાં માઈકલ જોર્ડન [MIT ડિપાર્ટમેન્ટ ઓફ બ્રેઈન' જેવા લોકોનો સમાવેશ થાય છે. અને જ્ઞાનાત્મક વિજ્ઞાન] અને તેના જેવા લોકો કે જેઓ હવે ન્યુરલ નેટ નથી કરતા, પરંતુ તમે નિયંત્રણ માટે ન્યુરલ નેટનો ઉપયોગ કરી શકો છો અને તમે શ્રેષ્ઠ નિયંત્રણના શાસ્ત્રીય વિચારોનો ઉપયોગ કરી શકો છો. તેથી, જેને મોડલ-પ્રેડિક્ટિવ કંટ્રોલ કહેવાય છે, જેને હવે મોડલ-પ્રેડિક્ટિવ કંટ્રોલ કહેવામાં આવે છે, આ વિચાર કે જે તમે નિયંત્રિત કરવાનો પ્રયાસ કરી રહ્યાં છો તે સિસ્ટમનું સારું મોડલ હોય તો તમે ક્રિયાઓના ક્રમના પરિણામનું અનુકરણ કરી શકો છો અથવા તેની કલ્પના કરી શકો છો. અને તે જે વાતાવરણમાં છે. અને પછી ઢાળ વંશ દ્વારા, આવશ્યકપણે — આ શીખવાનું નથી, આ અનુમાન છે — તમે સમજી શકો છો કે ક્રિયાઓનો શ્રેષ્ઠ ક્રમ કયો છે જે મારા ઉદ્દેશ્યને ઘટાડી દેશે. તેથી, અનુમાન માટે સુપ્ત ચલ સાથેના ખર્ચ કાર્યનો ઉપયોગ, મને લાગે છે કે, મોટા પાયે ન્યુરલ નેટના વર્તમાન પાકો ભૂલી ગયા છે. પરંતુ તે લાંબા સમયથી મશીન લર્નિંગનું ખૂબ જ શાસ્ત્રીય ઘટક હતું. તેથી, દરેક બાયસિયન નેટ અથવા ગ્રાફિકલ મોડેલ અથવા સંભવિત ગ્રાફિકલ મોડેલ આ પ્રકારના અનુમાનનો ઉપયોગ કરે છે. તમારી પાસે એક મોડેલ છે જે ચલોના સમૂહ વચ્ચેની અવલંબનને કેપ્ચર કરે છે, તમને કેટલાક ચલોનું મૂલ્ય કહેવામાં આવે છે, અને પછી તમારે બાકીના ચલોની સંભવિત કિંમતનું અનુમાન લગાવવું પડશે. તે ગ્રાફિકલ મોડલ્સ અને બેયસિયન નેટ્સ અને તેના જેવી વસ્તુઓમાં અનુમાનનો મૂળ સિદ્ધાંત છે. અને મને લાગે છે કે મૂળભૂત રીતે તર્ક, તર્ક અને આયોજન વિશે શું હોવું જોઈએ.

ZDNet: તમે એક કબાટ Bayesian છો.

YL: હું બિન-સંભવિત બેયેશિયન છું. મેં તે મજાક પહેલા કરી હતી. હું ખરેખર થોડા વર્ષો પહેલા NeurIPS માં હતો, મને લાગે છે કે તે 2018 અથવા 2019 માં હતું, અને મને એક બાયસિયન દ્વારા વિડિયો પર પકડવામાં આવ્યો હતો જેણે મને પૂછ્યું હતું કે શું હું બેયેસિયન છું, અને મેં કહ્યું, હા, હું બેયેશિયન છું, પણ હું જો તમે ઇચ્છો તો હું બિન-સંભવિત બેયેસિયન, સૉર્ટ-ઓફ, ઊર્જા-આધારિત બેયેશિયન છું.

ZDNet: જે ચોક્કસપણે માંથી કંઈક જેવું લાગે છે સ્ટાર ટ્રેક. તમે આ પેપરના અંતમાં ઉલ્લેખ કર્યો છે, તમે જે કલ્પના કરો છો તે સમજવા માટે ખરેખર સખત મહેનતના વર્ષો લાગશે. મને કહો કે આ ક્ષણે તે કેટલાક કાર્યમાં શું છે.

YL: તેથી, હું સમજાવું છું કે તમે પેપરમાં JEPA કેવી રીતે તાલીમ અને બિલ્ડ કરો છો. અને હું જે માપદંડની હિમાયત કરી રહ્યો છું તે માહિતી સામગ્રીને મહત્તમ બનાવવાની કેટલીક રીતો ધરાવે છે કે જે રજૂઆતોમાં ઇનપુટ વિશે છે. અને પછી બીજો એક આગાહી ભૂલને ઘટાડી રહ્યો છે. અને જો તમારી પાસે આગાહી કરનારમાં સુપ્ત ચલ છે જે આગાહી કરનારને બિન-નિશ્ચયવાદી બનવાની મંજૂરી આપે છે, તો તમારે તેની માહિતી સામગ્રીને ઘટાડીને આ સુપ્ત ચલને પણ નિયમિત કરવું પડશે. તેથી, તમારી પાસે હવે બે મુદ્દાઓ છે, જે એ છે કે તમે અમુક ન્યુરલ નેટના આઉટપુટની માહિતી સામગ્રીને કેવી રીતે મહત્તમ કરો છો, અને બીજો એ છે કે તમે કેટલાક સુપ્ત ચલની માહિતી સામગ્રીને કેવી રીતે ઘટાડી શકો છો? અને જો તમે તે બે વસ્તુઓ નહીં કરો, તો સિસ્ટમ પડી ભાંગશે. તે કંઈપણ રસપ્રદ શીખશે નહીં. તે દરેક વસ્તુને શૂન્ય ઊર્જા આપશે, એવું કંઈક, જે નિર્ભરતાનું સારું મોડેલ નથી. તે પતન-નિવારણ સમસ્યા છે જેનો હું ઉલ્લેખ કરું છું.

અને હું તે બધી વસ્તુઓ વિશે કહું છું જે લોકોએ ક્યારેય કર્યું છે, પતન અટકાવવા માટેની પદ્ધતિઓની માત્ર બે શ્રેણીઓ છે. એક વિરોધાભાસી પદ્ધતિઓ છે, અને બીજી તે નિયમિત પદ્ધતિઓ છે. તેથી, બે ઇનપુટ્સની રજૂઆતોની માહિતી સામગ્રીને મહત્તમ કરવાનો અને સુપ્ત ચલની માહિતી સામગ્રીને ઘટાડવાનો આ વિચાર, જે નિયમિત પદ્ધતિઓનો છે. પરંતુ તે સંયુક્ત એમ્બેડિંગ આર્કિટેક્ચરમાં ઘણું કામ વિરોધાભાસી પદ્ધતિઓનો ઉપયોગ કરે છે. હકીકતમાં, તેઓ કદાચ આ ક્ષણે સૌથી વધુ લોકપ્રિય છે. તેથી, પ્રશ્ન એ છે કે તમે માહિતી સામગ્રીને કેવી રીતે માપો છો તે રીતે તમે ઑપ્ટિમાઇઝ અથવા ઘટાડી શકો છો? અને તે તે છે જ્યાં વસ્તુઓ જટિલ બની જાય છે કારણ કે આપણે ખરેખર માહિતી સામગ્રીને કેવી રીતે માપવી તે જાણતા નથી. આપણે તેનો અંદાજ લગાવી શકીએ છીએ, આપણે તેને ઉપરથી બાંધી શકીએ છીએ, આપણે તેના જેવી વસ્તુઓ કરી શકીએ છીએ. પરંતુ તેઓ વાસ્તવમાં માહિતી સામગ્રીને માપતા નથી, જે વાસ્તવમાં, અમુક અંશે સારી રીતે વ્યાખ્યાયિત પણ નથી.

ZDNet: તે શેનોનનો કાયદો નથી? તે માહિતી સિદ્ધાંત નથી? તમારી પાસે ચોક્કસ માત્રામાં એન્ટ્રોપી, સારી એન્ટ્રોપી અને ખરાબ એન્ટ્રોપી છે, અને સારી એન્ટ્રોપી એ એક સિમ્બોલ સિસ્ટમ છે જે કામ કરે છે, ખરાબ એન્ટ્રોપી એ અવાજ છે. શું તે બધું શેનોન દ્વારા ઉકેલવામાં આવતું નથી?

YL: તમે સાચા છો, પરંતુ તેની પાછળ એક મોટી ખામી છે. તમે એ અર્થમાં સાચા છો કે જો તમારી પાસે ડેટા આવી રહ્યો છે અને તમે કોઈક રીતે ડેટાને અલગ પ્રતીકોમાં પરિમાણિત કરી શકો છો, અને પછી તમે તે દરેક પ્રતીકોની સંભાવનાને માપો છો, તો તે પ્રતીકો દ્વારા વહન કરવામાં આવતી માહિતીની મહત્તમ રકમ છે. ના સંભવિત પ્રતીકોનો સરવાળો પી લોગ પી, ખરું ને? જ્યાં Pi પ્રતીકની સંભાવના છે હું - તે શેનોન એન્ટ્રોપી છે. [શેનોનનો કાયદો સામાન્ય રીતે H = – ∑ pi log pi તરીકે ઘડવામાં આવે છે.]

અહીં સમસ્યા છે, જોકે: શું છે Pi? જ્યારે પ્રતીકોની સંખ્યા ઓછી હોય અને પ્રતીકો સ્વતંત્ર રીતે દોરવામાં આવે ત્યારે તે સરળ છે. જ્યારે ઘણા પ્રતીકો અને નિર્ભરતા હોય છે, ત્યારે તે ખૂબ જ મુશ્કેલ છે. તેથી, જો તમારી પાસે બિટ્સનો ક્રમ હોય અને તમે ધારો કે બિટ્સ એકબીજાથી સ્વતંત્ર છે અને સંભાવના એક અને શૂન્ય અથવા ગમે તે વચ્ચે સમાન છે, તો તમે એન્ટ્રોપીને સરળતાથી માપી શકો છો, કોઈ વાંધો નથી. પરંતુ જો તમારી પાસે જે વસ્તુઓ આવે છે તે ઉચ્ચ-પરિમાણીય વેક્ટર છે, જેમ કે, તમે જાણો છો, ડેટા ફ્રેમ્સ અથવા આના જેવું કંઈક, તો શું છે Pi? વિતરણ શું છે? પ્રથમ તમારે તે જગ્યાનું પરિમાણ કરવું પડશે, જે ઉચ્ચ-પરિમાણીય, સતત જગ્યા છે. આને યોગ્ય રીતે કેવી રીતે માપવું તે તમને કોઈ ખ્યાલ નથી. તમે k-મીન્સ વગેરેનો ઉપયોગ કરી શકો છો. જ્યારે લોકો વિડિયો કમ્પ્રેશન અને ઇમેજ કમ્પ્રેશન કરે છે ત્યારે આ તે જ કરે છે. પરંતુ તે માત્ર એક અંદાજ છે. અને પછી તમારે સ્વતંત્રતાની ધારણાઓ કરવી પડશે. તેથી, તે સ્પષ્ટ છે કે વિડિઓમાં, ક્રમિક ફ્રેમ્સ સ્વતંત્ર નથી. ત્યાં અવલંબન છે, અને તે ફ્રેમ તમે એક કલાક પહેલાં જોયેલી બીજી ફ્રેમ પર આધાર રાખે છે, જે સમાન વસ્તુનું ચિત્ર હતું. તેથી, તમે જાણો છો, તમે માપી શકતા નથી Pi. માપવા માટે Pi, તમારી પાસે મશીન લર્નિંગ સિસ્ટમ હોવી જોઈએ જે આગાહી કરવાનું શીખે છે. અને તેથી તમે પાછલી સમસ્યા પર પાછા ફરો. તેથી, તમે આવશ્યકપણે, માત્ર માહિતીના માપનો અંદાજ લગાવી શકો છો.

"પ્રશ્ન એ છે કે તમે માહિતી સામગ્રીને કેવી રીતે માપો છો તે રીતે તમે ઑપ્ટિમાઇઝ અથવા ઘટાડી શકો છો?" LeCun કહે છે. "અને તે તે છે જ્યાં વસ્તુઓ જટિલ બની જાય છે કારણ કે આપણે ખરેખર માહિતી સામગ્રીને કેવી રીતે માપવી તે જાણતા નથી." અત્યાર સુધી જે શ્રેષ્ઠ કરી શકાય છે તે પ્રોક્સી શોધવાનું છે જે "અમે ઈચ્છીએ છીએ તે કાર્ય માટે પૂરતું સારું છે."

મને વધુ નક્કર ઉદાહરણ લેવા દો. એક એલ્ગોરિધમ કે જેની સાથે આપણે રમી રહ્યા છીએ, અને મેં તેના વિશે વાત કરી છે, આ વસ્તુ VICReg કહેવાય છે, variance-invariance-covariance નિયમિતીકરણ. તે એક અલગ પેપરમાં છે જે ICLR પર પ્રકાશિત થયું હતું, અને તે arXiv પર મૂકવામાં આવ્યું હતું લગભગ એક વર્ષ પહેલા, 2021. અને ત્યાંનો વિચાર માહિતીને મહત્તમ કરવાનો છે. અને આ વિચાર વાસ્તવમાં મારા જૂથ દ્વારા બોલાવવામાં આવેલા અગાઉના પેપરમાંથી આવ્યો હતો બાર્લો ટ્વિન્સ. મૂળભૂત રીતે, ચલ વચ્ચેની એકમાત્ર અવલંબન સહસંબંધ, રેખીય અવલંબન છે એમ ધારીને તમે ન્યુરલ નેટમાંથી બહાર આવતા વેક્ટરની માહિતી સામગ્રીને મહત્તમ કરો છો. તેથી, જો તમે ધારો છો કે ચલોની જોડી વચ્ચે અથવા તમારી સિસ્ટમમાં ચલોની વચ્ચે એકમાત્ર નિર્ભરતા શક્ય છે, તે કિંમતી વસ્તુઓની જોડી વચ્ચેનો સહસંબંધ છે, જે અત્યંત રફ અંદાજ છે, તો પછી તમે તમારી સિસ્ટમમાંથી આવતી માહિતી સામગ્રીને મહત્તમ કરી શકો છો. બધા ચલોમાં બિન-શૂન્ય ભિન્નતા છે તેની ખાતરી કરીને — ચાલો કહીએ કે, એક ભિન્નતા, તે શું છે તેનાથી કોઈ ફરક પડતો નથી — અને પછી તેને બેક-કોરિલેટીંગ કરો, તે જ પ્રક્રિયા જેને વ્હાઈટિંગ કહેવામાં આવે છે, તે નવી પણ નથી. આની સાથે સમસ્યા એ છે કે તમારી પાસે ચલોના જૂથો અથવા તો વેરીએબલ્સની માત્ર જોડી વચ્ચે અત્યંત જટિલ નિર્ભરતા હોઈ શકે છે જે રેખીય અવલંબન નથી, અને તે સહસંબંધોમાં દેખાતા નથી. તેથી, ઉદાહરણ તરીકે, જો તમારી પાસે બે ચલો હોય, અને તે બે ચલોના તમામ બિંદુઓ અમુક પ્રકારના સર્પાકારમાં લાઇન કરે, તો તે બે ચલો વચ્ચે ખૂબ જ મજબૂત અવલંબન છે, ખરું ને? પરંતુ હકીકતમાં, જો તમે તે બે ચલો વચ્ચેના સહસંબંધની ગણતરી કરો છો, તો તે સહસંબંધિત નથી. તેથી, અહીં એક ઉદાહરણ છે જ્યાં આ બે ચલોની માહિતી સામગ્રી ખરેખર ખૂબ જ નાની છે, તે માત્ર એક જ જથ્થો છે કારણ કે તે સર્પાકારમાં તમારી સ્થિતિ છે. તેઓ અસંબંધિત છે, તેથી તમને લાગે છે કે તમારી પાસે તે બે ચલોમાંથી ઘણી બધી માહિતી બહાર આવી રહી છે જ્યારે હકીકતમાં તમારી પાસે નથી, તમારી પાસે માત્ર છે, તમે જાણો છો, તમે આવશ્યકપણે, અન્યમાંથી એક ચલની આગાહી કરી શકો છો. તેથી, તે દર્શાવે છે કે માહિતી સામગ્રીને માપવા માટે અમારી પાસે માત્ર ખૂબ જ અંદાજિત રીતો છે.

ZDNet: અને તેથી તે વસ્તુઓમાંથી એક છે કે જેના પર તમારે હવે આ સાથે કામ કરવું પડશે? આ સૌથી મોટો પ્રશ્ન છે કે જ્યારે આપણે માહિતી સામગ્રીને મહત્તમ અને ઘટાડી રહ્યા છીએ ત્યારે આપણે કેવી રીતે જાણી શકીએ?

YL: અથવા અમે આ માટે જે પ્રોક્સીનો ઉપયોગ કરી રહ્યા છીએ તે કાર્ય માટે પૂરતું સારું છે કે નહીં. હકીકતમાં, અમે મશીન લર્નિંગમાં આ બધું કરીએ છીએ. અમે જે ખર્ચ કાર્યોને ઘટાડીએ છીએ તે ક્યારેય એવા નથી કે જેને આપણે ખરેખર ઘટાડવા માંગીએ છીએ. તેથી, ઉદાહરણ તરીકે, તમે વર્ગીકરણ કરવા માંગો છો, ઠીક છે? જ્યારે તમે ક્લાસિફાયરને તાલીમ આપો છો ત્યારે તમે જે ખર્ચ કાર્ય ઘટાડવા માંગો છો તે વર્ગીકૃત કરનાર ભૂલોની સંખ્યા છે. પરંતુ તે એક બિન-વિભેદક, ભયાનક ખર્ચ કાર્ય છે જેને તમે ઘટાડી શકતા નથી કારણ કે તમે જાણો છો કે તમે તમારા ન્યુરલ નેટના વજનમાં ફેરફાર કરવા જઈ રહ્યા છો, જ્યાં સુધી તેમાંથી એક નમૂના તેના નિર્ણયને ફ્લિપ ન કરે ત્યાં સુધી કંઈપણ બદલાશે નહીં, અને પછી એક કૂદકો ભૂલમાં, હકારાત્મક અથવા નકારાત્મક.

ZDNet: તેથી તમારી પાસે એક પ્રોક્સી છે જે એક ઉદ્દેશ્ય કાર્ય છે જે તમે ચોક્કસપણે કહી શકો છો, અમે ચોક્કસપણે આ વસ્તુના ગ્રેડિએન્ટ્સને પ્રવાહિત કરી શકીએ છીએ.

YL: તે સાચું છે. તેથી લોકો આ ક્રોસ-એન્ટ્રોપી લોસ, અથવા સોફ્ટમેક્સનો ઉપયોગ કરે છે, તમારી પાસે તેના માટે ઘણા નામ છે, પરંતુ તે એક જ વસ્તુ છે. અને તે મૂળભૂત રીતે સિસ્ટમ દ્વારા કરવામાં આવતી ભૂલોની સંખ્યાનો સરળ અંદાજ છે, જ્યાં સ્મૂથિંગ કરવામાં આવે છે, મૂળભૂત રીતે, સિસ્ટમ દરેક કેટેગરીને જે સ્કોર આપે છે તેને ધ્યાનમાં રાખીને.

ZDNet: શું એવી કોઈ વસ્તુ છે જે અમે આવરી લીધી નથી જે તમે આવરી લેવા માંગો છો?

YL: તે કદાચ મુખ્ય મુદ્દાઓ પર ભાર મૂકે છે. મને લાગે છે કે AI પ્રણાલીઓએ તર્ક કરવા માટે સક્ષમ બનવાની જરૂર છે, અને આ માટે હું જે પ્રક્રિયાની હિમાયત કરી રહ્યો છું તે કેટલાક સુપ્ત ચલના સંદર્ભમાં કેટલાક ઉદ્દેશ્યને ઘટાડી રહી છે. તે સિસ્ટમોને યોજના અને તર્ક માટે પરવાનગી આપે છે. મને લાગે છે કે આપણે સંભવિત માળખું છોડી દેવું જોઈએ કારણ કે જ્યારે આપણે ઉચ્ચ-પરિમાણીય, સતત ચલો વચ્ચે કેપ્ચર ડિપેન્ડન્સી જેવી વસ્તુઓ કરવા માંગીએ છીએ ત્યારે તે અવ્યવસ્થિત છે. અને હું જનરેટિવ મોડલ્સને છોડી દેવાની હિમાયત કરું છું કારણ કે સિસ્ટમને એવી વસ્તુઓની આગાહી કરવા માટે ઘણા બધા સંસાધનો ફાળવવા પડશે કે જેની આગાહી કરવી ખૂબ મુશ્કેલ છે અને કદાચ વધુ પડતા સંસાધનોનો ઉપયોગ કરે છે. અને તે ખૂબ જ છે. જો તમે ઇચ્છો તો તે મુખ્ય સંદેશાઓ છે. અને પછી એકંદર આર્કિટેક્ચર. પછી ચેતનાની પ્રકૃતિ અને રૂપરેખાકારની ભૂમિકા વિશે તે અટકળો છે, પરંતુ આ ખરેખર અનુમાન છે.

ZDNet: અમે તેને આગલી વખતે મળીશું. હું તમને પૂછવા જઈ રહ્યો હતો કે તમે આ વસ્તુને કેવી રીતે બેન્ચમાર્ક કરો છો? પરંતુ હું માનું છું કે તમે હમણાં બેન્ચમાર્કિંગથી થોડા આગળ છો?

YL: જરૂરી નથી કે તે દૂર, સૉર્ટ-ઓફ, સરળ સંસ્કરણોમાં હોય. તમે એ કરી શકો છો જે દરેક વ્યક્તિ નિયંત્રણ અથવા મજબૂતીકરણના શિક્ષણમાં કરે છે, એટલે કે, તમે એટારી રમતો અથવા તેના જેવું કંઈક અથવા અન્ય કોઈ રમત રમવાની તાલીમ આપો છો જેમાં કેટલીક અનિશ્ચિતતા હોય છે.

ZDNet: તમારા સમય માટે આભાર, યાન.

સોર્સ

સેમસંગ ગેલેક્સી S24 એક કી કેમેરા અપગ્રેડ પર ગુમ થવાની અફવા છે
Realme C51 સૂચવે છે મીની કેપ્સ્યુલ સુવિધા; 50-મેગાપિક્સલ ડ્યુઅલ રીઅર કેમેરા ટિપ કરેલ
Google ડૉક્સ ફિશિંગ કૌભાંડો વધી રહ્યા છે – તમારે જે જાણવાની જરૂર છે તે અહીં છે
જ્હોન વિક પ્રિક્વલ સિરીઝ ધ કોન્ટિનેંટલ 22 સપ્ટેમ્બરના રોજ પ્રાઇમ વિડિયો પર શરૂ થશે
સેમસંગ ગેલેક્સી વોચ 6; ત્રણ વસ્તુઓ આપણે જોવા માંગીએ છીએ (અને એક આપણે નથી)
Paytm વર્ષના અંત સુધીમાં મફત રોકડ પ્રવાહ જનરેટ કરવાની અપેક્ષા રાખે છે: CEO વિજય શેખર શર્મા

અગાઉના પોસ્ટ

આગળ પોસ્ટ

Keep Calm and Stay Smart
04:29

અમારી ટીમ અમારા પોતાના સલાહકારો અને બિઝનેસ લીડર્સની પેનલ દ્વારા દર વર્ષે સેંકડો સોફ્ટવેર, સેવાઓ અને બિઝનેસ વ્યૂહરચનાઓનું વ્યાવસાયિક રીતે પરીક્ષણ કરે છે.
અમે ફક્ત ઉચ્ચતમ ખર્ચ-લાભ ગુણોત્તર સાથે સખત ઉકેલો પસંદ કરીએ છીએ જેઓ ઉપયોગમાં સરળ છે, જેઓ કોઈપણ પ્રકારની સંસ્થામાં યોગ્ય રીતે એકીકૃત થાય છે અને જે તમને તમારા વ્યવસાય ક્ષેત્રમાં ટોચ પર રહેવાની ખાતરી કરવા માટે અગ્રણી સુવિધાઓનો સમાવેશ કરે છે.

English

Arabic Belarusian Bengali Bosnian Bulgarian Chinese (Simplified) Croatian Czech Danish Dutch English Estonian Filipino Finnish French Georgian German Greek Gujarati Hausa Hebrew Hindi Hmong Hungarian Igbo Indonesian Italian Japanese Javanese Kazakh Korean Kurdish (Kurmanji) Kyrgyz Lao Latvian Lithuanian Macedonian Malagasy Norwegian Persian Polish Portuguese Punjabi Romanian Russian Serbian Slovak Slovenian Spanish Swedish Thai Turkish Ukrainian Vietnamese Yoruba

2024 માં સોફ્ટવેર હોવું આવશ્યક છે

1Password

Calendly

ClickCease

Crowdfire

Evernote

Leadfeeder

Malwarebytes

Monday.com

Pipedrive

QuickBooks

Rytr

Shift

Zutrix

શીર્ષ કેટેગરીઝ

ઍનલિટિક્સ

સહકાર

કોમ્યુનિકેશન

ગ્રાહક સેવા અને CRM

નાણાં

માનવ સંસાધન

આઇટી અને સુરક્ષા

માર્કેટિંગ

વેબ સોલ્યુશન્સ

નવીનતમ સમીક્ષાઓ

સેમસંગ ગેલેક્સી ઝેડ ફ્લિપ 5 ટીઝર વિડિયો, ગેલેક્સી અનપેક્ડ ઇવેન્ટની આગળ, નવી હિંગ ડિઝાઇન, રંગ વિકલ્પો બતાવે છે

ટ્વિટર વણચકાસાયેલ વપરાશકર્તાઓ મોકલી શકે તેવા DMsની સંખ્યાને મર્યાદિત કરી રહ્યું છે

મારો મનપસંદ એન્ડ્રોઇડ ફોન એ વસ્તુઓ કરી શકે છે જે મારો iPhone 14 Pro Max કરી શકતો નથી

એન્ડ્રોઇડ માટે ChatGPT આવતા અઠવાડિયે શરૂ થઈ રહ્યું છે, અને તમે હમણાં જ પ્રી-નોંધણી કરી શકો છો

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A Google TV સાથે, 20W સ્પીકર્સ ભારતમાં લૉન્ચ થયા: : કિંમત, વિશિષ્ટતાઓ

આ ખાદ્ય બેટરી ડાયગ્નોસ્ટિક્સ અને ટકાઉ ઊર્જાની દુનિયાને શક્તિ આપી શકે છે

બધા ઉત્પાદનો પસંદ કરવામાં આવે છે અને સ્વતંત્ર રીતે સમીક્ષા કરવામાં આવે છે. જો તમે સંલગ્ન લિંક્સ દ્વારા ખરીદી કરો છો, તો રેફરી સંલગ્નને એક કમિશન ઓફર કરવામાં આવી શકે છે, જે તેના કાર્યને સમર્થન આપે છે.

© 2024 smartMILE & કું. સર્વાધિકાર સુરક્ષિત. ગોપનીયતા નીતિ.
® smartMILE એન્ડ કંપની એ નોંધાયેલ ટ્રેડમાર્ક છે.

Linkedin Instagram ફેસબુક-એફ Twitter યૂટ્યૂબ Pinterest

કાર્ટ

ફેસબુક

Twitter

WhatsApp

Telegram

LinkedIn

Tumblr

VKontakte

મેલ

લિંક કૉપિ કરો