ડીપમાઇન્ડનું 'ગાટો' સાધારણ છે, તો તેઓએ તેને કેમ બનાવ્યું?

deepmind-gato-slash-image-closer-in.png

ડીપમાઇન્ડનું "ગેટો" ન્યુરલ નેટવર્ક બ્લોક્સને સ્ટેક કરતા રોબોટિક આર્મ્સને નિયંત્રિત કરવા, અટારી 2600 ગેમ્સ રમવા અને છબીઓને કૅપ્શન આપવા સહિત અસંખ્ય કાર્યોમાં શ્રેષ્ઠ છે.


Deepmind

કૃત્રિમ બુદ્ધિમત્તાના ઊંડા શિક્ષણ સ્વરૂપો દ્વારા નવીનતમ પ્રગતિ વિશેની હેડલાઇન્સ જોવા માટે વિશ્વ ટેવાયેલું છે. ગૂગલના ડીપમાઇન્ડ ડિવિઝનની નવીનતમ સિદ્ધિ, જો કે, "એક AI પ્રોગ્રામ જે ઘણી બધી બાબતોમાં આટલું કામ કરે છે" તરીકે સારાંશ આપી શકાય છે. 

ગાટો, જેમ કે ડીપ માઇન્ડના પ્રોગ્રામને કહેવામાં આવે છે, આ અઠવાડિયે અનાવરણ કરવામાં આવ્યું હતું કહેવાતા મલ્ટિમોડલ પ્રોગ્રામ તરીકે, જે વિડિયો ગેમ્સ રમી શકે છે, ચેટ કરી શકે છે, રચનાઓ લખી શકે છે, ચિત્રો કેપ્શન કરી શકે છે અને રોબોટિક આર્મ સ્ટેકીંગ બ્લોક્સને નિયંત્રિત કરી શકે છે. તે એક ન્યુરલ નેટવર્ક છે જે બહુવિધ પ્રકારના કાર્યો કરવા માટે બહુવિધ પ્રકારના ડેટા સાથે કામ કરી શકે છે. 

"વજનના એક જ સેટ સાથે, ગેટો સંવાદ, કૅપ્શન ઈમેજો, વાસ્તવિક રોબોટ હાથ વડે બ્લોક્સ સ્ટેક કરી શકે છે, અટારી ગેમ રમવામાં માણસોને પાછળ રાખી શકે છે, સિમ્યુલેટેડ 3D વાતાવરણમાં નેવિગેટ કરી શકે છે, સૂચનાઓનું પાલન કરી શકે છે અને વધુ," મુખ્ય લેખક સ્કોટ રીડ લખો. અને તેમના પેપરમાં સહકર્મીઓ, "એક જનરલિસ્ટ એજન્ટ," Arxiv પ્રીપ્રિન્ટ સર્વર પર પોસ્ટ કર્યું

ડીપમાઇન્ડના સહ-સ્થાપક ડેમિસ હાસાબીસે ટીમને ઉત્સાહિત કર્યો, એક ટ્વિટમાં ઉદ્ગાર, “અમારો સૌથી સામાન્ય એજન્ટ હજુ સુધી!! ટીમ તરફથી અદ્ભુત કાર્ય!” 

પણ: એક નવો પ્રયોગ: શું AI ખરેખર બિલાડીઓ કે કૂતરાઓને ઓળખે છે — અથવા કંઈપણ?

એકમાત્ર કેચ એ છે કે ગેટો વાસ્તવમાં ઘણા કાર્યોમાં એટલા મહાન નથી. 

એક તરફ, આ પ્રોગ્રામ એક સમર્પિત મશીન લર્નિંગ પ્રોગ્રામ કરતાં વધુ સારી રીતે કાર્ય કરવા સક્ષમ છે અને રોબોટિક સોયર આર્મને નિયંત્રિત કરે છે જે બ્લોક્સને સ્ટેક કરે છે. બીજી બાજુ, તે છબીઓ માટે કૅપ્શન્સ બનાવે છે જે ઘણા કિસ્સાઓમાં ખૂબ જ નબળી હોય છે. માનવ ઇન્ટરલોક્યુટર સાથે પ્રમાણભૂત ચેટ સંવાદમાં તેની ક્ષમતા એ જ રીતે સામાન્ય છે, કેટલીકવાર વિરોધાભાસી અને અર્થહીન ઉચ્ચારણોને બહાર કાઢે છે. 

અને તેનું એટારી 2600 વિડિયો ગેમ્સ રમવાનું બેન્ચમાર્કમાં સ્પર્ધા કરવા માટે રચાયેલ મોટાભાગના સમર્પિત ML પ્રોગ્રામ્સ કરતા નીચે આવે છે. આર્કેડ લર્નિંગ પર્યાવરણ

શા માટે તમે એક પ્રોગ્રામ બનાવશો જે કેટલીક સામગ્રી ખૂબ સારી રીતે કરે છે અને અન્ય વસ્તુઓનો સમૂહ એટલી સારી રીતે નથી? પૂર્વવર્તી, અને અપેક્ષા, લેખકો અનુસાર. 

AI માં વધુ સામાન્ય પ્રકારનાં પ્રોગ્રામ્સ અદ્યતન બનતા હોવાનો દાખલો છે, અને એવી અપેક્ષા છે કે કોમ્પ્યુટીંગ પાવરની વધતી જતી માત્રા ભવિષ્યમાં ખામીઓને પૂર્ણ કરશે. 

AI માં સામાન્યતાનો વિજય થઈ શકે છે. લેખકો નોંધે છે તેમ, AI વિદ્વાન રિચાર્ડ સટનને ટાંકીને, "ઐતિહાસિક રીતે, સામાન્ય મોડેલો કે જે ગણતરીનો લાભ ઉઠાવવા માટે વધુ સારા છે તે પણ છેવટે વધુ વિશિષ્ટ ડોમેન-વિશિષ્ટ અભિગમોને પાછળ છોડી દે છે."

જેમ સટન લખ્યું હતું તેમના પોતાના બ્લોગ પોસ્ટમાં, "70 વર્ષના AI સંશોધનમાંથી વાંચી શકાય તેવો સૌથી મોટો પાઠ એ છે કે સામાન્ય પદ્ધતિઓ કે જે ગણતરીનો લાભ લે છે તે આખરે સૌથી વધુ અસરકારક છે, અને મોટા માર્જિનથી."

ઔપચારિક થીસીસમાં મૂકો, રીડ અને ટીમ લખે છે કે “અમે અહીં એવી પૂર્વધારણાનું પરીક્ષણ કરીએ છીએ કે એજન્ટને તાલીમ આપી શકાય છે જે સામાન્ય રીતે મોટી સંખ્યામાં કાર્યો કરવા સક્ષમ હોય; અને આ સામાન્ય એજન્ટને વધુ મોટી સંખ્યામાં કાર્યોમાં સફળ થવા માટે થોડા વધારાના ડેટા સાથે અનુકૂલિત કરી શકાય છે.”

પણ: Meta's AI લ્યુમિનરી LeCun ડીપ લર્નિંગની એનર્જી ફ્રન્ટિયરની શોધ કરે છે

મોડેલ, આ કિસ્સામાં, ખરેખર, ખૂબ સામાન્ય છે. તે ટ્રાન્સફોર્મરનું વર્ઝન છે, જે પ્રબળ પ્રકારનું ધ્યાન-આધારિત મોડેલ છે જે GPT-3 સહિત અસંખ્ય પ્રોગ્રામ્સનો આધાર બની ગયું છે. ટ્રાન્સફોર્મર અમુક તત્વની સંભાવનાને મોડેલ કરે છે જે તેની આસપાસના તત્વોને જોતા હોય છે જેમ કે વાક્યમાંના શબ્દો. 

ગેટોના કિસ્સામાં, ડીપમાઇન્ડ વૈજ્ઞાનિકો અસંખ્ય ડેટા પ્રકારો પર સમાન શરતી સંભાવના શોધનો ઉપયોગ કરવામાં સક્ષમ છે. 

જેમ રીડ અને સાથીદારો ગેટોને તાલીમ આપવાના કાર્યનું વર્ણન કરે છે, 

ગેટોના પ્રશિક્ષણ તબક્કા દરમિયાન, વિવિધ કાર્યો અને પદ્ધતિઓમાંથી ડેટાને ટોકન્સના સપાટ ક્રમમાં ક્રમાંકિત કરવામાં આવે છે, બેચ કરવામાં આવે છે અને મોટા ભાષાના મોડેલની જેમ જ ટ્રાન્સફોર્મર ન્યુરલ નેટવર્ક દ્વારા પ્રક્રિયા કરવામાં આવે છે. નુકસાનને ઢાંકવામાં આવે છે જેથી ગેટો માત્ર ક્રિયા અને ટેક્સ્ટ લક્ષ્યોની આગાહી કરે છે.

ગેટો, બીજા શબ્દોમાં કહીએ તો, ટોકન્સને અલગ રીતે વર્તે નથી, પછી ભલે તે ચેટમાંના શબ્દો હોય કે બ્લોક-સ્ટેકિંગ કવાયતમાં મૂવમેન્ટ વેક્ટર હોય. તે બધા સમાન છે. 

deepmind-how-gato-is-trained.png

ગેટો તાલીમ દૃશ્ય.


રીડ એટ અલ. 2022

રીડની અંદર દફનાવવામાં આવે છે અને ટીમની પૂર્વધારણા એ એક પરિણામ છે, એટલે કે વધુ અને વધુ કમ્પ્યુટિંગ શક્તિ આખરે જીતશે. અત્યારે, ગેટો એ સોયર રોબોટ હાથના પ્રતિભાવ સમય દ્વારા મર્યાદિત છે જે બ્લોક સ્ટેકીંગ કરે છે. 1.18 બિલિયન નેટવર્ક પેરામીટર્સ પર, ગેટો એ GPT-3 જેવા ખૂબ મોટા AI મોડલ્સ કરતાં ઘણું નાનું છે. જેમ જેમ ડીપ લર્નિંગ મૉડલ્સ મોટા થતા જાય છે તેમ, અનુમાન કરવાથી વિલંબ થાય છે જે વાસ્તવિક દુનિયાના રોબોટની બિન-નિર્ધારિત દુનિયામાં નિષ્ફળ થઈ શકે છે. 

પરંતુ, રીડ અને સહકાર્યકરો અપેક્ષા રાખે છે કે AI હાર્ડવેર પ્રોસેસિંગમાં ઝડપી બને તે રીતે તે મર્યાદાને વટાવી દેવામાં આવશે.

"અમે અમારી તાલીમને મોડલ સ્કેલના ઓપરેટિંગ પોઈન્ટ પર ફોકસ કરીએ છીએ જે રીઅલ-વર્લ્ડ રોબોટ્સના રીઅલ-ટાઇમ નિયંત્રણને મંજૂરી આપે છે, હાલમાં ગેટોના કિસ્સામાં લગભગ 1.2B પરિમાણો છે," તેઓએ લખ્યું. "જેમ જેમ હાર્ડવેર અને મોડલ આર્કિટેક્ચરમાં સુધારો થાય છે તેમ, આ ઓપરેટિંગ પોઈન્ટ સ્વાભાવિક રીતે શક્ય મોડેલના કદમાં વધારો કરશે, જે સામાન્યવાદી મોડલ્સને સ્કેલિંગ કાયદાના વળાંકને ઊંચો ધકેલશે."

આથી, ગેટો ખરેખર એક મોડેલ છે કે કેવી રીતે સામાન્ય મોડલ્સને મોટા અને મોટા બનાવીને, મશીન લર્નિંગ ડેવલપમેન્ટના મુખ્ય વેક્ટર તરીકે કમ્પ્યુટનું સ્કેલ ચાલુ રહેશે. બીજા શબ્દોમાં કહીએ તો, વધુ સારું છે. 

deepmind-gets-better-with-scale.png

પેરામીટર્સમાં ન્યુરલ નેટવર્કનું કદ વધવાથી ગેટો વધુ સારું થાય છે.


રીડ એટ અલ. 2022

અને લેખકો પાસે આ માટે કેટલાક પુરાવા છે. ગેટો જેમ જેમ મોટો થતો જાય છે તેમ તેમ વધુ સારું થતું જણાય છે. તેઓ માપદંડો અનુસાર, 79 મિલિયન, 364 મિલિયન અને મુખ્ય મોડેલ, 1.18 બિલિયન, ત્રણ કદના મોડેલ માટે તમામ બેન્ચમાર્ક કાર્યોમાં સરેરાશ સ્કોર્સની તુલના કરે છે. "અમે જોઈ શકીએ છીએ કે સમકક્ષ ટોકન ગણતરી માટે, વધેલા સ્કેલ સાથે નોંધપાત્ર કામગીરી સુધારણા છે," લેખકો લખે છે. 

એક રસપ્રદ ભાવિ પ્રશ્ન એ છે કે શું એક પ્રોગ્રામ જે જનરલિસ્ટ છે તે અન્ય પ્રકારના AI પ્રોગ્રામ્સ કરતાં વધુ ખતરનાક છે. લેખકો પેપરમાં એ હકીકતની ચર્ચા કરવામાં ઘણો સમય વિતાવે છે કે સંભવિત જોખમો હજુ સુધી સારી રીતે સમજી શક્યા નથી.  

એક પ્રોગ્રામનો વિચાર જે બહુવિધ કાર્યોનું સંચાલન કરે છે તે સામાન્ય વ્યક્તિને એક પ્રકારની માનવ અનુકૂલનક્ષમતા સૂચવે છે, પરંતુ તે એક ખતરનાક ગેરસમજ હોઈ શકે છે. "ઉદાહરણ તરીકે, ભૌતિક મૂર્ત સ્વરૂપ વપરાશકર્તાઓને એજન્ટને માનવશાસ્ત્ર તરફ દોરી શકે છે, જે ખામીયુક્ત સિસ્ટમના કિસ્સામાં ખોટો વિશ્વાસ તરફ દોરી શકે છે અથવા ખરાબ અભિનેતાઓ દ્વારા શોષણ કરી શકે છે," રીડ અને ટીમ લખે છે. 

"વધુમાં, જ્યારે ક્રોસ-ડોમેન જ્ઞાન ટ્રાન્સફર એ ML સંશોધનમાં ઘણીવાર એક ધ્યેય હોય છે, તે અણધારી અને અનિચ્છનીય પરિણામોનું સર્જન કરી શકે છે જો અમુક વર્તણૂકો (દા.ત. આર્કેડ ગેમ ફાઇટીંગ) ખોટા સંદર્ભમાં સ્થાનાંતરિત થાય છે."

તેથી, તેઓ લખે છે, "જ્ઞાન સ્થાનાંતરણની નૈતિકતા અને સલામતીના વિચારણાઓ માટે સામાન્યવાદી પ્રણાલીઓ આગળ વધતાં નોંધપાત્ર નવા સંશોધનની જરૂર પડી શકે છે."

(એક રસપ્રદ બાજુની નોંધ તરીકે, ગેટો પેપર ભૂતપૂર્વ Google AI સંશોધક માર્ગારેટ મિશેલ અને સાથીદારો દ્વારા ઘડવામાં આવેલા જોખમનું વર્ણન કરવા માટે એક યોજનાનો ઉપયોગ કરે છે, જેને મોડલ કાર્ડ્સ કહેવાય છે. મોડલ કાર્ડ્સ એઆઈ પ્રોગ્રામ શું છે, તે શું કરે છે અને શું કરે છે તેનો સંક્ષિપ્ત સારાંશ આપે છે. પરિબળો તે કેવી રીતે કાર્ય કરે છે તેના પર અસર કરે છે. મિશેલે ગયા વર્ષે લખ્યું હતું કે તેણીને તેના ભૂતપૂર્વ સાથીદાર, ટિમ્નીટ ગેબ્રુને ટેકો આપવા બદલ Googleમાંથી બહાર કાઢવાની ફરજ પાડવામાં આવી હતી, જેમની AI પરની નૈતિક ચિંતાઓ Google ની AI નેતૃત્વથી ખરાબ હતી.)

ગેટો તેની સામાન્યીકરણની વૃત્તિમાં કોઈ પણ રીતે અનન્ય નથી. તે સામાન્યીકરણના વ્યાપક વલણનો એક ભાગ છે અને મોટા મોડલ કે જે હોર્સપાવરની ડોલનો ઉપયોગ કરે છે. ગયા ઉનાળામાં વિશ્વને આ દિશામાં Google ના ઝુકાવનો પ્રથમ સ્વાદ મળ્યો, Google ના "Perceiver" ન્યુરલ નેટવર્ક સાથે જે ટેક્સ્ટ ટ્રાન્સફોર્મર કાર્યોને છબીઓ, ધ્વનિ અને LiDAR અવકાશી સંકલન સાથે જોડે છે.

પણ: ગૂગલનું સુપરમોડેલ: ડીપમાઇન્ડ પર્સીવર એ એઆઈ મશીન તરફનું એક પગલું છે જે કંઈપણ અને દરેક વસ્તુ પર પ્રક્રિયા કરી શકે છે

તેના સાથીદારોમાં PaLM છે, પાથવેઝ લેંગ્વેજ મોડલ, Google વૈજ્ઞાનિકો દ્વારા આ વર્ષે રજૂ કરવામાં આવ્યું હતું, 540-બિલિયન પેરામીટર મોડલ જે હજારો ચિપ્સના સંકલન માટે નવી ટેકનોલોજીનો ઉપયોગ કરે છે, પાથવે તરીકે ઓળખાય છે, Google માં પણ શોધ કરી હતી. મેટા દ્વારા જાન્યુઆરીમાં બહાર પાડવામાં આવેલ ન્યુરલ નેટવર્ક, જેને "ડેટા2વેક" કહેવામાં આવે છે, તે ઇમેજ ડેટા, સ્પીચ ઓડિયો વેવફોર્મ્સ અને ટેક્સ્ટ ભાષાની રજૂઆતો માટે ટ્રાન્સફોર્મર્સનો ઉપયોગ કરે છે. 

ગેટો વિશે નવું શું છે, એવું લાગે છે કે, નોન-રોબોટિક્સ કાર્યો માટે ઉપયોગમાં લેવાતા AI લેવાનો અને તેને રોબોટિક્સ ક્ષેત્રમાં લાવવાનો હેતુ છે.

ગેટોના નિર્માતાઓ, પાથવેઝની સિદ્ધિઓ અને અન્ય સામાન્યવાદી અભિગમોની નોંધ લેતા, AI માં અંતિમ સિદ્ધિ જુએ છે જે કોઈપણ પ્રકારના કાર્યો સાથે વાસ્તવિક દુનિયામાં કાર્ય કરી શકે છે. 

"ભવિષ્યના કાર્યમાં આ ટેક્સ્ટ ક્ષમતાઓને એક સંપૂર્ણ સામાન્યવાદી એજન્ટમાં કેવી રીતે એકીકૃત કરવી તે ધ્યાનમાં લેવું જોઈએ જે વાસ્તવિક વિશ્વમાં, વિવિધ વાતાવરણ અને મૂર્ત સ્વરૂપોમાં વાસ્તવિક સમયમાં કાર્ય કરી શકે છે." 

પછી, તમે ગેટોને AI ની સૌથી મુશ્કેલ સમસ્યા, રોબોટિક્સ ઉકેલવાના માર્ગ પર એક મહત્વપૂર્ણ પગલું ગણી શકો છો. 



સોર્સ