ડીપમાઇન્ડનું 'ગાટો' સાધારણ છે, તો તેઓએ તેને કેમ બનાવ્યું?

ડીપમાઇન્ડનું "ગેટો" ન્યુરલ નેટવર્ક બ્લોક્સને સ્ટેક કરતા રોબોટિક આર્મ્સને નિયંત્રિત કરવા, અટારી 2600 ગેમ્સ રમવા અને છબીઓને કૅપ્શન આપવા સહિત અસંખ્ય કાર્યોમાં શ્રેષ્ઠ છે.

Deepmind

કૃત્રિમ બુદ્ધિમત્તાના ઊંડા શિક્ષણ સ્વરૂપો દ્વારા નવીનતમ પ્રગતિ વિશેની હેડલાઇન્સ જોવા માટે વિશ્વ ટેવાયેલું છે. ગૂગલના ડીપમાઇન્ડ ડિવિઝનની નવીનતમ સિદ્ધિ, જો કે, "એક AI પ્રોગ્રામ જે ઘણી બધી બાબતોમાં આટલું કામ કરે છે" તરીકે સારાંશ આપી શકાય છે.

ગાટો, જેમ કે ડીપ માઇન્ડના પ્રોગ્રામને કહેવામાં આવે છે, આ અઠવાડિયે અનાવરણ કરવામાં આવ્યું હતું કહેવાતા મલ્ટિમોડલ પ્રોગ્રામ તરીકે, જે વિડિયો ગેમ્સ રમી શકે છે, ચેટ કરી શકે છે, રચનાઓ લખી શકે છે, ચિત્રો કેપ્શન કરી શકે છે અને રોબોટિક આર્મ સ્ટેકીંગ બ્લોક્સને નિયંત્રિત કરી શકે છે. તે એક ન્યુરલ નેટવર્ક છે જે બહુવિધ પ્રકારના કાર્યો કરવા માટે બહુવિધ પ્રકારના ડેટા સાથે કામ કરી શકે છે.

"વજનના એક જ સેટ સાથે, ગેટો સંવાદ, કૅપ્શન ઈમેજો, વાસ્તવિક રોબોટ હાથ વડે બ્લોક્સ સ્ટેક કરી શકે છે, અટારી ગેમ રમવામાં માણસોને પાછળ રાખી શકે છે, સિમ્યુલેટેડ 3D વાતાવરણમાં નેવિગેટ કરી શકે છે, સૂચનાઓનું પાલન કરી શકે છે અને વધુ," મુખ્ય લેખક સ્કોટ રીડ લખો. અને તેમના પેપરમાં સહકર્મીઓ, "એક જનરલિસ્ટ એજન્ટ," Arxiv પ્રીપ્રિન્ટ સર્વર પર પોસ્ટ કર્યું.

ડીપમાઇન્ડના સહ-સ્થાપક ડેમિસ હાસાબીસે ટીમને ઉત્સાહિત કર્યો, એક ટ્વિટમાં ઉદ્ગાર, “અમારો સૌથી સામાન્ય એજન્ટ હજુ સુધી!! ટીમ તરફથી અદ્ભુત કાર્ય!”

પણ: એક નવો પ્રયોગ: શું AI ખરેખર બિલાડીઓ કે કૂતરાઓને ઓળખે છે — અથવા કંઈપણ?

એકમાત્ર કેચ એ છે કે ગેટો વાસ્તવમાં ઘણા કાર્યોમાં એટલા મહાન નથી.

એક તરફ, આ પ્રોગ્રામ એક સમર્પિત મશીન લર્નિંગ પ્રોગ્રામ કરતાં વધુ સારી રીતે કાર્ય કરવા સક્ષમ છે અને રોબોટિક સોયર આર્મને નિયંત્રિત કરે છે જે બ્લોક્સને સ્ટેક કરે છે. બીજી બાજુ, તે છબીઓ માટે કૅપ્શન્સ બનાવે છે જે ઘણા કિસ્સાઓમાં ખૂબ જ નબળી હોય છે. માનવ ઇન્ટરલોક્યુટર સાથે પ્રમાણભૂત ચેટ સંવાદમાં તેની ક્ષમતા એ જ રીતે સામાન્ય છે, કેટલીકવાર વિરોધાભાસી અને અર્થહીન ઉચ્ચારણોને બહાર કાઢે છે.

અને તેનું એટારી 2600 વિડિયો ગેમ્સ રમવાનું બેન્ચમાર્કમાં સ્પર્ધા કરવા માટે રચાયેલ મોટાભાગના સમર્પિત ML પ્રોગ્રામ્સ કરતા નીચે આવે છે. આર્કેડ લર્નિંગ પર્યાવરણ.

શા માટે તમે એક પ્રોગ્રામ બનાવશો જે કેટલીક સામગ્રી ખૂબ સારી રીતે કરે છે અને અન્ય વસ્તુઓનો સમૂહ એટલી સારી રીતે નથી? પૂર્વવર્તી, અને અપેક્ષા, લેખકો અનુસાર.

AI માં વધુ સામાન્ય પ્રકારનાં પ્રોગ્રામ્સ અદ્યતન બનતા હોવાનો દાખલો છે, અને એવી અપેક્ષા છે કે કોમ્પ્યુટીંગ પાવરની વધતી જતી માત્રા ભવિષ્યમાં ખામીઓને પૂર્ણ કરશે.

AI માં સામાન્યતાનો વિજય થઈ શકે છે. લેખકો નોંધે છે તેમ, AI વિદ્વાન રિચાર્ડ સટનને ટાંકીને, "ઐતિહાસિક રીતે, સામાન્ય મોડેલો કે જે ગણતરીનો લાભ ઉઠાવવા માટે વધુ સારા છે તે પણ છેવટે વધુ વિશિષ્ટ ડોમેન-વિશિષ્ટ અભિગમોને પાછળ છોડી દે છે."

જેમ સટન લખ્યું હતું તેમના પોતાના બ્લોગ પોસ્ટમાં, "70 વર્ષના AI સંશોધનમાંથી વાંચી શકાય તેવો સૌથી મોટો પાઠ એ છે કે સામાન્ય પદ્ધતિઓ કે જે ગણતરીનો લાભ લે છે તે આખરે સૌથી વધુ અસરકારક છે, અને મોટા માર્જિનથી."

ઔપચારિક થીસીસમાં મૂકો, રીડ અને ટીમ લખે છે કે “અમે અહીં એવી પૂર્વધારણાનું પરીક્ષણ કરીએ છીએ કે એજન્ટને તાલીમ આપી શકાય છે જે સામાન્ય રીતે મોટી સંખ્યામાં કાર્યો કરવા સક્ષમ હોય; અને આ સામાન્ય એજન્ટને વધુ મોટી સંખ્યામાં કાર્યોમાં સફળ થવા માટે થોડા વધારાના ડેટા સાથે અનુકૂલિત કરી શકાય છે.”

પણ: Meta's AI લ્યુમિનરી LeCun ડીપ લર્નિંગની એનર્જી ફ્રન્ટિયરની શોધ કરે છે

મોડેલ, આ કિસ્સામાં, ખરેખર, ખૂબ સામાન્ય છે. તે ટ્રાન્સફોર્મરનું વર્ઝન છે, જે પ્રબળ પ્રકારનું ધ્યાન-આધારિત મોડેલ છે જે GPT-3 સહિત અસંખ્ય પ્રોગ્રામ્સનો આધાર બની ગયું છે. ટ્રાન્સફોર્મર અમુક તત્વની સંભાવનાને મોડેલ કરે છે જે તેની આસપાસના તત્વોને જોતા હોય છે જેમ કે વાક્યમાંના શબ્દો.

ગેટોના કિસ્સામાં, ડીપમાઇન્ડ વૈજ્ઞાનિકો અસંખ્ય ડેટા પ્રકારો પર સમાન શરતી સંભાવના શોધનો ઉપયોગ કરવામાં સક્ષમ છે.

જેમ રીડ અને સાથીદારો ગેટોને તાલીમ આપવાના કાર્યનું વર્ણન કરે છે,

ગેટોના પ્રશિક્ષણ તબક્કા દરમિયાન, વિવિધ કાર્યો અને પદ્ધતિઓમાંથી ડેટાને ટોકન્સના સપાટ ક્રમમાં ક્રમાંકિત કરવામાં આવે છે, બેચ કરવામાં આવે છે અને મોટા ભાષાના મોડેલની જેમ જ ટ્રાન્સફોર્મર ન્યુરલ નેટવર્ક દ્વારા પ્રક્રિયા કરવામાં આવે છે. નુકસાનને ઢાંકવામાં આવે છે જેથી ગેટો માત્ર ક્રિયા અને ટેક્સ્ટ લક્ષ્યોની આગાહી કરે છે.

ગેટો, બીજા શબ્દોમાં કહીએ તો, ટોકન્સને અલગ રીતે વર્તે નથી, પછી ભલે તે ચેટમાંના શબ્દો હોય કે બ્લોક-સ્ટેકિંગ કવાયતમાં મૂવમેન્ટ વેક્ટર હોય. તે બધા સમાન છે.

રીડની અંદર દફનાવવામાં આવે છે અને ટીમની પૂર્વધારણા એ એક પરિણામ છે, એટલે કે વધુ અને વધુ કમ્પ્યુટિંગ શક્તિ આખરે જીતશે. અત્યારે, ગેટો એ સોયર રોબોટ હાથના પ્રતિભાવ સમય દ્વારા મર્યાદિત છે જે બ્લોક સ્ટેકીંગ કરે છે. 1.18 બિલિયન નેટવર્ક પેરામીટર્સ પર, ગેટો એ GPT-3 જેવા ખૂબ મોટા AI મોડલ્સ કરતાં ઘણું નાનું છે. જેમ જેમ ડીપ લર્નિંગ મૉડલ્સ મોટા થતા જાય છે તેમ, અનુમાન કરવાથી વિલંબ થાય છે જે વાસ્તવિક દુનિયાના રોબોટની બિન-નિર્ધારિત દુનિયામાં નિષ્ફળ થઈ શકે છે.

પરંતુ, રીડ અને સહકાર્યકરો અપેક્ષા રાખે છે કે AI હાર્ડવેર પ્રોસેસિંગમાં ઝડપી બને તે રીતે તે મર્યાદાને વટાવી દેવામાં આવશે.

"અમે અમારી તાલીમને મોડલ સ્કેલના ઓપરેટિંગ પોઈન્ટ પર ફોકસ કરીએ છીએ જે રીઅલ-વર્લ્ડ રોબોટ્સના રીઅલ-ટાઇમ નિયંત્રણને મંજૂરી આપે છે, હાલમાં ગેટોના કિસ્સામાં લગભગ 1.2B પરિમાણો છે," તેઓએ લખ્યું. "જેમ જેમ હાર્ડવેર અને મોડલ આર્કિટેક્ચરમાં સુધારો થાય છે તેમ, આ ઓપરેટિંગ પોઈન્ટ સ્વાભાવિક રીતે શક્ય મોડેલના કદમાં વધારો કરશે, જે સામાન્યવાદી મોડલ્સને સ્કેલિંગ કાયદાના વળાંકને ઊંચો ધકેલશે."

આથી, ગેટો ખરેખર એક મોડેલ છે કે કેવી રીતે સામાન્ય મોડલ્સને મોટા અને મોટા બનાવીને, મશીન લર્નિંગ ડેવલપમેન્ટના મુખ્ય વેક્ટર તરીકે કમ્પ્યુટનું સ્કેલ ચાલુ રહેશે. બીજા શબ્દોમાં કહીએ તો, વધુ સારું છે.

પેરામીટર્સમાં ન્યુરલ નેટવર્કનું કદ વધવાથી ગેટો વધુ સારું થાય છે.

રીડ એટ અલ. 2022

અને લેખકો પાસે આ માટે કેટલાક પુરાવા છે. ગેટો જેમ જેમ મોટો થતો જાય છે તેમ તેમ વધુ સારું થતું જણાય છે. તેઓ માપદંડો અનુસાર, 79 મિલિયન, 364 મિલિયન અને મુખ્ય મોડેલ, 1.18 બિલિયન, ત્રણ કદના મોડેલ માટે તમામ બેન્ચમાર્ક કાર્યોમાં સરેરાશ સ્કોર્સની તુલના કરે છે. "અમે જોઈ શકીએ છીએ કે સમકક્ષ ટોકન ગણતરી માટે, વધેલા સ્કેલ સાથે નોંધપાત્ર કામગીરી સુધારણા છે," લેખકો લખે છે.

એક રસપ્રદ ભાવિ પ્રશ્ન એ છે કે શું એક પ્રોગ્રામ જે જનરલિસ્ટ છે તે અન્ય પ્રકારના AI પ્રોગ્રામ્સ કરતાં વધુ ખતરનાક છે. લેખકો પેપરમાં એ હકીકતની ચર્ચા કરવામાં ઘણો સમય વિતાવે છે કે સંભવિત જોખમો હજુ સુધી સારી રીતે સમજી શક્યા નથી.

એક પ્રોગ્રામનો વિચાર જે બહુવિધ કાર્યોનું સંચાલન કરે છે તે સામાન્ય વ્યક્તિને એક પ્રકારની માનવ અનુકૂલનક્ષમતા સૂચવે છે, પરંતુ તે એક ખતરનાક ગેરસમજ હોઈ શકે છે. "ઉદાહરણ તરીકે, ભૌતિક મૂર્ત સ્વરૂપ વપરાશકર્તાઓને એજન્ટને માનવશાસ્ત્ર તરફ દોરી શકે છે, જે ખામીયુક્ત સિસ્ટમના કિસ્સામાં ખોટો વિશ્વાસ તરફ દોરી શકે છે અથવા ખરાબ અભિનેતાઓ દ્વારા શોષણ કરી શકે છે," રીડ અને ટીમ લખે છે.

"વધુમાં, જ્યારે ક્રોસ-ડોમેન જ્ઞાન ટ્રાન્સફર એ ML સંશોધનમાં ઘણીવાર એક ધ્યેય હોય છે, તે અણધારી અને અનિચ્છનીય પરિણામોનું સર્જન કરી શકે છે જો અમુક વર્તણૂકો (દા.ત. આર્કેડ ગેમ ફાઇટીંગ) ખોટા સંદર્ભમાં સ્થાનાંતરિત થાય છે."

તેથી, તેઓ લખે છે, "જ્ઞાન સ્થાનાંતરણની નૈતિકતા અને સલામતીના વિચારણાઓ માટે સામાન્યવાદી પ્રણાલીઓ આગળ વધતાં નોંધપાત્ર નવા સંશોધનની જરૂર પડી શકે છે."

(એક રસપ્રદ બાજુની નોંધ તરીકે, ગેટો પેપર ભૂતપૂર્વ Google AI સંશોધક માર્ગારેટ મિશેલ અને સાથીદારો દ્વારા ઘડવામાં આવેલા જોખમનું વર્ણન કરવા માટે એક યોજનાનો ઉપયોગ કરે છે, જેને મોડલ કાર્ડ્સ કહેવાય છે. મોડલ કાર્ડ્સ એઆઈ પ્રોગ્રામ શું છે, તે શું કરે છે અને શું કરે છે તેનો સંક્ષિપ્ત સારાંશ આપે છે. પરિબળો તે કેવી રીતે કાર્ય કરે છે તેના પર અસર કરે છે. મિશેલે ગયા વર્ષે લખ્યું હતું કે તેણીને તેના ભૂતપૂર્વ સાથીદાર, ટિમ્નીટ ગેબ્રુને ટેકો આપવા બદલ Googleમાંથી બહાર કાઢવાની ફરજ પાડવામાં આવી હતી, જેમની AI પરની નૈતિક ચિંતાઓ Google ની AI નેતૃત્વથી ખરાબ હતી.)

ગેટો તેની સામાન્યીકરણની વૃત્તિમાં કોઈ પણ રીતે અનન્ય નથી. તે સામાન્યીકરણના વ્યાપક વલણનો એક ભાગ છે અને મોટા મોડલ કે જે હોર્સપાવરની ડોલનો ઉપયોગ કરે છે. ગયા ઉનાળામાં વિશ્વને આ દિશામાં Google ના ઝુકાવનો પ્રથમ સ્વાદ મળ્યો, Google ના "Perceiver" ન્યુરલ નેટવર્ક સાથે જે ટેક્સ્ટ ટ્રાન્સફોર્મર કાર્યોને છબીઓ, ધ્વનિ અને LiDAR અવકાશી સંકલન સાથે જોડે છે.

પણ: ગૂગલનું સુપરમોડેલ: ડીપમાઇન્ડ પર્સીવર એ એઆઈ મશીન તરફનું એક પગલું છે જે કંઈપણ અને દરેક વસ્તુ પર પ્રક્રિયા કરી શકે છે

તેના સાથીદારોમાં PaLM છે, પાથવેઝ લેંગ્વેજ મોડલ, Google વૈજ્ઞાનિકો દ્વારા આ વર્ષે રજૂ કરવામાં આવ્યું હતું, 540-બિલિયન પેરામીટર મોડલ જે હજારો ચિપ્સના સંકલન માટે નવી ટેકનોલોજીનો ઉપયોગ કરે છે, પાથવે તરીકે ઓળખાય છે, Google માં પણ શોધ કરી હતી. મેટા દ્વારા જાન્યુઆરીમાં બહાર પાડવામાં આવેલ ન્યુરલ નેટવર્ક, જેને "ડેટા2વેક" કહેવામાં આવે છે, તે ઇમેજ ડેટા, સ્પીચ ઓડિયો વેવફોર્મ્સ અને ટેક્સ્ટ ભાષાની રજૂઆતો માટે ટ્રાન્સફોર્મર્સનો ઉપયોગ કરે છે.

ગેટો વિશે નવું શું છે, એવું લાગે છે કે, નોન-રોબોટિક્સ કાર્યો માટે ઉપયોગમાં લેવાતા AI લેવાનો અને તેને રોબોટિક્સ ક્ષેત્રમાં લાવવાનો હેતુ છે.

ગેટોના નિર્માતાઓ, પાથવેઝની સિદ્ધિઓ અને અન્ય સામાન્યવાદી અભિગમોની નોંધ લેતા, AI માં અંતિમ સિદ્ધિ જુએ છે જે કોઈપણ પ્રકારના કાર્યો સાથે વાસ્તવિક દુનિયામાં કાર્ય કરી શકે છે.

"ભવિષ્યના કાર્યમાં આ ટેક્સ્ટ ક્ષમતાઓને એક સંપૂર્ણ સામાન્યવાદી એજન્ટમાં કેવી રીતે એકીકૃત કરવી તે ધ્યાનમાં લેવું જોઈએ જે વાસ્તવિક વિશ્વમાં, વિવિધ વાતાવરણ અને મૂર્ત સ્વરૂપોમાં વાસ્તવિક સમયમાં કાર્ય કરી શકે છે."

પછી, તમે ગેટોને AI ની સૌથી મુશ્કેલ સમસ્યા, રોબોટિક્સ ઉકેલવાના માર્ગ પર એક મહત્વપૂર્ણ પગલું ગણી શકો છો.

સોર્સ

અગાઉના પોસ્ટ

આગળ પોસ્ટ

Keep Calm and Stay Smart

10:10

અમારી ટીમ અમારા પોતાના સલાહકારો અને બિઝનેસ લીડર્સની પેનલ દ્વારા દર વર્ષે સેંકડો સોફ્ટવેર, સેવાઓ અને બિઝનેસ વ્યૂહરચનાઓનું વ્યાવસાયિક રીતે પરીક્ષણ કરે છે.

અમે ફક્ત ઉચ્ચતમ ખર્ચ-લાભ ગુણોત્તર સાથે સખત ઉકેલો પસંદ કરીએ છીએ જેઓ ઉપયોગમાં સરળ છે, જેઓ કોઈપણ પ્રકારની સંસ્થામાં યોગ્ય રીતે એકીકૃત થાય છે અને જે તમને તમારા વ્યવસાય ક્ષેત્રમાં ટોચ પર રહેવાની ખાતરી કરવા માટે અગ્રણી સુવિધાઓનો સમાવેશ કરે છે.

ડીપમાઇન્ડનું 'ગાટો' સાધારણ છે, તો તેઓએ તેને કેમ બનાવ્યું?

2024 માં સોફ્ટવેર હોવું આવશ્યક છે

શીર્ષ કેટેગરીઝ

નવીનતમ સમીક્ષાઓ

સેમસંગ ગેલેક્સી ઝેડ ફ્લિપ 5 ટીઝર વિડિયો, ગેલેક્સી અનપેક્ડ ઇવેન્ટની આગળ, નવી હિંગ ડિઝાઇન, રંગ વિકલ્પો બતાવે છે

ટ્વિટર વણચકાસાયેલ વપરાશકર્તાઓ મોકલી શકે તેવા DMsની સંખ્યાને મર્યાદિત કરી રહ્યું છે

મારો મનપસંદ એન્ડ્રોઇડ ફોન એ વસ્તુઓ કરી શકે છે જે મારો iPhone 14 Pro Max કરી શકતો નથી

એન્ડ્રોઇડ માટે ChatGPT આવતા અઠવાડિયે શરૂ થઈ રહ્યું છે, અને તમે હમણાં જ પ્રી-નોંધણી કરી શકો છો

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A Google TV સાથે, 20W સ્પીકર્સ ભારતમાં લૉન્ચ થયા: : કિંમત, વિશિષ્ટતાઓ

આ ખાદ્ય બેટરી ડાયગ્નોસ્ટિક્સ અને ટકાઉ ઊર્જાની દુનિયાને શક્તિ આપી શકે છે