મેટાનું 'ડેટા2વેક' એ બધા પર શાસન કરવા માટે વન ન્યુરલ નેટવર્ક તરફનું આગલું પગલું છે

એક ન્યુરલ નેટવર્ક બનાવવાની રેસ ચાલી રહી છે જે બહુવિધ પ્રકારના ડેટા પર પ્રક્રિયા કરી શકે, વધુ-સામાન્ય કૃત્રિમ બુદ્ધિમત્તાની કલ્પના જે ડેટાના પ્રકારો વિશે ભેદભાવ રાખતી નથી પરંતુ તેના બદલે તે બધાને સમાન મૂળભૂત માળખામાં ક્રંચ કરી શકે છે.

મલ્ટિ-મોડેલિટીની શૈલી, જેમ કે આ ન્યુરલ નેટવર્ક્સ કહેવામાં આવે છે, તે પ્રવૃત્તિનો ઉભરો જોઈ રહ્યો છે જેમાં વિવિધ ડેટા, જેમ કે ઇમેજ, ટેક્સ્ટ અને સ્પીચ ઑડિઓ, વિવિધ પરીક્ષણો પર સ્કોર બનાવવા માટે સમાન અલ્ગોરિધમમાંથી પસાર થાય છે જેમ કે છબી ઓળખ, કુદરતી ભાષાની સમજ અથવા વાણી શોધ.

અને આ અસ્પષ્ટ નેટવર્ક્સ AI ના બેન્ચમાર્ક પરીક્ષણો પર સ્કોર મેળવી રહ્યા છે. ફેસબુક, ઇન્સ્ટાગ્રામ અને વ્હોટ્સએપના પેરન્ટ મેટાના AI વિભાગના સંશોધકો દ્વારા વિકસાવવામાં આવેલ 'data2vec' નામની નવીનતમ સિદ્ધિ છે. 

મેટાના વૈજ્ઞાનિકો, એલેક્સી બાએવસ્કી, વેઈ-નિંગ હુ, ક્વિઆન્ટોંગ ઝુ, અરુણ બાબુ, જિયાતાઓ ગુ અને માઈકલ ઔલી લખે છે તેમ, મુદ્દો એ છે કે સામાન્ય શીખવાની ક્ષમતા જે માનવ મન સમાવિષ્ટ હોય તેવું લાગે છે.

લેખકો લખે છે, "જ્યારે લોકો માહિતી કેવી રીતે મેળવે છે તે ધ્યાનમાં લીધા વિના સમાન રીતે શીખતા દેખાય છે - ભલે તેઓ દૃષ્ટિ કે અવાજનો ઉપયોગ કરે છે," લેખકો લખે છે બ્લૉગ પોસ્ટમાં, "હાલમાં જે રીતે મોટા તફાવતો છે" ન્યુરલ નેટવર્ક વિવિધ પ્રકારના ડેટા જેમ કે છબીઓ, વાણી, ટેક્સ્ટ, "અને અન્ય પદ્ધતિઓ" ને હેન્ડલ કરે છે.

"આ અભિગમનો મુખ્ય વિચાર," તેઓ data2vec ની જાહેરાત કરે છે, "વધુ સામાન્ય રીતે શીખવાનો છે: AI એ ઘણા જુદા જુદા કાર્યો કરવા માટે શીખવા માટે સક્ષમ હોવા જોઈએ, જેમાં સંપૂર્ણપણે અજાણ્યા છે."

મેટાના સીઇઓ, માર્ક ઝુકરબર્ગે, કામ વિશે એક અવતરણ ઓફર કર્યું, તેને ભાવિ મેટાવર્સ સાથે જોડીને:

ઉત્તેજક સફળતા: મેટા AI સંશોધને એવી સિસ્ટમ બનાવી છે જે લેબલવાળા તાલીમ ડેટાની જરૂર વગર ભાષણ, દ્રષ્ટિ અને ટેક્સ્ટમાંથી શીખે છે. લોકો દૃષ્ટિ, ધ્વનિ અને શબ્દોના સંયોજન દ્વારા વિશ્વનો અનુભવ કરે છે, અને આવી સિસ્ટમો એક દિવસ આપણે જે રીતે કરીએ છીએ તે રીતે વિશ્વને સમજી શકશે. આ બધું આખરે AI આસિસ્ટન્ટ સાથે AR ચશ્મામાં બાંધવામાં આવશે, ઉદાહરણ તરીકે, તે તમને રાત્રિભોજન રાંધવામાં મદદ કરી શકે છે, જો તમે કોઈ ઘટક ચૂકી ગયા છો કે કેમ તે ધ્યાનમાં લેતા, તમને ગરમીને બંધ કરવા અથવા વધુ જટિલ કાર્યો માટે સંકેત આપે છે.

નામ data2vec એ ભાષા માટેના પ્રોગ્રામના નામ પરનું નાટક છે "એમ્બેડિંગ" 2013 માં Google પર વિકસિત "word2vec" કહેવાય છે. તે પ્રોગ્રામે આગાહી કરી હતી કે કેવી રીતે શબ્દો એકસાથે ભેગા થાય છે, અને તેથી word2vec તે ચોક્કસ પ્રકારના ડેટા માટે રચાયેલ ન્યુરલ નેટવર્કનું પ્રતિનિધિત્વ કરે છે, તે કિસ્સામાં ટેક્સ્ટ. 

પણ: પોડ બે દરવાજા ખોલો, કૃપા કરીને, HAL: Meta's AI લિપ-રીડિંગનું અનુકરણ કરે છે

data2vec ના કિસ્સામાં, જોકે, Baevski અને સહકર્મીઓ આશિષ વાસવાણી અને સાથીદારો દ્વારા વિકસિત ટ્રાન્સફોર્મરનું પ્રમાણભૂત સંસ્કરણ લઈ રહ્યા છે. 2017 માં Google પર અને તેને બહુવિધ ડેટા પ્રકારો માટે ઉપયોગમાં લેવા માટે વિસ્તરે છે. 

ટ્રાન્સફોર્મર ન્યુરલ નેટવર્ક મૂળ ભાષાના કાર્યો માટે વિકસાવવામાં આવ્યું હતું, પરંતુ તે ઘણા પ્રકારના ડેટા માટે વર્ષોથી વ્યાપકપણે સ્વીકારવામાં આવ્યું છે. બેવસ્કી એટ અલ. બતાવે છે કે ટ્રાન્સફોર્મરનો ઉપયોગ બદલાયા વિના બહુવિધ પ્રકારના ડેટા પર પ્રક્રિયા કરવા માટે થઈ શકે છે, અને પ્રશિક્ષિત ન્યુરલ નેટવર્ક કે જેનું પરિણામ બહુવિધ વિવિધ કાર્યો પર કરી શકે છે. 

ઔપચારિક પેપરમાં, “data2vec: વાણી, દ્રષ્ટિ અને ભાષામાં સ્વ-નિરીક્ષણ શિક્ષણ માટે સામાન્ય માળખું,” Baevski et al., ઇમેજ ડેટા, સ્પીચ ઑડિઓ વેવફોર્મ્સ અને ટેક્સ્ટ ભાષા રજૂઆત માટે ટ્રાન્સફોર્મરને તાલીમ આપો. 

Data2vec એ “પ્રથમ ઉચ્ચ-પ્રદર્શન સ્વ-નિરીક્ષણ કરેલ અલ્ગોરિધમ છે જે બહુવિધ પદ્ધતિઓ માટે કામ કરે છે, જેમ કે વાણી, દ્રષ્ટિ અને ટેક્સ્ટ,” બ્લોગ પોસ્ટમાં Baevski અને ટીમ લખો.

ખૂબ જ સામાન્ય ટ્રાન્સફોર્મર તે બની જાય છે જેને પૂર્વ-તાલીમ કહેવામાં આવે છે જે પછી ચોક્કસ કાર્યો કરવા માટે ચોક્કસ ન્યુરલ નેટવર્ક્સ પર લાગુ કરી શકાય છે. દા.ત. ગયા વર્ષે રજૂ કરવામાં આવી હતી એલેક્સી ડોસોવિટસ્કી અને Google પરના સહકર્મીઓ દ્વારા. 

meta-2022-data2vec-scores-on-vit-test.jpg

મેટા આદરણીય ઇમેજનેટ ઇમેજ-ઓળખ સ્પર્ધા માટે ટોચના સ્કોર બતાવે છે.


મેટા 2022

જ્યારે ViT પર ઇમેજ રેકગ્નિશનની પ્રમાણભૂત ઇમેજનેટ કસોટીને હલ કરવાનો પ્રયાસ કરવામાં આવે છે, ત્યારે તેમના પરિણામો 84.1% ની ચોકસાઈ સાથે પેકની ટોચ પર આવે છે, જે Microsoft ખાતે પૂર્વ-પ્રશિક્ષિત ટીમ દ્વારા પ્રાપ્ત થયેલા 83.2% સ્કોર કરતાં વધુ સારા છે. ViT, હેંગબો બાઓ દ્વારા આગેવાની, ગયા વર્ષે.

અને તે જ data2vec ટ્રાન્સફોર્મર એવા પરિણામો આઉટપુટ કરે છે જે વાણી ઓળખ માટે અદ્યતન છે અને જે સ્પર્ધાત્મક છે, જો શ્રેષ્ઠ ન હોય તો, કુદરતી ભાષા શીખવા માટે:

પ્રાયોગિક પરિણામો દર્શાવે છે કે data2vec ત્રણેય પદ્ધતિઓમાં અસરકારક છે, ઇમેજનેટ-1K પર ViT-B અને ViT-L માટે એક નવી સ્થિતિ સુયોજિત કરે છે, વાણી ઓળખ પર વાણી પ્રક્રિયામાં શ્રેષ્ઠ અગાઉના કાર્યમાં સુધારો કરે છે અને RoBERTa ની સમાન કામગીરી કરે છે. GLUE નેચરલ લેંગ્વેજ સમજણ બેન્ચમાર્ક પર. 

મુખ્ય વસ્તુ એ છે કે આ ન્યુરલ નેટવર્કમાં કોઈપણ ફેરફાર કર્યા વિના થઈ રહ્યું છે જે ઈમેજીસ વિશે છે, અને વાણી અને ટેક્સ્ટ માટે સમાન છે. તેના બદલે, દરેક ઇનપુટ પ્રકાર સમાન નેટવર્કમાં જઈ રહ્યું છે, અને તે જ સામાન્ય કાર્યને પૂર્ણ કરી રહ્યું છે. તે કાર્ય એ જ કાર્ય છે જેનો ટ્રાન્સફોર્મર નેટવર્ક હંમેશા ઉપયોગ કરે છે, જેને "માસ્ક્ડ પ્રિડિક્શન" તરીકે ઓળખવામાં આવે છે. 

પણ: ગૂગલનું સુપરમોડેલ: ડીપમાઇન્ડ પર્સીવર એ એઆઈ મશીન તરફનું એક પગલું છે જે કંઈપણ અને દરેક વસ્તુ પર પ્રક્રિયા કરી શકે છે

જે રીતે data2vec માસ્ક કરેલી આગાહી કરે છે, જો કે, એક અભિગમ છે તેને "સ્વ-નિરીક્ષણ" શિક્ષણ તરીકે ઓળખવામાં આવે છે. સ્વ-નિરીક્ષણ સેટિંગમાં, એક ન્યુરલ નેટવર્કને બહુવિધ તબક્કાઓમાંથી પસાર થવાથી પ્રશિક્ષિત અથવા વિકસિત કરવામાં આવે છે. 

પ્રથમ, નેટવર્ક ડેટા ઇનપુટની સંયુક્ત સંભાવનાનું પ્રતિનિધિત્વ બનાવે છે, પછી તે છબીઓ અથવા ભાષણ અથવા ટેક્સ્ટ હોય. પછી, નેટવર્કના બીજા સંસ્કરણમાં તેમાંથી કેટલીક ઇનપુટ ડેટા આઇટમ્સ "માસ્ક આઉટ" છે, જે અપ્રગટ છોડી દેવામાં આવી છે. તેને નેટવર્કના પ્રથમ સંસ્કરણ દ્વારા બાંધવામાં આવેલી સંયુક્ત સંભાવનાનું પુનઃનિર્માણ કરવું પડશે, જે તેને આવશ્યકપણે ખાલી જગ્યાઓ ભરીને ડેટાની વધુ સારી અને સારી રજૂઆતો બનાવવા માટે દબાણ કરે છે. 

meta-2022-data2vec-network-architecture.jpg

data2vec અભિગમની ઝાંખી.


મેટા 2022

બે નેટવર્ક, સંયુક્ત સંભાવનાની સંપૂર્ણ પેટર્ન ધરાવતું અને અધૂરું સંસ્કરણ કે જેને તે પૂર્ણ કરવાનો પ્રયાસ કરી રહ્યું છે, તેને "શિક્ષક" અને "વિદ્યાર્થી" કહેવામાં આવે છે. વિદ્યાર્થી નેટવર્ક, જો તમે ઈચ્છો તો, શિક્ષકે પહેલેથી જે પ્રાપ્ત કર્યું છે તેનું પુનઃનિર્માણ કરીને ડેટાની તેની સમજ વિકસાવવાનો પ્રયાસ કરે છે.

તમે કરી શકો છો ગીથબ પર મોડલ્સ માટે કોડ જુઓ.

ન્યુરલ નેટવર્ક ત્રણ અત્યંત અલગ પ્રકારના ડેટા માટે શિક્ષક અને વિદ્યાર્થી કેવી રીતે કાર્ય કરે છે? મુખ્ય બાબત એ છે કે સંયુક્ત સંભાવનાનું "લક્ષ્ય", ત્રણેય ડેટા કેસોમાં, ચોક્કસ આઉટપુટ ડેટા પ્રકાર નથી, જેમ કે Googleના BERT અથવા OpenAIના GPT-3 જેવા ચોક્કસ ડેટા પ્રકાર માટે ટ્રાન્સફોર્મરના સંસ્કરણોમાં છે. . 

તેના બદલે, data2vec ન્યુરલ નેટવર્ક સ્તરોના કેટલાક સમૂહને પકડી રહ્યું છે જે છે અંદર ન્યુરલ નેટવર્ક, મધ્યમાં ક્યાંક, જે દરેક અંતિમ આઉટપુટ તરીકે ઉત્પન્ન થાય તે પહેલા ડેટાનું પ્રતિનિધિત્વ કરે છે. 

લેખકો લખે છે તેમ, "આપણી પદ્ધતિના મુખ્ય તફાવતોમાંનો એક […] માસ્ક કરેલ અનુમાન કરવા સિવાય, લક્ષ્યોનો ઉપયોગ છે જે શિક્ષક નેટવર્કમાંથી બહુવિધ સ્તરોની સરેરાશ પર આધારિત છે." ખાસ કરીને, "અમે ફક્ત ટોચના સ્તરને બદલે બહુવિધ ન્યુરલ નેટવર્ક સ્તરની રજૂઆતોને રીગ્રેસ કરીએ છીએ," જેથી કરીને "ડેટા2વેક ઇનપુટ ડેટાની ગુપ્ત રજૂઆતોની આગાહી કરે છે."

તેઓ ઉમેરે છે, "અમે સામાન્ય રીતે FFN [ફીડ-ફોરવર્ડ નેટવર્ક] ના આઉટપુટનો ઉપયોગ લક્ષ્ય તરીકે દરેક બ્લોકમાં છેલ્લા શેષ કનેક્શન પહેલાં કરીએ છીએ," જ્યાં "બ્લોક" એ ન્યુરલ નેટવર્ક સ્તરના ટ્રાન્સફોર્મર સમકક્ષ છે.

મુદ્દો એ છે કે દરેક ડેટા પ્રકાર જે અંદર જાય છે તે વિદ્યાર્થી નેટવર્ક માટે શિક્ષકે બનાવેલા ન્યુરલ નેટવર્કની અંદર કંઈક પુનઃનિર્માણ કરવાનો સમાન પડકાર બની જાય છે.

આ સરેરાશ તમામ ડેટાને ક્રંચ કરવા માટે એક નેટવર્ક બનાવવાના અન્ય તાજેતરના અભિગમોથી અલગ છે. ઉદાહરણ તરીકે, ગયા ઉનાળામાં, Google ના ડીપમાઇન્ડ યુનિટે તેને "પર્સીવર" તરીકે ઓળખાવ્યું, જે ટ્રાન્સફોર્મરનું પોતાનું મલ્ટિ-મોડલ સંસ્કરણ છે. પર્સીવર ન્યુરલ નેટવર્કની તાલીમ એ આઉટપુટ ઉત્પન્ન કરવાની વધુ પ્રમાણભૂત પ્રક્રિયા છે જે ઇમેજનેટ જેવા લેબલવાળા, દેખરેખ હેઠળના કાર્યનો જવાબ છે. સ્વ-નિરીક્ષણ અભિગમમાં, data2vec તે લેબલ્સનો ઉપયોગ કરતું નથી, તે ફક્ત ડેટાના નેટવર્કના આંતરિક પ્રતિનિધિત્વને પુનઃનિર્માણ કરવાનો પ્રયાસ કરી રહ્યું છે. 

હજુ પણ વધુ મહત્વાકાંક્ષી પ્રયાસો પાંખોમાં છે. જેફ ડીન, ગૂગલના AI પ્રયાસોના વડા, ઓક્ટોબરમાં "પાથવેઝ" વિશે ટીઝ કરી હતી, જેનો ડીન દાવો કરે છે કે "નેક્સ્ટ જનરેશન AI આર્કિટેક્ચરમલ્ટી મોડલ ડેટા પ્રોસેસિંગ માટે.

તમને યાદ રાખો, બહુવિધ મોડલિટીઝ માટે એકલ ન્યુરલ નેટ માટે data2vec નો ખૂબ જ સામાન્ય અભિગમ હજુ પણ વિવિધ ડેટા પ્રકારો વિશે ઘણી બધી માહિતી ધરાવે છે. ઇમેજ, સ્પીચ અને ટેક્સ્ટ બધું જ ડેટાની પ્રી-પ્રોસેસિંગ દ્વારા તૈયાર કરવામાં આવે છે. તે રીતે, નેટવર્કનું મલ્ટિ-મોડલ પાસું હજી પણ ડેટા વિશેના સંકેતો પર આધાર રાખે છે, જેને ટીમ "નાના મોડલિટી-વિશિષ્ટ ઇનપુટ એન્કોડર્સ" તરીકે ઓળખે છે.

પણ: ગૂગલે 'પાથવેઝ'નું અનાવરણ કર્યું, એક નેક્સ્ટ-જન AI જેને મલ્ટીટાસ્ક માટે તાલીમ આપી શકાય છે

"યુનિફાઇડ લર્નિંગ સિસ્ટમ હોવા છતાં, અમે હજુ પણ મોડેલિટી-વિશિષ્ટ ફીચર એક્સ્ટ્રાક્ટર્સ અને માસ્કિંગ વ્યૂહરચનાઓનો ઉપયોગ કરીએ છીએ," તેઓ સમજાવે છે.

આથી, અમે હજુ સુધી એવી દુનિયામાં નથી કે જ્યાં ન્યુરલ નેટને કોઈપણ પ્રકારના ઇનપુટ ડેટાની સમજ વગર પ્રશિક્ષિત કરવામાં આવે છે. અમે એવા સમયે પણ નથી કે જ્યારે ન્યુરલ નેટવર્ક એક પ્રતિનિધિત્વ બનાવી શકે જે તમામ વિવિધ ડેટા પ્રકારોને જોડે, જેથી ન્યુરલ નેટ સંયોજનમાં વસ્તુઓ શીખી રહ્યું હોય.

તે હકીકત વચ્ચેના વિનિમયથી સ્પષ્ટ થાય છે ZDNet અને લેખકો. ZDNet બાએવસ્કી અને ટીમ સુધી પહોંચ્યા અને પૂછ્યું, "શું સુપ્ત રજૂઆતો જે લક્ષ્ય તરીકે સેવા આપે છે તે કોઈપણ સમયે ત્રણેય મોડલિટીનું સંયુક્ત એન્કોડિંગ છે, અથવા તે સામાન્ય રીતે માત્ર એક મોડલિટીઝ છે?"

બેવસ્કી અને ટીમ જવાબ આપે છે કે તે પછીનો કેસ છે, અને તેમનો reply લંબાઈમાં અવતરણ કરવું રસપ્રદ છે:

સુપ્ત ચલો એ ત્રણ પદ્ધતિઓ માટે સંયુક્ત એન્કોડિંગ નથી. અમે દરેક મોડલિટી માટે અલગ-અલગ મોડલને તાલીમ આપીએ છીએ પરંતુ જે પ્રક્રિયા દ્વારા મોડલ શીખે છે તે સમાન છે. આ અમારા પ્રોજેક્ટની મુખ્ય નવીનતા છે કારણ કે પહેલા મોડલને વિવિધ મોડલિટીમાં કેવી રીતે તાલીમ આપવામાં આવે છે તેમાં મોટા તફાવત હતા. ન્યુરોસાયન્ટિસ્ટો પણ માને છે કે માનવીઓ અવાજો અને દ્રશ્ય વિશ્વ વિશે સમાન રીતે શીખે છે. અમારો પ્રોજેક્ટ બતાવે છે કે સ્વ-નિરીક્ષિત શિક્ષણ પણ વિવિધ પદ્ધતિઓ માટે સમાન રીતે કાર્ય કરી શકે છે.

data2vec ની મોડેલિટી-વિશિષ્ટ મર્યાદાઓને જોતાં, એક ન્યુરલ નેટવર્ક જે ખરેખર હોઈ શકે છે તે બધા પર શાસન કરવા માટે એક નેટવર્ક ભવિષ્યની ટેકનોલોજી રહે છે.

સોર્સ