એક ન્યુરલ નેટવર્ક બનાવવાની રેસ ચાલી રહી છે જે બહુવિધ પ્રકારના ડેટા પર પ્રક્રિયા કરી શકે, વધુ-સામાન્ય કૃત્રિમ બુદ્ધિમત્તાની કલ્પના જે ડેટાના પ્રકારો વિશે ભેદભાવ રાખતી નથી પરંતુ તેના બદલે તે બધાને સમાન મૂળભૂત માળખામાં ક્રંચ કરી શકે છે.
મલ્ટિ-મોડેલિટીની શૈલી, જેમ કે આ ન્યુરલ નેટવર્ક્સ કહેવામાં આવે છે, તે પ્રવૃત્તિનો ઉભરો જોઈ રહ્યો છે જેમાં વિવિધ ડેટા, જેમ કે ઇમેજ, ટેક્સ્ટ અને સ્પીચ ઑડિઓ, વિવિધ પરીક્ષણો પર સ્કોર બનાવવા માટે સમાન અલ્ગોરિધમમાંથી પસાર થાય છે જેમ કે છબી ઓળખ, કુદરતી ભાષાની સમજ અથવા વાણી શોધ.
અને આ અસ્પષ્ટ નેટવર્ક્સ AI ના બેન્ચમાર્ક પરીક્ષણો પર સ્કોર મેળવી રહ્યા છે. ફેસબુક, ઇન્સ્ટાગ્રામ અને વ્હોટ્સએપના પેરન્ટ મેટાના AI વિભાગના સંશોધકો દ્વારા વિકસાવવામાં આવેલ 'data2vec' નામની નવીનતમ સિદ્ધિ છે.
મેટાના વૈજ્ઞાનિકો, એલેક્સી બાએવસ્કી, વેઈ-નિંગ હુ, ક્વિઆન્ટોંગ ઝુ, અરુણ બાબુ, જિયાતાઓ ગુ અને માઈકલ ઔલી લખે છે તેમ, મુદ્દો એ છે કે સામાન્ય શીખવાની ક્ષમતા જે માનવ મન સમાવિષ્ટ હોય તેવું લાગે છે.
લેખકો લખે છે, "જ્યારે લોકો માહિતી કેવી રીતે મેળવે છે તે ધ્યાનમાં લીધા વિના સમાન રીતે શીખતા દેખાય છે - ભલે તેઓ દૃષ્ટિ કે અવાજનો ઉપયોગ કરે છે," લેખકો લખે છે બ્લૉગ પોસ્ટમાં, "હાલમાં જે રીતે મોટા તફાવતો છે" ન્યુરલ નેટવર્ક વિવિધ પ્રકારના ડેટા જેમ કે છબીઓ, વાણી, ટેક્સ્ટ, "અને અન્ય પદ્ધતિઓ" ને હેન્ડલ કરે છે.
"આ અભિગમનો મુખ્ય વિચાર," તેઓ data2vec ની જાહેરાત કરે છે, "વધુ સામાન્ય રીતે શીખવાનો છે: AI એ ઘણા જુદા જુદા કાર્યો કરવા માટે શીખવા માટે સક્ષમ હોવા જોઈએ, જેમાં સંપૂર્ણપણે અજાણ્યા છે."
મેટાના સીઇઓ, માર્ક ઝુકરબર્ગે, કામ વિશે એક અવતરણ ઓફર કર્યું, તેને ભાવિ મેટાવર્સ સાથે જોડીને:
ઉત્તેજક સફળતા: મેટા AI સંશોધને એવી સિસ્ટમ બનાવી છે જે લેબલવાળા તાલીમ ડેટાની જરૂર વગર ભાષણ, દ્રષ્ટિ અને ટેક્સ્ટમાંથી શીખે છે. લોકો દૃષ્ટિ, ધ્વનિ અને શબ્દોના સંયોજન દ્વારા વિશ્વનો અનુભવ કરે છે, અને આવી સિસ્ટમો એક દિવસ આપણે જે રીતે કરીએ છીએ તે રીતે વિશ્વને સમજી શકશે. આ બધું આખરે AI આસિસ્ટન્ટ સાથે AR ચશ્મામાં બાંધવામાં આવશે, ઉદાહરણ તરીકે, તે તમને રાત્રિભોજન રાંધવામાં મદદ કરી શકે છે, જો તમે કોઈ ઘટક ચૂકી ગયા છો કે કેમ તે ધ્યાનમાં લેતા, તમને ગરમીને બંધ કરવા અથવા વધુ જટિલ કાર્યો માટે સંકેત આપે છે.
નામ data2vec એ ભાષા માટેના પ્રોગ્રામના નામ પરનું નાટક છે "એમ્બેડિંગ" 2013 માં Google પર વિકસિત "word2vec" કહેવાય છે. તે પ્રોગ્રામે આગાહી કરી હતી કે કેવી રીતે શબ્દો એકસાથે ભેગા થાય છે, અને તેથી word2vec તે ચોક્કસ પ્રકારના ડેટા માટે રચાયેલ ન્યુરલ નેટવર્કનું પ્રતિનિધિત્વ કરે છે, તે કિસ્સામાં ટેક્સ્ટ.
પણ: પોડ બે દરવાજા ખોલો, કૃપા કરીને, HAL: Meta's AI લિપ-રીડિંગનું અનુકરણ કરે છે
data2vec ના કિસ્સામાં, જોકે, Baevski અને સહકર્મીઓ આશિષ વાસવાણી અને સાથીદારો દ્વારા વિકસિત ટ્રાન્સફોર્મરનું પ્રમાણભૂત સંસ્કરણ લઈ રહ્યા છે. 2017 માં Google પર અને તેને બહુવિધ ડેટા પ્રકારો માટે ઉપયોગમાં લેવા માટે વિસ્તરે છે.
ટ્રાન્સફોર્મર ન્યુરલ નેટવર્ક મૂળ ભાષાના કાર્યો માટે વિકસાવવામાં આવ્યું હતું, પરંતુ તે ઘણા પ્રકારના ડેટા માટે વર્ષોથી વ્યાપકપણે સ્વીકારવામાં આવ્યું છે. બેવસ્કી એટ અલ. બતાવે છે કે ટ્રાન્સફોર્મરનો ઉપયોગ બદલાયા વિના બહુવિધ પ્રકારના ડેટા પર પ્રક્રિયા કરવા માટે થઈ શકે છે, અને પ્રશિક્ષિત ન્યુરલ નેટવર્ક કે જેનું પરિણામ બહુવિધ વિવિધ કાર્યો પર કરી શકે છે.
ઔપચારિક પેપરમાં, “data2vec: વાણી, દ્રષ્ટિ અને ભાષામાં સ્વ-નિરીક્ષણ શિક્ષણ માટે સામાન્ય માળખું,” Baevski et al., ઇમેજ ડેટા, સ્પીચ ઑડિઓ વેવફોર્મ્સ અને ટેક્સ્ટ ભાષા રજૂઆત માટે ટ્રાન્સફોર્મરને તાલીમ આપો.
Data2vec એ “પ્રથમ ઉચ્ચ-પ્રદર્શન સ્વ-નિરીક્ષણ કરેલ અલ્ગોરિધમ છે જે બહુવિધ પદ્ધતિઓ માટે કામ કરે છે, જેમ કે વાણી, દ્રષ્ટિ અને ટેક્સ્ટ,” બ્લોગ પોસ્ટમાં Baevski અને ટીમ લખો.
ખૂબ જ સામાન્ય ટ્રાન્સફોર્મર તે બની જાય છે જેને પૂર્વ-તાલીમ કહેવામાં આવે છે જે પછી ચોક્કસ કાર્યો કરવા માટે ચોક્કસ ન્યુરલ નેટવર્ક્સ પર લાગુ કરી શકાય છે. દા.ત. ગયા વર્ષે રજૂ કરવામાં આવી હતી એલેક્સી ડોસોવિટસ્કી અને Google પરના સહકર્મીઓ દ્વારા.
જ્યારે ViT પર ઇમેજ રેકગ્નિશનની પ્રમાણભૂત ઇમેજનેટ કસોટીને હલ કરવાનો પ્રયાસ કરવામાં આવે છે, ત્યારે તેમના પરિણામો 84.1% ની ચોકસાઈ સાથે પેકની ટોચ પર આવે છે, જે Microsoft ખાતે પૂર્વ-પ્રશિક્ષિત ટીમ દ્વારા પ્રાપ્ત થયેલા 83.2% સ્કોર કરતાં વધુ સારા છે. ViT, હેંગબો બાઓ દ્વારા આગેવાની, ગયા વર્ષે.
અને તે જ data2vec ટ્રાન્સફોર્મર એવા પરિણામો આઉટપુટ કરે છે જે વાણી ઓળખ માટે અદ્યતન છે અને જે સ્પર્ધાત્મક છે, જો શ્રેષ્ઠ ન હોય તો, કુદરતી ભાષા શીખવા માટે:
પ્રાયોગિક પરિણામો દર્શાવે છે કે data2vec ત્રણેય પદ્ધતિઓમાં અસરકારક છે, ઇમેજનેટ-1K પર ViT-B અને ViT-L માટે એક નવી સ્થિતિ સુયોજિત કરે છે, વાણી ઓળખ પર વાણી પ્રક્રિયામાં શ્રેષ્ઠ અગાઉના કાર્યમાં સુધારો કરે છે અને RoBERTa ની સમાન કામગીરી કરે છે. GLUE નેચરલ લેંગ્વેજ સમજણ બેન્ચમાર્ક પર.
મુખ્ય વસ્તુ એ છે કે આ ન્યુરલ નેટવર્કમાં કોઈપણ ફેરફાર કર્યા વિના થઈ રહ્યું છે જે ઈમેજીસ વિશે છે, અને વાણી અને ટેક્સ્ટ માટે સમાન છે. તેના બદલે, દરેક ઇનપુટ પ્રકાર સમાન નેટવર્કમાં જઈ રહ્યું છે, અને તે જ સામાન્ય કાર્યને પૂર્ણ કરી રહ્યું છે. તે કાર્ય એ જ કાર્ય છે જેનો ટ્રાન્સફોર્મર નેટવર્ક હંમેશા ઉપયોગ કરે છે, જેને "માસ્ક્ડ પ્રિડિક્શન" તરીકે ઓળખવામાં આવે છે.
પણ: ગૂગલનું સુપરમોડેલ: ડીપમાઇન્ડ પર્સીવર એ એઆઈ મશીન તરફનું એક પગલું છે જે કંઈપણ અને દરેક વસ્તુ પર પ્રક્રિયા કરી શકે છે
જે રીતે data2vec માસ્ક કરેલી આગાહી કરે છે, જો કે, એક અભિગમ છે તેને "સ્વ-નિરીક્ષણ" શિક્ષણ તરીકે ઓળખવામાં આવે છે. સ્વ-નિરીક્ષણ સેટિંગમાં, એક ન્યુરલ નેટવર્કને બહુવિધ તબક્કાઓમાંથી પસાર થવાથી પ્રશિક્ષિત અથવા વિકસિત કરવામાં આવે છે.
પ્રથમ, નેટવર્ક ડેટા ઇનપુટની સંયુક્ત સંભાવનાનું પ્રતિનિધિત્વ બનાવે છે, પછી તે છબીઓ અથવા ભાષણ અથવા ટેક્સ્ટ હોય. પછી, નેટવર્કના બીજા સંસ્કરણમાં તેમાંથી કેટલીક ઇનપુટ ડેટા આઇટમ્સ "માસ્ક આઉટ" છે, જે અપ્રગટ છોડી દેવામાં આવી છે. તેને નેટવર્કના પ્રથમ સંસ્કરણ દ્વારા બાંધવામાં આવેલી સંયુક્ત સંભાવનાનું પુનઃનિર્માણ કરવું પડશે, જે તેને આવશ્યકપણે ખાલી જગ્યાઓ ભરીને ડેટાની વધુ સારી અને સારી રજૂઆતો બનાવવા માટે દબાણ કરે છે.
બે નેટવર્ક, સંયુક્ત સંભાવનાની સંપૂર્ણ પેટર્ન ધરાવતું અને અધૂરું સંસ્કરણ કે જેને તે પૂર્ણ કરવાનો પ્રયાસ કરી રહ્યું છે, તેને "શિક્ષક" અને "વિદ્યાર્થી" કહેવામાં આવે છે. વિદ્યાર્થી નેટવર્ક, જો તમે ઈચ્છો તો, શિક્ષકે પહેલેથી જે પ્રાપ્ત કર્યું છે તેનું પુનઃનિર્માણ કરીને ડેટાની તેની સમજ વિકસાવવાનો પ્રયાસ કરે છે.
તમે કરી શકો છો ગીથબ પર મોડલ્સ માટે કોડ જુઓ.
ન્યુરલ નેટવર્ક ત્રણ અત્યંત અલગ પ્રકારના ડેટા માટે શિક્ષક અને વિદ્યાર્થી કેવી રીતે કાર્ય કરે છે? મુખ્ય બાબત એ છે કે સંયુક્ત સંભાવનાનું "લક્ષ્ય", ત્રણેય ડેટા કેસોમાં, ચોક્કસ આઉટપુટ ડેટા પ્રકાર નથી, જેમ કે Googleના BERT અથવા OpenAIના GPT-3 જેવા ચોક્કસ ડેટા પ્રકાર માટે ટ્રાન્સફોર્મરના સંસ્કરણોમાં છે. .
તેના બદલે, data2vec ન્યુરલ નેટવર્ક સ્તરોના કેટલાક સમૂહને પકડી રહ્યું છે જે છે અંદર ન્યુરલ નેટવર્ક, મધ્યમાં ક્યાંક, જે દરેક અંતિમ આઉટપુટ તરીકે ઉત્પન્ન થાય તે પહેલા ડેટાનું પ્રતિનિધિત્વ કરે છે.
લેખકો લખે છે તેમ, "આપણી પદ્ધતિના મુખ્ય તફાવતોમાંનો એક […] માસ્ક કરેલ અનુમાન કરવા સિવાય, લક્ષ્યોનો ઉપયોગ છે જે શિક્ષક નેટવર્કમાંથી બહુવિધ સ્તરોની સરેરાશ પર આધારિત છે." ખાસ કરીને, "અમે ફક્ત ટોચના સ્તરને બદલે બહુવિધ ન્યુરલ નેટવર્ક સ્તરની રજૂઆતોને રીગ્રેસ કરીએ છીએ," જેથી કરીને "ડેટા2વેક ઇનપુટ ડેટાની ગુપ્ત રજૂઆતોની આગાહી કરે છે."
તેઓ ઉમેરે છે, "અમે સામાન્ય રીતે FFN [ફીડ-ફોરવર્ડ નેટવર્ક] ના આઉટપુટનો ઉપયોગ લક્ષ્ય તરીકે દરેક બ્લોકમાં છેલ્લા શેષ કનેક્શન પહેલાં કરીએ છીએ," જ્યાં "બ્લોક" એ ન્યુરલ નેટવર્ક સ્તરના ટ્રાન્સફોર્મર સમકક્ષ છે.
મુદ્દો એ છે કે દરેક ડેટા પ્રકાર જે અંદર જાય છે તે વિદ્યાર્થી નેટવર્ક માટે શિક્ષકે બનાવેલા ન્યુરલ નેટવર્કની અંદર કંઈક પુનઃનિર્માણ કરવાનો સમાન પડકાર બની જાય છે.
આ સરેરાશ તમામ ડેટાને ક્રંચ કરવા માટે એક નેટવર્ક બનાવવાના અન્ય તાજેતરના અભિગમોથી અલગ છે. ઉદાહરણ તરીકે, ગયા ઉનાળામાં, Google ના ડીપમાઇન્ડ યુનિટે તેને "પર્સીવર" તરીકે ઓળખાવ્યું, જે ટ્રાન્સફોર્મરનું પોતાનું મલ્ટિ-મોડલ સંસ્કરણ છે. પર્સીવર ન્યુરલ નેટવર્કની તાલીમ એ આઉટપુટ ઉત્પન્ન કરવાની વધુ પ્રમાણભૂત પ્રક્રિયા છે જે ઇમેજનેટ જેવા લેબલવાળા, દેખરેખ હેઠળના કાર્યનો જવાબ છે. સ્વ-નિરીક્ષણ અભિગમમાં, data2vec તે લેબલ્સનો ઉપયોગ કરતું નથી, તે ફક્ત ડેટાના નેટવર્કના આંતરિક પ્રતિનિધિત્વને પુનઃનિર્માણ કરવાનો પ્રયાસ કરી રહ્યું છે.
હજુ પણ વધુ મહત્વાકાંક્ષી પ્રયાસો પાંખોમાં છે. જેફ ડીન, ગૂગલના AI પ્રયાસોના વડા, ઓક્ટોબરમાં "પાથવેઝ" વિશે ટીઝ કરી હતી, જેનો ડીન દાવો કરે છે કે "નેક્સ્ટ જનરેશન AI આર્કિટેક્ચરમલ્ટી મોડલ ડેટા પ્રોસેસિંગ માટે.
તમને યાદ રાખો, બહુવિધ મોડલિટીઝ માટે એકલ ન્યુરલ નેટ માટે data2vec નો ખૂબ જ સામાન્ય અભિગમ હજુ પણ વિવિધ ડેટા પ્રકારો વિશે ઘણી બધી માહિતી ધરાવે છે. ઇમેજ, સ્પીચ અને ટેક્સ્ટ બધું જ ડેટાની પ્રી-પ્રોસેસિંગ દ્વારા તૈયાર કરવામાં આવે છે. તે રીતે, નેટવર્કનું મલ્ટિ-મોડલ પાસું હજી પણ ડેટા વિશેના સંકેતો પર આધાર રાખે છે, જેને ટીમ "નાના મોડલિટી-વિશિષ્ટ ઇનપુટ એન્કોડર્સ" તરીકે ઓળખે છે.
પણ: ગૂગલે 'પાથવેઝ'નું અનાવરણ કર્યું, એક નેક્સ્ટ-જન AI જેને મલ્ટીટાસ્ક માટે તાલીમ આપી શકાય છે
"યુનિફાઇડ લર્નિંગ સિસ્ટમ હોવા છતાં, અમે હજુ પણ મોડેલિટી-વિશિષ્ટ ફીચર એક્સ્ટ્રાક્ટર્સ અને માસ્કિંગ વ્યૂહરચનાઓનો ઉપયોગ કરીએ છીએ," તેઓ સમજાવે છે.
આથી, અમે હજુ સુધી એવી દુનિયામાં નથી કે જ્યાં ન્યુરલ નેટને કોઈપણ પ્રકારના ઇનપુટ ડેટાની સમજ વગર પ્રશિક્ષિત કરવામાં આવે છે. અમે એવા સમયે પણ નથી કે જ્યારે ન્યુરલ નેટવર્ક એક પ્રતિનિધિત્વ બનાવી શકે જે તમામ વિવિધ ડેટા પ્રકારોને જોડે, જેથી ન્યુરલ નેટ સંયોજનમાં વસ્તુઓ શીખી રહ્યું હોય.
તે હકીકત વચ્ચેના વિનિમયથી સ્પષ્ટ થાય છે ZDNet અને લેખકો. ZDNet બાએવસ્કી અને ટીમ સુધી પહોંચ્યા અને પૂછ્યું, "શું સુપ્ત રજૂઆતો જે લક્ષ્ય તરીકે સેવા આપે છે તે કોઈપણ સમયે ત્રણેય મોડલિટીનું સંયુક્ત એન્કોડિંગ છે, અથવા તે સામાન્ય રીતે માત્ર એક મોડલિટીઝ છે?"
બેવસ્કી અને ટીમ જવાબ આપે છે કે તે પછીનો કેસ છે, અને તેમનો reply લંબાઈમાં અવતરણ કરવું રસપ્રદ છે:
સુપ્ત ચલો એ ત્રણ પદ્ધતિઓ માટે સંયુક્ત એન્કોડિંગ નથી. અમે દરેક મોડલિટી માટે અલગ-અલગ મોડલને તાલીમ આપીએ છીએ પરંતુ જે પ્રક્રિયા દ્વારા મોડલ શીખે છે તે સમાન છે. આ અમારા પ્રોજેક્ટની મુખ્ય નવીનતા છે કારણ કે પહેલા મોડલને વિવિધ મોડલિટીમાં કેવી રીતે તાલીમ આપવામાં આવે છે તેમાં મોટા તફાવત હતા. ન્યુરોસાયન્ટિસ્ટો પણ માને છે કે માનવીઓ અવાજો અને દ્રશ્ય વિશ્વ વિશે સમાન રીતે શીખે છે. અમારો પ્રોજેક્ટ બતાવે છે કે સ્વ-નિરીક્ષિત શિક્ષણ પણ વિવિધ પદ્ધતિઓ માટે સમાન રીતે કાર્ય કરી શકે છે.
data2vec ની મોડેલિટી-વિશિષ્ટ મર્યાદાઓને જોતાં, એક ન્યુરલ નેટવર્ક જે ખરેખર હોઈ શકે છે તે બધા પર શાસન કરવા માટે એક નેટવર્ક ભવિષ્યની ટેકનોલોજી રહે છે.