Meta-ს 'data2vec' არის შემდეგი ნაბიჯი ერთი ნერვული ქსელისკენ, რომ მართოს ისინი ყველა

რბოლა მიმდინარეობს ერთი ნერვული ქსელის შესაქმნელად, რომელსაც შეუძლია მრავალი სახის მონაცემების დამუშავება, უფრო ზოგადი ხელოვნური ინტელექტის ცნება, რომელიც არ განასხვავებს მონაცემთა ტიპებს, მაგრამ სანაცვლოდ, შეუძლია მათ ყველა ერთი და იგივე ძირითადი სტრუქტურის ფარგლებში გააფუჭოს.

მულტი-მოდალობის ჟანრი, როგორც ამ ნერვულ ქსელებს უწოდებენ, არის აქტივობების მოზღვავება, რომელშიც სხვადასხვა მონაცემები, როგორიცაა სურათი, ტექსტი და მეტყველების აუდიო, გადადის ერთი და იმავე ალგორითმში, რათა მიიღონ ქულა სხვადასხვა ტესტებზე, როგორიცაა გამოსახულების ამოცნობა, ბუნებრივი ენის გაგება ან მეტყველების ამოცნობა.

და ეს ორმხრივი ქსელები აგროვებენ ქულებს ხელოვნური ინტელექტის საორიენტაციო ტესტებზე. უახლესი მიღწევა არის ის, რასაც ჰქვია 'data2vec', რომელიც შემუშავებულია Meta-ს AI განყოფილების მკვლევარებმა, Facebook-ის, Instagram-ისა და WhatsApp-ის მშობელი. 

როგორც მეტას მეცნიერები, ალექსეი ბაევსკი, ვეი-ნინგ ჰსუ, ციანტონგ ქსუ, არუნ ბაბუ, ჯიატაო გუ და მაიკლ აული წერენ, მთავარია მივუდგეთ რაღაც ზოგად სწავლის უნარს, რომელსაც თითქოს ადამიანის გონება მოიცავს.

„როდესაც ადამიანები, როგორც ჩანს, სწავლობენ ანალოგიურად, მიუხედავად იმისა, თუ როგორ იღებენ ინფორმაციას - იყენებენ თუ არა მხედველობას თუ ხმას, მაგალითად,“ - წერენ ავტორები. წელს დღიურში შეტყობინება, „ამჟამად დიდი განსხვავებებია“ ნერვული ქსელები ამუშავებენ სხვადასხვა ტიპის მონაცემებს, როგორიცაა სურათები, მეტყველება, ტექსტი, „და სხვა მოდალობა“.

”ამ მიდგომის მთავარი იდეა, - აცხადებენ ისინი data2vec-ში, - არის უფრო ზოგადი სწავლა: AI-ს უნდა შეეძლოს ისწავლოს მრავალი განსხვავებული ამოცანის შესრულება, მათ შორის სრულიად უცნობი.

Meta-ს აღმასრულებელმა დირექტორმა, მარკ ცუკერბერგმა შესთავაზა ციტატა ნამუშევრის შესახებ, რომელიც დაუკავშირა მას მომავალ Metaverse-ს:

ამაღელვებელი მიღწევა: Meta AI-ს კვლევამ შექმნა სისტემა, რომელიც სწავლობს მეტყველების, ხედვისა და ტექსტის სწავლის გარეშე, ეტიკეტირებული ტრენინგის მონაცემების საჭიროების გარეშე. ადამიანები განიცდიან სამყაროს მხედველობის, ბგერისა და სიტყვების კომბინაციით, და მსგავსი სისტემები ერთ დღეს შეძლებს სამყაროს გაგებას ისე, როგორც ჩვენ ვაკეთებთ. ეს ყველაფერი საბოლოოდ ჩაშენდება AR სათვალეებში ხელოვნური ინტელექტის ასისტენტით, ასე რომ, მაგალითად, ის დაგეხმარებათ სადილის მომზადებაში, შეამჩნევთ თუ არა რომელიმე ინგრედიენტს, გიბიძგებთ შეამციროთ სითბო ან უფრო რთული ამოცანები.

სახელი data2vec არის პროგრამის სახელზე თამაში ენის „ჩანერგვისთვის“ შეიქმნა Google-ში 2013 წელს სახელწოდებით "word2vec". ამ პროგრამამ იწინასწარმეტყველა, თუ როგორ გროვდება სიტყვები ერთმანეთთან და, შესაბამისად, word2vec ის წარმოადგენს ნერვულ ქსელს, რომელიც შექმნილია კონკრეტული ტიპის მონაცემებისთვის, ამ შემთხვევაში ტექსტისთვის. 

ასევე: გახსენით ყდის კარები, გთხოვთ, HAL: Meta's AI ახდენს ტუჩის წაკითხვის სიმულაციას

თუმცა, data2vec-ის შემთხვევაში, ბაევსკი და კოლეგები იღებენ ტრანსფორმატორის სტანდარტულ ვერსიას, რომელიც შემუშავებულია აშიშ ვასვანისა და კოლეგების მიერ. Google-ში 2017 წელს და მისი გაფართოება, რათა გამოიყენებოდეს მრავალი მონაცემთა ტიპისთვის. 

ტრანსფორმერის ნერვული ქსელი თავდაპირველად შეიქმნა ენობრივი ამოცანებისთვის, მაგრამ წლების განმავლობაში იგი ფართოდ იქნა ადაპტირებული მრავალი სახის მონაცემისთვის. ბაევსკი და სხვ. აჩვენეთ, რომ ტრანსფორმატორი შეიძლება გამოყენებულ იქნას მრავალი სახის მონაცემების გადასამუშავებლად, შეცვლილების გარეშე, და გაწვრთნილ ნერვულ ქსელს, რომელსაც შედეგები შეუძლია შეასრულოს მრავალი განსხვავებული დავალება. 

ოფიციალურ ნაშრომში "data2vec: ზოგადი ჩარჩო მეტყველების, ხედვისა და ენის თვითკონტროლირებადი სწავლისთვის”, ბაევსკი და სხვები, ავარჯიშებენ ტრანსფორმერს გამოსახულების მონაცემების, მეტყველების აუდიო ტალღის ფორმებისა და ტექსტის ენის წარმოდგენისთვის. 

Data2vec არის „პირველი მაღალი ხარისხის თვითკონტროლირებადი ალგორითმი, რომელიც მუშაობს მრავალი მოდალობისთვის, კერძოდ მეტყველების, ხედვისა და ტექსტისთვის“, წერენ ბაევსკი და გუნდი ბლოგ პოსტში.

ძალიან ზოგადი ტრანსფორმერი ხდება ის, რასაც ეწოდება წინასწარი ტრენინგი, რომელიც შეიძლება გამოყენებულ იქნას კონკრეტულ ნერვულ ქსელებზე, რათა შეასრულოს კონკრეტული ამოცანები. მაგალითად, ავტორები იყენებენ data2vec-ს, როგორც წინასწარ ტრენინგს, რათა აღჭურონ ის, რასაც ჰქვია "ViT", "ხედვის ტრანსფორმატორი", ნეირონული ქსელი, რომელიც სპეციალურად შექმნილია მხედველობის ამოცანებისთვის. გასულ წელს დაინერგა ალექსეი დოსოვიცკის და Google-ის კოლეგების მიერ. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta აჩვენებს საუკეთესო ქულებს პატივცემული ImageNet გამოსახულების ამოცნობის კონკურსისთვის.


მიზანი 2022

როდესაც გამოიყენება ViT-ზე გამოსახულების ამოცნობის სტანდარტული ImageNet ტესტის გადასაჭრელად, მათი შედეგები ჩნდება პაკეტის ზედა ნაწილში, სიზუსტით 84.1%, უკეთესია, ვიდრე Microsoft-ის გუნდის მიერ წინასწარ გაწვრთნილი გუნდის მიერ მიღებული ქულა 83.2%. ViT, ხელმძღვანელობით Hangbo Bao, გასულ წელს.

და იგივე data2vec Transformer გამოსცემს შედეგებს, რომლებიც თანამედროვეა მეტყველების ამოცნობისთვის და კონკურენტუნარიანი, თუ არა საუკეთესო, ბუნებრივი ენის შესწავლისთვის:

ექსპერიმენტულმა შედეგებმა აჩვენა, რომ data2vec ეფექტურია სამივე მოდალობაში, აყალიბებს ახალ დონეს ViT-B-სთვის და ViT-L-ისთვის ImageNet-1K-ზე, აუმჯობესებს მეტყველების დამუშავების საუკეთესო წინა სამუშაოებს მეტყველების ამოცნობაზე და ასრულებს RoBERTa-ს ტოლფასს. GLUE ბუნებრივი ენის გაგების ნიშნულზე. 

მთავარი ის არის, რომ ეს ხდება ნერვული ქსელის ყოველგვარი მოდიფიკაციის გარეშე, რაც ეხება სურათებს, იგივე მეტყველებასა და ტექსტს. ამის ნაცვლად, ყველა შეყვანის ტიპი მიდის იმავე ქსელში და ასრულებს იმავე ძალიან ზოგად ამოცანას. ეს ამოცანა არის იგივე ამოცანა, რომელსაც ყოველთვის იყენებენ ტრანსფორმატორის ქსელები, რომელიც ცნობილია როგორც "ნიღბიანი პროგნოზი". 

ასევე: Google-ის სუპერმოდელი: DeepMind Perceiver არის ნაბიჯი გზაზე AI აპარატისკენ, რომელსაც შეუძლია ყველაფრის და ყველაფრის დამუშავება

თუმცა, თუ როგორ ასრულებს data2vec ნიღბიან პროგნოზს, არის მიდგომა, რომელიც ცნობილია როგორც „თვით ზედამხედველობითი“ სწავლა. თვითმმართველობის ზედამხედველობის პირობებში, ნერვული ქსელი ივარჯიშება ან ვითარდება, რამდენიმე ეტაპის გავლის გზით. 

პირველ რიგში, ქსელი აყალიბებს მონაცემთა შეყვანის ერთობლივი ალბათობის წარმოდგენას, იქნება ეს სურათები, მეტყველება თუ ტექსტი. შემდეგ, ქსელის მეორე ვერსიას აქვს შეყვანილი მონაცემების ზოგიერთი ელემენტი "ნიღბიანი", რომელიც გამოუცნობია. მან უნდა აღადგინოს ერთობლივი ალბათობა, რომელიც ააშენა ქსელის პირველმა ვერსიამ, რაც აიძულებს მას შექმნას მონაცემების უკეთესი და უკეთესი წარმოდგენები არსებითად ცარიელი ადგილების შევსებით. 

meta-2022-data2vec-network-architecture.jpg

data2vec მიდგომის მიმოხილვა.


მიზანი 2022

ორ ქსელს, ერთს ერთობლივი ალბათობის სრული ნიმუშით და ერთი არასრული ვერსიით, რომლის დასრულებას ცდილობს, გონივრულად უწოდებენ "მასწავლებელს" და "სტუდენტს". სტუდენტური ქსელი ცდილობს განავითაროს მონაცემების გრძნობა, თუ გნებავთ, მასწავლებელმა უკვე მიღწეულის რეკონსტრუქციით.

სისტემაში იხილეთ მოდელების კოდი Github-ზე.

როგორ მუშაობს ნერვული ქსელი მასწავლებელსა და სტუდენტზე სამი ძალიან განსხვავებული ტიპის მონაცემებისთვის? მთავარია, რომ ერთობლივი ალბათობის „სამიზნე“, სამივე მონაცემთა შემთხვევაში, არ არის კონკრეტული გამომავალი მონაცემთა ტიპი, როგორც ეს ხდება ტრანსფორმატორის ვერსიებში კონკრეტული ტიპის მონაცემებისთვის, როგორიცაა Google-ის BERT ან OpenAI-ს GPT-3. . 

პირიქით, data2vec ითვისებს ნერვული ქსელის რამდენიმე ფენას, რომელიც არის შიგნით ნერვული ქსელი, სადღაც შუაში, რომელიც წარმოადგენს მონაცემებს, სანამ ისინი წარმოიქმნება როგორც საბოლოო გამომავალი. 

როგორც ავტორები წერენ, „ჩვენი მეთოდის ერთ-ერთი მთავარი განსხვავება […], გარდა ნიღბიანი პროგნოზის შესრულებისა, არის სამიზნეების გამოყენება, რომლებიც დაფუძნებულია მასწავლებელთა ქსელის მრავალ ფენის საშუალოდ მიღებაზე“. კონკრეტულად, „ჩვენ რეგრესირებს მრავალი ნერვული ქსელის ფენის წარმოდგენას მხოლოდ ზედა ფენის ნაცვლად“, ასე რომ „data2vec იწინასწარმეტყველებს შეყვანის მონაცემების ლატენტურ წარმოდგენებს“.

ისინი ამატებენ: „ჩვენ ზოგადად ვიყენებთ FFN-ის [მიწოდების ქსელის] გამოსავალს თითოეულ ბლოკში ბოლო ნარჩენ კავშირამდე, როგორც სამიზნე“, სადაც „ბლოკი“ არის ნერვული ქსელის ფენის ტრანსფორმატორის ეკვივალენტი.

საქმე იმაშია, რომ მონაცემთა ყველა ტიპი, რომელიც შედის, ხდება იგივე გამოწვევა სტუდენტური ქსელისთვის, რათა აღადგინოს რაღაც ნერვული ქსელის შიგნით, რომელიც მასწავლებელმა შექმნა.

ეს საშუალო მაჩვენებელი განსხვავდება სხვა ბოლოდროინდელი მიდგომებისგან ერთი ქსელის აშენების მიზნით ყველა მონაცემის ჩახშობისთვის. მაგალითად, გასულ ზაფხულს, Google-ის DeepMind-ის ერთეულმა შესთავაზა ის, რასაც მას "Perceiver" უწოდებს, Transformer-ის საკუთარი მრავალმოდალური ვერსია. Perceiver ნერვული ქსელის ტრენინგი არის უფრო სტანდარტული პროცესი გამოსავლის წარმოებისთვის, რომელიც არის პასუხი ლეიბლირებულ, ზედამხედველობით ამოცანებზე, როგორიცაა ImageNet. თვითმმართველობის ზედამხედველობით მიდგომაში, data2vec არ იყენებს ამ ეტიკეტებს, ის უბრალოდ ცდილობს ქსელის მონაცემების შიდა წარმოდგენის რეკონსტრუქციას. 

კიდევ უფრო ამბიციური ძალისხმევა ფრთებში დევს. ჯეფ დინმა, Google-ის AI ძალისხმევის ხელმძღვანელმა, ოქტომბერში აინტერესებდა „Pathways“-ის შესახებ, რასაც დინი ამტკიცებს, რომ არის „შემდეგი თაობის AI არქიტექტურა” მონაცემთა მრავალმოდალური დამუშავებისთვის.

გაითვალისწინეთ, data2vec-ის ძალიან ზოგად მიდგომას ერთი ნერვული ქსელის მიმართ მრავალი მოდალობისთვის ჯერ კიდევ აქვს ბევრი ინფორმაცია მონაცემთა სხვადასხვა ტიპების შესახებ. სურათი, მეტყველება და ტექსტი მომზადებულია მონაცემების წინასწარი დამუშავებით. ამგვარად, ქსელის მრავალმოდალური ასპექტი კვლავ ეყრდნობა მონაცემებს, რასაც გუნდი მოიხსენიებს, როგორც „მცირე მოდალობის სპეციფიკური შეყვანის შიფრატორები“.

ასევე: Google-მა წარმოადგინა "Pathways", შემდეგი თაობის ხელოვნური ინტელექტი, რომელიც შეიძლება ივარჯიშოთ მრავალ ამოცანების შესასრულებლად

„მიუხედავად ერთიანი სწავლის რეჟიმისა, ჩვენ მაინც ვიყენებთ მოდალობის სპეციფიკურ მახასიათებლებსა და ნიღბის სტრატეგიებს“, განმარტავენ ისინი.

მაშასადამე, ჩვენ ჯერ კიდევ არ ვართ სამყაროში, სადაც ნერვული ქსელი გაწვრთნილი იქნება მონაცემთა შეყვანის ტიპების გარეშე. ჩვენ ასევე არ ვართ იმ მომენტში, როდესაც ნერვულ ქსელს შეუძლია შექმნას ერთი წარმოდგენა, რომელიც აერთიანებს მონაცემთა ყველა სხვადასხვა ტიპს, ისე, რომ ნერვული ქსელი სწავლობს ნივთებს კომბინაციაში.

ეს ფაქტი ირკვევა მათ შორის გაცვლითი იქნებით აქტიური ფორუმში და ავტორები. იქნებით აქტიური ფორუმში მიუახლოვდა ბაევსკის და გუნდს და ჰკითხა: „არის თუ არა ლატენტური წარმოდგენები, რომლებიც მიზნად ისახავს სამივე მოდალობის კომბინირებულ დაშიფვრას დროის მოცემულ ეტაპზე, თუ ისინი ჩვეულებრივ მხოლოდ ერთ-ერთი მოდალობაა?

ბაევსკი და გუნდი პასუხობენ, რომ ეს უკანასკნელი შემთხვევაა და მათი reply საინტერესოა ვრცლად ციტირება:

ლატენტური ცვლადები არ არის სამი მოდალობის კომბინირებული კოდირება. ჩვენ ვამზადებთ ცალკეულ მოდელებს თითოეული მოდალისთვის, მაგრამ პროცესი, რომლის მეშვეობითაც მოდელები სწავლობენ, იდენტურია. ეს არის ჩვენი პროექტის მთავარი ინოვაცია, რადგან ადრე იყო დიდი განსხვავებები მოდელების მომზადების სხვადასხვა მოდალობაში. ნეირომეცნიერები ასევე თვლიან, რომ ადამიანები ბგერებისა და ვიზუალური სამყაროს შესახებ ანალოგიურად სწავლობენ. ჩვენი პროექტი გვიჩვენებს, რომ თვითმმართველობის ზედამხედველობით სწავლას შეუძლია ასევე იმუშაოს ერთნაირად სხვადასხვა მოდალობაზე.

data2vec-ის მოდალობის სპეციფიკური შეზღუდვების გათვალისწინებით, ნერვული ქსელი შეიძლება მართლაც იყოს ერთი ქსელი მართოს მათ ყველა რჩება მომავლის ტექნოლოგიად.

წყარო