DeepMind-ის 'გატო' უღიმღამოა, რატომ ააშენეს იგი?

deepmind-gato-slash-image-closer-in.png

DeepMind-ის "Gato" ნერვული ქსელი აჯობებს მრავალ ამოცანას, მათ შორისაა რობოტული იარაღის კონტროლი, რომლებიც ბლოკავს ბლოკებს, თამაშობს Atari 2600 თამაშების და სურათების წარწერას.


Deepmind

მსოფლიო მიჩვეულია ნახოს სათაურები ხელოვნური ინტელექტის ღრმა სწავლის ფორმების უახლესი გარღვევის შესახებ. თუმცა, Google-ის DeepMind-ის განყოფილების უახლესი მიღწევა შეიძლება შეჯამდეს, როგორც: „ერთ AI პროგრამა, რომელიც ბევრ რამეში ასე მუშაობს“. 

გატო, როგორც DeepMind-ის პროგრამას ჰქვია, ამ კვირაში გაიხსნა როგორც ეგრეთ წოდებული მულტიმოდალური პროგრამა, რომელსაც შეუძლია ვიდეო თამაშების თამაში, ჩატი, კომპოზიციების დაწერა, სურათების წარწერა და რობოტი ხელების დაწყობის ბლოკების მართვა. ეს არის ერთი ნერვული ქსელი, რომელსაც შეუძლია იმუშაოს მრავალი სახის მონაცემით მრავალი სახის ამოცანის შესასრულებლად. 

„წონების ერთი ნაკრებით გატოს შეუძლია დიალოგში ჩაერთოს, ნახატების წარწერა, ბლოკების დაწყობა ნამდვილი რობოტის მკლავით, აჯობა ადამიანებს Atari თამაშების დროს, ნავიგაცია სიმულირებული 3D გარემოში, დაიცვას ინსტრუქციები და სხვა“, წერს წამყვანი ავტორი სკოტ რიდი. და კოლეგები თავიანთ ნაშრომში "გენერალისტი აგენტი" გამოქვეყნებულია Arxiv preprint სერვერზე

DeepMind-ის თანადამფუძნებელი დემის ჰასაბისი გულშემატკივრობდა გუნდს, იძახის ტვიტერში"ჩვენი ყველაზე გენერალური აგენტი ჯერ!! ფანტასტიკური ნამუშევარი გუნდისგან!” 

ასევე: ახალი ექსპერიმენტი: AI ნამდვილად იცნობს კატებს ან ძაღლებს - ან რამეს?

ერთადერთი დაჭერა არის ის, რომ გატო ფაქტობრივად არც ისე კარგია რამდენიმე დავალების შესრულებაში. 

ერთის მხრივ, პროგრამას შეუძლია უკეთესად გააკეთოს, ვიდრე გამოყოფილი მანქანური სწავლის პროგრამა, აკონტროლოს რობოტი Sawyer-ის მკლავი, რომელიც აწყობს ბლოკებს. მეორეს მხრივ, ის აწარმოებს წარწერებს სურათებისთვის, რომლებიც ხშირ შემთხვევაში საკმაოდ ცუდია. ადამიანის თანამოსაუბრესთან სტანდარტული ჩეთის დიალოგის უნარი ანალოგიურად უღიმღამოა, ზოგჯერ იწვევს ურთიერთსაწინააღმდეგო და უაზრო გამონათქვამებს. 

და Atari 2600 ვიდეო თამაშების თამაში ჩამოუვარდება ყველაზე თავდადებულ ML პროგრამებს, რომლებიც შექმნილია ეტალონში კონკურენციის მიზნით. არკადული სასწავლო გარემო

რატომ შექმნით პროგრამას, რომელიც ზოგიერთ რამეს კარგად აკეთებს და ბევრ სხვა რამეს არც ისე კარგად? პრეცედენტი და მოლოდინი, ავტორების აზრით. 

არსებობს პრეცედენტი იმისა, რომ უფრო ზოგადი ტიპის პროგრამები გახდეს ხელოვნური ხელოვნური ინტელექტის სფეროში, და არსებობს მოლოდინი, რომ გამოთვლითი სიმძლავრის გაზრდილი რაოდენობა მომავალში შეავსებს ხარვეზებს. 

ზოგადად შეიძლება მიდრეკილი იყოს ტრიუმფი AI-ში. როგორც ავტორები აღნიშნავენ, ხელოვნური ინტელექტის მკვლევარ რიჩარდ სატონს ციტირებენ, „ისტორიულად, ზოგადი მოდელები, რომლებიც უკეთესად სარგებლობენ გამოთვლებით, საბოლოოდ აჭარბებენ უფრო სპეციალიზებულ დომენის სპეციფიკურ მიდგომებს“.

როგორც სატონმა დაწერა საკუთარ ბლოგ პოსტში”ყველაზე დიდი გაკვეთილი, რომელიც შეიძლება წაიკითხოთ 70 წლიანი AI კვლევის შედეგად, არის ის, რომ ზოგადი მეთოდები, რომლებიც გამოთვლის ბერკეტს იყენებენ, საბოლოო ჯამში ყველაზე ეფექტურია და დიდი სხვაობით.”

რიდი და გუნდი წერენ ფორმალურ თეზისში, რომ „ჩვენ აქ ვამოწმებთ ჰიპოთეზას, რომ შესაძლებელია აგენტის მომზადება, რომელსაც ზოგადად შეუძლია დიდი რაოდენობის ამოცანების შესრულება; და რომ ეს გენერალური აგენტი შეიძლება იყოს ადაპტირებული მცირე დამატებითი მონაცემებით, რათა მიაღწიოს წარმატებას დავალებების კიდევ უფრო დიდ რაოდენობაში. ”

ასევე: Meta-ს ხელოვნური ინტელექტის მნათობი LeCun იკვლევს ღრმა სწავლის ენერგეტიკულ ზღვარს

მოდელი, ამ შემთხვევაში, მართლაც ძალიან ზოგადია. ეს არის ტრანსფორმატორის ვერსია, ყურადღებაზე დაფუძნებული მოდელის დომინანტური ტიპი, რომელიც გახდა მრავალი პროგრამის საფუძველი, მათ შორის GPT-3. ტრანსფორმატორი აყალიბებს ზოგიერთი ელემენტის ალბათობას მის გარშემო არსებული ელემენტების გათვალისწინებით, როგორიცაა სიტყვები წინადადებაში. 

გატოს შემთხვევაში, DeepMind-ის მეცნიერებს შეუძლიათ გამოიყენონ იგივე პირობითი ალბათობის ძიება მრავალრიცხოვან მონაცემთა ტიპებზე. 

როგორც რიდი და კოლეგები აღწერენ გატოს ვარჯიშის ამოცანას, 

გატოს ტრენინგის ფაზაში, მონაცემები სხვადასხვა ამოცანებიდან და მოდალობებიდან სერიდება ტოკენების ბრტყელ თანმიმდევრობაში, ჯგუფდება და მუშავდება ტრანსფორმატორის ნერვული ქსელით, რომელიც მსგავსია დიდი ენობრივი მოდელის. დანაკარგი ნიღბავს ისე, რომ გატო მხოლოდ მოქმედების და ტექსტის მიზნებს იწინასწარმეტყველებს.

სხვა სიტყვებით რომ ვთქვათ, გატო არ ეპყრობა ტოკენებს განსხვავებულად, იქნება ეს სიტყვები ჩატში თუ მოძრაობის ვექტორები ბლოკების დაწყობის სავარჯიშოში. სულ ერთია. 

deepmind-how-gato-is-trained.png

გატოს ვარჯიშის სცენარი.


რიდი და სხვ. 2022 წელი

რიდისა და გუნდის ჰიპოთეზაში ჩაფლული არის დასკვნა, კერძოდ, რომ უფრო და უფრო მეტი გამოთვლითი ძალა გაიმარჯვებს, საბოლოოდ. ამჟამად გატო შემოიფარგლება სოიერის რობოტის მკლავის რეაგირების დროით, რომელიც ასრულებს ბლოკის დაწყობას. 1.18 მილიარდი ქსელის პარამეტრით, Gato გაცილებით მცირეა, ვიდრე ძალიან დიდი AI მოდელები, როგორიცაა GPT-3. რაც უფრო ფართოვდება ღრმა სწავლის მოდელები, დასკვნის შესრულება იწვევს შეყოვნებას, რომელიც შეიძლება ჩავარდეს რეალურ სამყაროში რობოტის არადეტერმინისტულ სამყაროში. 

მაგრამ, რიდი და კოლეგები იმედოვნებენ, რომ ეს ზღვარი გადააჭარბებს, რადგან ხელოვნური ინტელექტის აპარატურა დამუშავებისას უფრო სწრაფად ხდება.

„ჩვენ ფოკუსირებას ვაკეთებთ ჩვენს ტრენინგზე მოდელის მასშტაბის ოპერაციულ წერტილზე, რომელიც საშუალებას იძლევა რეალურ დროში გააკონტროლონ რეალურ სამყაროში არსებული რობოტები, ამჟამად დაახლოებით 1.2B პარამეტრი გატოს შემთხვევაში“, - წერენ ისინი. „ტექნიკისა და მოდელის არქიტექტურის გაუმჯობესებასთან ერთად, ეს ოპერაციული წერტილი ბუნებრივად გაზრდის მოდელის მისაღებ ზომას, რაც გენერალისტულ მოდელებს სკალირების კანონის მრუდზე მაღლა აყენებს“.

მაშასადამე, გატო ნამდვილად არის მოდელი იმისა, თუ როგორ გააგრძელებს გამოთვლების მასშტაბი იყოს მანქანათმცოდნეობის განვითარების მთავარი ვექტორი, ზოგადი მოდელების უფრო და უფრო ფართო გაზრდით. სხვა სიტყვებით რომ ვთქვათ, უფრო დიდი უკეთესია. 

deepmind-gets-better-with-scale.png

გატო უმჯობესდება, როცა იზრდება ნერვული ქსელის ზომა პარამეტრებში.


რიდი და სხვ. 2022 წელი

და ავტორებს ამის გარკვეული მტკიცებულება აქვთ. როგორც ჩანს, გატო უმჯობესდება, რაც უფრო დიდი ხდება. ისინი ადარებენ საშუალო ქულებს ყველა საორიენტაციო ამოცანისთვის სამი ზომის მოდელის პარამეტრების მიხედვით, 79 მილიონი, 364 მილიონი და მთავარი მოდელი, 1.18 მილიარდი. „ჩვენ ვხედავთ, რომ ექვივალენტური ნიშნების დათვლისთვის, არის მნიშვნელოვანი გაუმჯობესებული ეფექტურობა გაზრდილი მასშტაბით“, წერენ ავტორები. 

საინტერესო სამომავლო კითხვაა არის თუ არა პროგრამა, რომელიც არის გენერალისტი უფრო საშიში, ვიდრე სხვა სახის AI პროგრამები. ავტორები დიდ დროს ატარებენ ნაშრომში იმის განხილვაზე, რომ არსებობს პოტენციური საფრთხეები, რომლებიც ჯერ კარგად არ არის გასაგები.  

პროგრამის იდეა, რომელიც გაუმკლავდება მრავალ დავალებას, უბრალო ადამიანს მიანიშნებს ადამიანის ადაპტირებაზე, მაგრამ ეს შეიძლება იყოს საშიში არასწორი აღქმა. „მაგალითად, ფიზიკურმა განსახიერებამ შეიძლება გამოიწვიოს მომხმარებლებმა აგენტის ანთროპომორფიზაცია, რაც გამოიწვიოს არასწორი ნდობა გაუმართავი სისტემის შემთხვევაში, ან გამოიყენოს ცუდი მსახიობები“, წერენ რიდი და გუნდი. 

გარდა ამისა, მიუხედავად იმისა, რომ დომენებს შორის ცოდნის გადაცემა ხშირად არის მიზანი ML კვლევაში, ამან შეიძლება გამოიწვიოს მოულოდნელი და არასასურველი შედეგები, თუ გარკვეული ქცევები (მაგ. არკადული თამაშების ბრძოლა) არასწორ კონტექსტში გადაინაცვლებს.

აქედან გამომდინარე, ისინი წერენ: „ცოდნის გადაცემის ეთიკისა და უსაფრთხოების მოსაზრებები შეიძლება მოითხოვდეს არსებით ახალ კვლევას, რადგან განზოგადებული სისტემები წინ მიიწევს“.

(საინტერესო გვერდის სახით, გატოს ნაშრომი იყენებს სქემას Google AI-ის ყოფილი მკვლევარის, მარგარეტ მიშელის და კოლეგების მიერ შემუშავებული რისკის აღსაწერად, სახელწოდებით Model Cards. მოდელის ბარათები იძლევა მოკლე შეჯამებას იმის შესახებ, თუ რა არის AI პროგრამა, რას აკეთებს ის და რას. ფაქტორები გავლენას ახდენენ მის მუშაობაზე. მიშელმა გასულ წელს დაწერა, რომ იგი იძულებული გახდა დაეტოვებინა Google-ი მისი ყოფილი კოლეგის, ტიმნიტ გებრუს მხარდაჭერის გამო, რომლის ეთიკური შეშფოთება ხელოვნური ინტელექტის გამო Google-ის AI ხელმძღვანელობას ეწინააღმდეგებოდა.)

გატო არ არის უნიკალური თავისი განზოგადების ტენდენციით. ეს არის განზოგადების ფართო ტენდენციის ნაწილი და უფრო დიდი მოდელები, რომლებიც იყენებენ ცხენის ძალის თაიგულებს. მსოფლიომ პირველად გაიგო Google-ის ამ მიმართულებით დახრილობა გასულ ზაფხულს, Google-ის „Perceiver“ ნერვული ქსელით, რომელიც აერთიანებდა ტექსტურ ტრანსფორმატორის ამოცანებს სურათებთან, ხმასთან და LiDAR სივრცულ კოორდინატებთან.

ასევე: Google-ის სუპერმოდელი: DeepMind Perceiver არის ნაბიჯი გზაზე AI აპარატისკენ, რომელსაც შეუძლია ყველაფრის და ყველაფრის დამუშავება

მის თანატოლებს შორის არის PaLM, Pathways Language Model, წელს Google-ის მეცნიერებმა წარმოადგინეს540 მილიარდი პარამეტრიანი მოდელი, რომელიც იყენებს ახალ ტექნოლოგიას ათასობით ჩიპის კოორდინაციისთვის, ცნობილია როგორც ბილიკები, ასევე გამოიგონეს Google-ში. Meta-ს მიერ იანვარში გამოშვებული ნერვული ქსელი, სახელწოდებით "data2vec", იყენებს ტრანსფორმატორებს გამოსახულების მონაცემებისთვის, მეტყველების აუდიო ტალღის ფორმებისთვის და ტექსტის ენის წარმოდგენისთვის. 

როგორც ჩანს, გატოს შესახებ ახალი არის განზრახვა აიღოს ხელოვნური ინტელექტი, რომელიც გამოიყენება არა რობოტიკული ამოცანების შესასრულებლად და რობოტიკის სფეროში.

Gato-ს შემქმნელები, რომლებიც აღნიშნავენ Pathways-ის და სხვა გენერალისტული მიდგომების მიღწევებს, ხედავენ საბოლოო მიღწევას AI-ში, რომელსაც შეუძლია რეალურ სამყაროში მოქმედება, ნებისმიერი სახის ამოცანებით. 

„მომავალმა მუშაობამ უნდა განიხილოს, თუ როგორ უნდა გააერთიანოს ეს ტექსტის შესაძლებლობები ერთ სრულად გენერალისტულ აგენტად, რომელსაც შეუძლია ასევე იმოქმედოს რეალურ დროში რეალურ სამყაროში, მრავალფეროვან გარემოში და განსახიერებაში“. 

მაშასადამე, გატო შეგიძლიათ განიხილოთ, როგორც მნიშვნელოვანი ნაბიჯი ხელოვნური ინტელექტის ყველაზე რთული პრობლემის, რობოტიკის გადაჭრის გზაზე. 



წყარო