Το 'Gato' των DeepMind είναι μέτριο, οπότε γιατί το έφτιαξαν;

deepmind-gato-slash-image-closer-in.png

Το νευρωνικό δίκτυο «Gato» της DeepMind υπερέχει σε πολυάριθμες εργασίες, όπως ο έλεγχος ρομποτικών βραχιόνων που στοιβάζουν μπλοκ, η αναπαραγωγή παιχνιδιών Atari 2600 και η δημιουργία λεζάντας εικόνων.


Deepmind

Ο κόσμος έχει συνηθίσει να βλέπει πρωτοσέλιδα σχετικά με την πιο πρόσφατη ανακάλυψη από μορφές βαθιάς μάθησης τεχνητής νοημοσύνης. Το πιο πρόσφατο επίτευγμα του τμήματος DeepMind της Google, ωστόσο, θα μπορούσε να συνοψιστεί ως: "Ένα πρόγραμμα τεχνητής νοημοσύνης που κάνει τόσο δουλειά σε πολλά πράγματα". 

Gato, όπως ονομάζεται το πρόγραμμα του DeepMind, αποκαλύφθηκε αυτή την εβδομάδα ως ένα λεγόμενο πολυτροπικό πρόγραμμα, ένα πρόγραμμα που μπορεί να παίξει βιντεοπαιχνίδια, να συνομιλήσει, να γράψει συνθέσεις, να γράψει φωτογραφίες και να ελέγξει έναν ρομποτικό βραχίονα στοίβαξης μπλοκ. Είναι ένα νευρωνικό δίκτυο που μπορεί να λειτουργήσει με πολλαπλά είδη δεδομένων για την εκτέλεση πολλαπλών ειδών εργασιών. 

«Με ένα ενιαίο σύνολο βαρών, ο Gato μπορεί να συμμετάσχει σε διαλόγους, να κάνει λεζάντες σε εικόνες, να στοιβάζει μπλοκ με έναν πραγματικό βραχίονα ρομπότ, να ξεπερνά τους ανθρώπους στο παιχνίδι Atari, να πλοηγείται σε περιβάλλοντα προσομοίωσης 3D, να ακολουθεί οδηγίες και πολλά άλλα», γράφει ο επικεφαλής συγγραφέας Scott Reed. και τους συναδέλφους τους στην εργασία τους, "A Generalist Agent", δημοσιεύτηκε στον διακομιστή προεκτύπωσης Arxiv

Ο συνιδρυτής της DeepMind Ντέμης Χασάμπης επευφημούσε την ομάδα, αναφωνώντας σε tweet, «Ο πιο γενικός ατζέντης μας μέχρι τώρα!! Φανταστική δουλειά από την ομάδα!» 

Επίσης: Ένα νέο πείραμα: Η τεχνητή νοημοσύνη γνωρίζει πραγματικά γάτες ή σκύλους — ή οτιδήποτε άλλο;

Το μόνο πιάσιμο είναι ότι ο Gato στην πραγματικότητα δεν είναι τόσο καλός σε πολλές εργασίες. 

Από τη μία πλευρά, το πρόγραμμα μπορεί να κάνει καλύτερα από ένα αποκλειστικό πρόγραμμα μηχανικής εκμάθησης στον έλεγχο ενός ρομποτικού βραχίονα Sawyer που στοιβάζει μπλοκ. Από την άλλη πλευρά, παράγει λεζάντες για εικόνες που σε πολλές περιπτώσεις είναι αρκετά φτωχές. Η ικανότητά του στον τυπικό διάλογο συνομιλίας με έναν άνθρωπο συνομιλητή είναι εξίσου μέτρια, μερικές φορές προκαλεί αντιφατικές και παράλογες εκφράσεις. 

Και η αναπαραγωγή βιντεοπαιχνιδιών Atari 2600 πέφτει κάτω από αυτή των πιο εξειδικευμένων προγραμμάτων ML που έχουν σχεδιαστεί για να ανταγωνίζονται στο σημείο αναφοράς Περιβάλλον μάθησης Arcade

Γιατί να φτιάξετε ένα πρόγραμμα που κάνει κάποια πράγματα αρκετά καλά και ένα σωρό άλλα πράγματα όχι τόσο καλά; Προηγούμενο και προσδοκία, σύμφωνα με τους συγγραφείς. 

Υπάρχει προηγούμενο για γενικότερα είδη προγραμμάτων να γίνονται η τελευταία λέξη της τεχνολογίας στην τεχνητή νοημοσύνη, και υπάρχει η προσδοκία ότι αυξανόμενα ποσά υπολογιστικής ισχύος θα αντισταθμίσουν στο μέλλον τις ελλείψεις. 

Η γενικότητα μπορεί να τείνει να θριαμβεύει στο AI. Όπως σημειώνουν οι συγγραφείς, επικαλούμενοι τον μελετητή της τεχνητής νοημοσύνης Richard Sutton, «Ιστορικά, τα γενικά μοντέλα που είναι καλύτερα στη μόχλευση του υπολογισμού έχουν επίσης την τάση να ξεπερνούν τελικά πιο εξειδικευμένες προσεγγίσεις για συγκεκριμένο τομέα».

Όπως έγραψε ο Σάτον στη δική του ανάρτηση στο blog, «Το μεγαλύτερο μάθημα που μπορεί να διαβαστεί από 70 χρόνια έρευνας της τεχνητής νοημοσύνης είναι ότι οι γενικές μέθοδοι που αξιοποιούν τον υπολογισμό είναι τελικά οι πιο αποτελεσματικές και με μεγάλη διαφορά».

Σε μια επίσημη διατριβή, ο Reed και η ομάδα γράφουν ότι «εδώ δοκιμάζουμε την υπόθεση ότι η εκπαίδευση ενός πράκτορα που είναι γενικά ικανός σε μεγάλο αριθμό εργασιών είναι δυνατή. και ότι αυτός ο γενικός πράκτορας μπορεί να προσαρμοστεί με λίγα επιπλέον δεδομένα για να επιτύχει σε ακόμη μεγαλύτερο αριθμό εργασιών."

Επίσης: Το φωτιστικό AI της Meta, LeCun, εξερευνά τα ενεργειακά σύνορα της βαθιάς μάθησης

Το μοντέλο, σε αυτή την περίπτωση, είναι πράγματι πολύ γενικό. Είναι μια έκδοση του Transformer, του κυρίαρχου είδους μοντέλου που βασίζεται στην προσοχή που έχει γίνει η βάση πολλών προγραμμάτων, συμπεριλαμβανομένου του GPT-3. Ένας μετασχηματιστής μοντελοποιεί την πιθανότητα κάποιου στοιχείου δεδομένων των στοιχείων που το περιβάλλουν, όπως λέξεις σε μια πρόταση. 

Στην περίπτωση του Gato, οι επιστήμονες του DeepMind μπορούν να χρησιμοποιήσουν την ίδια αναζήτηση πιθανοτήτων υπό όρους σε πολλούς τύπους δεδομένων. 

Καθώς ο Reed και οι συνεργάτες του περιγράφουν το έργο της εκπαίδευσης του Gato, 

Κατά τη διάρκεια της φάσης εκπαίδευσης του Gato, δεδομένα από διαφορετικές εργασίες και τρόπους σειριοποίησης σε μια επίπεδη ακολουθία διακριτικών, ομαδοποιούνται και επεξεργάζονται από ένα νευρωνικό δίκτυο μετασχηματιστή παρόμοιο με ένα μοντέλο μεγάλης γλώσσας. Η απώλεια καλύπτεται έτσι ώστε ο Gato να προβλέπει μόνο στόχους δράσης και κειμένου.

Ο Gato, με άλλα λόγια, δεν αντιμετωπίζει διαφορετικά τα διακριτικά είτε είναι λέξεις σε μια συνομιλία είτε διανύσματα κίνησης σε μια άσκηση στοίβαξης μπλοκ. Είναι όλα τα ίδια. 

deepmind-how-gato-is-trained.png

Το σενάριο προπόνησης Gato.


Reed et al. 2022

Θαμμένη μέσα στον Reed και η υπόθεση της ομάδας είναι ένα συμπέρασμα, δηλαδή ότι όλο και περισσότερη υπολογιστική ισχύς θα κερδίζει, τελικά. Αυτήν τη στιγμή, ο Gato περιορίζεται από τον χρόνο απόκρισης ενός βραχίονα ρομπότ Sawyer που κάνει τη στοίβαξη μπλοκ. Με 1.18 δισεκατομμύρια παραμέτρους δικτύου, το Gato είναι πολύ μικρότερο από τα πολύ μεγάλα μοντέλα τεχνητής νοημοσύνης όπως το GPT-3. Καθώς τα μοντέλα βαθιάς μάθησης μεγαλώνουν, η εκτέλεση συμπερασμάτων οδηγεί σε καθυστέρηση που μπορεί να αποτύχει στον μη ντετερμινιστικό κόσμο ενός ρομπότ πραγματικού κόσμου. 

Ωστόσο, ο Reed και οι συνεργάτες του αναμένουν ότι αυτό το όριο θα ξεπεραστεί καθώς το υλικό AI γίνεται πιο γρήγορο στην επεξεργασία.

«Εστιάζουμε την εκπαίδευσή μας στο σημείο λειτουργίας της κλίμακας μοντέλου που επιτρέπει τον έλεγχο σε πραγματικό χρόνο των ρομπότ πραγματικού κόσμου, επί του παρόντος περίπου 1.2 Β παραμέτρους στην περίπτωση του Gato», έγραψαν. «Καθώς βελτιώνονται οι αρχιτεκτονικές του υλικού και των μοντέλων, αυτό το σημείο λειτουργίας θα αυξήσει φυσικά το εφικτό μέγεθος του μοντέλου, ωθώντας τα γενικά μοντέλα ψηλότερα στην καμπύλη του νόμου κλίμακας».

Ως εκ τούτου, το Gato είναι πραγματικά ένα μοντέλο για το πώς η κλίμακα υπολογισμού θα συνεχίσει να είναι ο κύριος φορέας ανάπτυξης μηχανικής μάθησης, κάνοντας τα γενικά μοντέλα όλο και μεγαλύτερα. Με άλλα λόγια, το μεγαλύτερο είναι καλύτερο. 

deepmind-gets-better-with-scale.png

Το Gato γίνεται καλύτερο καθώς αυξάνεται το μέγεθος του νευρωνικού δικτύου σε παραμέτρους.


Reed et al. 2022

Και οι συγγραφείς έχουν κάποια στοιχεία για αυτό. Το Gato φαίνεται να βελτιώνεται όσο μεγαλώνει. Συγκρίνουν τις μέσες βαθμολογίες σε όλες τις εργασίες αναφοράς για τρία μεγέθη μοντέλου σύμφωνα με παραμέτρους, 79 εκατομμύρια, 364 εκατομμύρια, και το κύριο μοντέλο, 1.18 δισεκατομμύρια. «Μπορούμε να δούμε ότι για έναν ισοδύναμο αριθμό συμβολαίων, υπάρχει σημαντική βελτίωση της απόδοσης με αυξημένη κλίμακα», γράφουν οι συγγραφείς. 

Μια ενδιαφέρουσα μελλοντική ερώτηση είναι εάν ένα πρόγραμμα που είναι γενικό είναι πιο επικίνδυνο από άλλα είδη προγραμμάτων τεχνητής νοημοσύνης. Οι συγγραφείς αφιερώνουν αρκετό χρόνο στην εργασία συζητώντας το γεγονός ότι υπάρχουν πιθανοί κίνδυνοι που δεν έχουν ακόμη κατανοηθεί καλά.  

Η ιδέα ενός προγράμματος που χειρίζεται πολλαπλές εργασίες υποδηλώνει στο απλό άτομο ένα είδος ανθρώπινης προσαρμοστικότητας, αλλά αυτό μπορεί να είναι μια επικίνδυνη εσφαλμένη αντίληψη. «Για παράδειγμα, η φυσική ενσωμάτωση θα μπορούσε να οδηγήσει τους χρήστες να ανθρωπομορφοποιήσουν τον πράκτορα, οδηγώντας σε άστοχη εμπιστοσύνη στην περίπτωση ενός δυσλειτουργικού συστήματος ή να είναι εκμεταλλεύσιμη από κακούς ηθοποιούς», γράφουν ο Reed και η ομάδα. 

"Επιπλέον, ενώ η μεταφορά γνώσης μεταξύ τομέων είναι συχνά στόχος στην έρευνα ML, θα μπορούσε να δημιουργήσει απροσδόκητα και ανεπιθύμητα αποτελέσματα εάν ορισμένες συμπεριφορές (π.χ. μάχες παιχνιδιών arcade) μεταφερθούν σε λάθος πλαίσιο."

Ως εκ τούτου, γράφουν, «Τα ζητήματα ηθικής και ασφάλειας της μεταφοράς γνώσης μπορεί να απαιτούν ουσιαστική νέα έρευνα καθώς προχωρούν τα γενικά συστήματα».

(Ως μια ενδιαφέρουσα παράπλευρη σημείωση, το έγγραφο Gato χρησιμοποιεί ένα σχέδιο για την περιγραφή του κινδύνου που επινόησε η πρώην ερευνήτρια της Google AI Margaret Michell και οι συνεργάτες της, που ονομάζεται Model Cards. Οι κάρτες μοντέλων παρέχουν μια συνοπτική περίληψη του τι είναι ένα πρόγραμμα AI, τι κάνει και τι παράγοντες επηρεάζουν τον τρόπο λειτουργίας του. Η Michell έγραψε πέρυσι ότι αναγκάστηκε να αποχωρήσει από την Google επειδή υποστήριξε τον πρώην συνάδελφό της, Timnit Gebru, του οποίου οι ηθικές ανησυχίες σχετικά με την τεχνητή νοημοσύνη έβρισκαν την ηγεσία της Google στην τεχνητή νοημοσύνη.)

Το Gato δεν είναι καθόλου μοναδικό στη γενικευτική του τάση. Αποτελεί μέρος της ευρείας τάσης προς γενίκευση και των μεγαλύτερων μοντέλων που χρησιμοποιούν κουβάδες ιπποδύναμης. Ο κόσμος πήρε την πρώτη γεύση της κλίσης της Google προς αυτή την κατεύθυνση το περασμένο καλοκαίρι, με το νευρωνικό δίκτυο «Perceiver» της Google που συνδύαζε εργασίες Transformer κειμένου με εικόνες, ήχο και χωρικές συντεταγμένες LiDAR.

Επίσης: Το Supermodel της Google: Το DeepMind Perceiver είναι ένα βήμα στο δρόμο προς μια μηχανή AI που θα μπορούσε να επεξεργαστεί τα πάντα και τα πάντα

Μεταξύ των ομοίων του είναι το PaLM, το μοντέλο γλώσσας Pathways, που παρουσιάστηκε φέτος από επιστήμονες της Google, ένα μοντέλο παραμέτρων 540 δισεκατομμυρίων που χρησιμοποιεί μια νέα τεχνολογία για τον συντονισμό χιλιάδων τσιπ, γνωστά ως μονοπάτια, επινοήθηκε επίσης στην Google. Ένα νευρωνικό δίκτυο που κυκλοφόρησε τον Ιανουάριο από τη Meta, που ονομάζεται «data2vec», χρησιμοποιεί μετασχηματιστές για δεδομένα εικόνας, κυματομορφές ήχου ομιλίας και αναπαραστάσεις γλώσσας κειμένου όλα σε ένα. 

Αυτό που είναι νέο σχετικά με το Gato, φαίνεται, είναι η πρόθεση να λάβει την τεχνητή νοημοσύνη που χρησιμοποιείται για μη ρομποτικές εργασίες και να την προωθήσει στη σφαίρα της ρομποτικής.

Οι δημιουργοί του Gato, σημειώνοντας τα επιτεύγματα του Pathways και άλλες γενικές προσεγγίσεις, βλέπουν το απόλυτο επίτευγμα στην τεχνητή νοημοσύνη που μπορεί να λειτουργήσει στον πραγματικό κόσμο, με κάθε είδους εργασίες. 

«Η μελλοντική εργασία θα πρέπει να εξετάσει πώς να ενοποιήσει αυτές τις δυνατότητες κειμένου σε έναν πλήρως γενικευμένο παράγοντα που μπορεί επίσης να ενεργεί σε πραγματικό χρόνο στον πραγματικό κόσμο, σε διαφορετικά περιβάλλοντα και ενσωματώσεις». 

Θα μπορούσατε, λοιπόν, να θεωρήσετε το Gato ως ένα σημαντικό βήμα στην πορεία προς την επίλυση του πιο δύσκολου προβλήματος της τεχνητής νοημοσύνης, της ρομποτικής. 



Πηγή