Το 'data2vec' της Meta είναι το επόμενο βήμα προς ένα νευρωνικό δίκτυο που θα τους κυβερνά όλους

Ο αγώνας για τη δημιουργία ενός νευρωνικού δικτύου που μπορεί να επεξεργάζεται πολλαπλά είδη δεδομένων, η ιδέα μιας πιο γενικής τεχνητής νοημοσύνης που δεν κάνει διακρίσεις ως προς τους τύπους δεδομένων, αλλά αντίθετα μπορεί να τα συμπυκνώσει όλα μέσα στην ίδια βασική δομή.

Το είδος της πολυτροπικότητας, όπως ονομάζονται αυτά τα νευρωνικά δίκτυα, είναι να βλέπει κανείς μια αναταραχή δραστηριότητας στην οποία διαφορετικά δεδομένα, όπως εικόνα, κείμενο και ήχος ομιλίας, περνούν από τον ίδιο αλγόριθμο για να παράγουν μια βαθμολογία σε διαφορετικά τεστ, όπως π. αναγνώριση εικόνας, κατανόηση φυσικής γλώσσας ή ανίχνευση ομιλίας.

Και αυτά τα αμφιδέξια δίκτυα συγκεντρώνουν βαθμολογίες σε δοκιμές αναφοράς της τεχνητής νοημοσύνης. Το πιο πρόσφατο επίτευγμα είναι αυτό που ονομάζεται «data2vec», που αναπτύχθηκε από ερευνητές στο τμήμα AI της Meta, μητρική των Facebook, Instagram και WhatsApp. 

Το θέμα, όπως γράφουν οι επιστήμονες του Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu και Michael Auli, είναι να προσεγγίσουμε κάτι περισσότερο σαν τη γενική ικανότητα μάθησης που φαίνεται να περιλαμβάνει το ανθρώπινο μυαλό.

«Ενώ οι άνθρωποι φαίνεται να μαθαίνουν με παρόμοιο τρόπο, ανεξάρτητα από τον τρόπο με τον οποίο παίρνουν πληροφορίες — είτε χρησιμοποιούν την όραση είτε τον ήχο, για παράδειγμα», γράφουν οι συγγραφείς σε ένα blog post, "υπάρχουν επί του παρόντος μεγάλες διαφορές στον τρόπο που" τα νευρωνικά δίκτυα χειρίζονται διαφορετικούς τύπους δεδομένων όπως εικόνες, ομιλία, κείμενο "και άλλες μεθόδους".

«Η βασική ιδέα αυτής της προσέγγισης», δηλώνουν για το data2vec, «είναι η μάθηση γενικότερα: η τεχνητή νοημοσύνη θα πρέπει να μπορεί να μάθει να κάνει πολλές διαφορετικές εργασίες, συμπεριλαμβανομένων εκείνων που είναι εντελώς άγνωστες».

Ο Διευθύνων Σύμβουλος της Meta, Mark Zuckerberg, πρόσφερε μια πρόταση για το έργο, συνδέοντάς το με ένα μελλοντικό Metaverse:

Συναρπαστική ανακάλυψη: Η έρευνα Meta AI κατασκεύασε ένα σύστημα που μαθαίνει από την ομιλία, την όραση και το κείμενο χωρίς να χρειάζεται δεδομένα εκπαίδευσης με ετικέτα. Οι άνθρωποι βιώνουν τον κόσμο μέσω ενός συνδυασμού όρασης, ήχου και λέξεων, και συστήματα όπως αυτό θα μπορούσαν μια μέρα να κατανοήσουν τον κόσμο όπως εμείς. Όλα αυτά τελικά θα ενσωματωθούν σε ποτήρια AR με έναν βοηθό τεχνητής νοημοσύνης, έτσι, για παράδειγμα, θα μπορούσε να σας βοηθήσει να μαγειρέψετε το δείπνο, παρατηρώντας εάν χάσετε κάποιο συστατικό, προτρέποντάς σας να χαμηλώσετε τη φωτιά ή πιο περίπλοκες εργασίες.

Το όνομα data2vec είναι ένα παιχνίδι με το όνομα ενός προγράμματος για "ενσωμάτωση" γλώσσας αναπτύχθηκε στην Google το 2013 ονομάζεται "word2vec". Αυτό το πρόγραμμα προέβλεψε πώς οι λέξεις συγκεντρώνονται μεταξύ τους, και έτσι το word2vec είναι αντιπροσωπευτικό ενός νευρωνικού δικτύου σχεδιασμένου για έναν συγκεκριμένο τύπο δεδομένων, σε αυτήν την περίπτωση κείμενο. 

Επίσης: Ανοίξτε τις πόρτες της βάσης, παρακαλώ, HAL: Η τεχνητή νοημοσύνη του Meta προσομοιώνει την ανάγνωση των χειλιών

Στην περίπτωση του data2vec, ωστόσο, ο Baevski και οι συνεργάτες του λαμβάνουν μια τυπική έκδοση αυτού που ονομάζεται Transformer, που αναπτύχθηκε από τον Ashish Vaswani και τους συνεργάτες του. στη Google το 2017 και επεκτείνοντάς το ώστε να χρησιμοποιείται για πολλούς τύπους δεδομένων. 

Το νευρωνικό δίκτυο Transformer αναπτύχθηκε αρχικά για γλωσσικές εργασίες, αλλά έχει προσαρμοστεί ευρέως τα τελευταία χρόνια για πολλά είδη δεδομένων. Baevski et al. δείχνουν ότι ο μετασχηματιστής μπορεί να χρησιμοποιηθεί για την επεξεργασία πολλών ειδών δεδομένων χωρίς να αλλοιωθεί και ότι το εκπαιδευμένο νευρωνικό δίκτυο που προκύπτει μπορεί να εκτελέσει πολλές διαφορετικές εργασίες. 

Στο επίσημο έγγραφο, "data2vec: Ένα γενικό πλαίσιο για την αυτοεποπτευόμενη μάθηση στην ομιλία, την όραση και τη γλώσσα», οι Baevski et al., εκπαιδεύουν το Transformer για δεδομένα εικόνας, κυματομορφές ήχου ομιλίας και αναπαραστάσεις γλώσσας κειμένου. 

Το Data2vec είναι «ο πρώτος αλγόριθμος αυτοεποπτεύσιμου υψηλής απόδοσης που λειτουργεί για πολλαπλούς τρόπους, δηλαδή ομιλία, όραση και κείμενο», γράφουν ο Baevski και η ομάδα στην ανάρτηση του ιστολογίου.

Ο πολύ γενικός μετασχηματιστής γίνεται αυτό που ονομάζεται προ-εκπαίδευση που μπορεί στη συνέχεια να εφαρμοστεί σε συγκεκριμένα νευρωνικά δίκτυα προκειμένου να εκτελεστούν συγκεκριμένες εργασίες. Για παράδειγμα, οι συγγραφείς χρησιμοποιούν το data2vec ως προ-εκπαίδευση για να εξοπλίσουν αυτό που ονομάζεται «ViT», το «vision Transformer», ένα νευρωνικό δίκτυο ειδικά σχεδιασμένο για εργασίες όρασης που εισήχθη πέρυσι από τον Alexey Dosovitskiy και τους συνεργάτες του στην Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Το Meta παρουσιάζει κορυφαίες βαθμολογίες για τον αξιοσέβαστο διαγωνισμό αναγνώρισης εικόνων ImageNet.


Meta 2022

Όταν χρησιμοποιούνται σε ViT για να προσπαθήσουν να λύσουν το τυπικό τεστ αναγνώρισης εικόνας ImageNet, τα αποτελέσματά τους βρίσκονται στην κορυφή του πακέτου, με ακρίβεια 84.1%, καλύτερη από τη βαθμολογία 83.2% που έλαβε μια ομάδα της Microsoft που προεκπαίδευσε ViT, με επικεφαλής τον Hangbo Bao, πέρυσι.

Και το ίδιο data2vec Transformer εξάγει αποτελέσματα που είναι τελευταίας τεχνολογίας για την αναγνώριση ομιλίας και ανταγωνιστικά, αν όχι τα καλύτερα, για την εκμάθηση φυσικής γλώσσας:

Τα πειραματικά αποτελέσματα δείχνουν ότι το data2vec είναι αποτελεσματικό και στις τρεις μεθόδους, θέτοντας μια νέα κατάσταση τεχνολογίας για τα ViT-B και ViT-L στο ImageNet-1K, βελτιώνοντας την καλύτερη προηγούμενη εργασία στην επεξεργασία ομιλίας σχετικά με την αναγνώριση ομιλίας και αποδίδοντας στο ίδιο επίπεδο με το RoBERTa σχετικά με το σημείο αναφοράς κατανόησης φυσικής γλώσσας GLUE. 

Η ουσία είναι ότι αυτό συμβαίνει χωρίς καμία τροποποίηση του νευρωνικού δικτύου ώστε να αφορά εικόνες, και το ίδιο για την ομιλία και το κείμενο. Αντίθετα, κάθε τύπος εισόδου πηγαίνει στο ίδιο δίκτυο και ολοκληρώνει την ίδια πολύ γενική εργασία. Αυτή η εργασία είναι η ίδια εργασία που χρησιμοποιούν πάντα τα δίκτυα του Transformer, γνωστή ως "μασκαρισμένη πρόβλεψη". 

Επίσης: Το Supermodel της Google: Το DeepMind Perceiver είναι ένα βήμα στο δρόμο προς μια μηχανή AI που θα μπορούσε να επεξεργαστεί τα πάντα και τα πάντα

Ωστόσο, ο τρόπος με τον οποίο το data2vec εκτελεί συγκαλυμμένη πρόβλεψη είναι μια προσέγγιση γνωστή ως «αυτοεποπτευόμενη» μάθηση. Σε ένα αυτο-εποπτευόμενο περιβάλλον, ένα νευρωνικό δίκτυο εκπαιδεύεται ή αναπτύσσεται, αφού πρέπει να περάσει από πολλαπλά στάδια. 

Πρώτον, το δίκτυο κατασκευάζει μια αναπαράσταση της κοινής πιθανότητας εισαγωγής δεδομένων, είτε πρόκειται για εικόνες είτε για ομιλία είτε για κείμενο. Στη συνέχεια, μια δεύτερη έκδοση του δικτύου έχει ορισμένα από αυτά τα στοιχεία δεδομένων εισόδου "καλυμμένα" και δεν αποκαλύπτονται. Πρέπει να ανακατασκευάσει την κοινή πιθανότητα που είχε κατασκευάσει η πρώτη έκδοση του δικτύου, η οποία το αναγκάζει να δημιουργεί όλο και καλύτερες αναπαραστάσεις των δεδομένων συμπληρώνοντας ουσιαστικά τα κενά. 

meta-2022-data2vec-network-architecture.jpg

Μια επισκόπηση της προσέγγισης data2vec.


Meta 2022

Τα δύο δίκτυα, αυτό με το πλήρες σχέδιο της κοινής πιθανότητας και αυτό με την ημιτελή έκδοση που προσπαθεί να ολοκληρώσει, ονομάζονται, αρκετά λογικά, «Δάσκαλος» και «Μαθητής». Το δίκτυο Μαθητών προσπαθεί να αναπτύξει την αίσθηση του για τα δεδομένα, αν θέλετε, ανακατασκευάζοντας όσα είχε ήδη πετύχει ο Δάσκαλος.

Μπορείς να δείτε τον κώδικα για τα μοντέλα στο Github.

Πώς αποδίδει το νευρωνικό δίκτυο Δάσκαλος και Μαθητής για τρεις πολύ διαφορετικούς τύπους δεδομένων; Το κλειδί είναι ότι ο «στόχος» της κοινής πιθανότητας, και στις τρεις περιπτώσεις δεδομένων, δεν είναι ένας συγκεκριμένος τύπος δεδομένων εξόδου, όπως συμβαίνει σε εκδόσεις του Transformer για συγκεκριμένο τύπο δεδομένων, όπως το BERT της Google ή το GPT-3 του OpenAI . 

Μάλλον, το data2vec αρπάζει μερικά επίπεδα νευρωνικών δικτύων που είναι μέσα το νευρωνικό δίκτυο, κάπου στη μέση, που αντιπροσωπεύει τα δεδομένα πριν παραχθούν ως τελική έξοδο. 

Όπως γράφουν οι συγγραφείς, «Μία από τις κύριες διαφορές της μεθόδου μας […], εκτός από την εκτέλεση καλυμμένης πρόβλεψης, είναι η χρήση στόχων που βασίζονται στον μέσο όρο πολλαπλών επιπέδων από το δίκτυο εκπαιδευτικών». Συγκεκριμένα, «αναστρέφουμε αναπαραστάσεις πολλαπλών επιπέδων νευρωνικών δικτύων αντί μόνο για το ανώτερο επίπεδο», έτσι ώστε το «data2vec να προβλέπει τις λανθάνουσες αναπαραστάσεις των δεδομένων εισόδου».

Προσθέτουν, «Γενικά χρησιμοποιούμε την έξοδο του FFN [δίκτυο προώθησης τροφοδοσίας] πριν από την τελευταία υπολειπόμενη σύνδεση σε κάθε μπλοκ ως στόχο», όπου ένα «μπλοκ» είναι το ισοδύναμο μετασχηματιστή ενός στρώματος νευρωνικού δικτύου.

Το θέμα είναι ότι κάθε τύπος δεδομένων που εισάγεται γίνεται η ίδια πρόκληση για το δίκτυο Μαθητών να ανακατασκευάσει κάτι μέσα στο νευρωνικό δίκτυο που είχε συνθέσει ο Δάσκαλος.

Αυτός ο μέσος όρος διαφέρει από άλλες πρόσφατες προσεγγίσεις για τη δημιουργία One Network To Crunch All Data. Για παράδειγμα, το περασμένο καλοκαίρι, η μονάδα DeepMind της Google προσέφερε αυτό που αποκαλεί "Perceiver", τη δική της πολυτροπική έκδοση του Transformer. Η εκπαίδευση του νευρωνικού δικτύου Perceiver είναι η πιο τυπική διαδικασία παραγωγής μιας εξόδου που είναι η απάντηση σε μια επισημασμένη, εποπτευόμενη εργασία όπως το ImageNet. Στην αυτοεποπτευόμενη προσέγγιση, το data2vec δεν χρησιμοποιεί αυτές τις ετικέτες, απλώς προσπαθεί να ανακατασκευάσει την εσωτερική αναπαράσταση των δεδομένων του δικτύου. 

Ακόμα πιο φιλόδοξες προσπάθειες βρίσκονται στα φτερά. Ο Τζεφ Ντιν, επικεφαλής των προσπαθειών τεχνητής νοημοσύνης της Google, τον Οκτώβριο πείραξε για το "Pathways", αυτό που ο Ντιν ισχυρίζεται ότι είναι "επόμενης γενιάς αρχιτεκτονική AI” για πολυτροπική επεξεργασία δεδομένων.

Λάβετε υπόψη σας, η πολύ γενική προσέγγιση του data2vec σε ένα ενιαίο νευρωνικό δίκτυο για πολλαπλές μορφές εξακολουθεί να έχει πολλές πληροφορίες σχετικά με τους διαφορετικούς τύπους δεδομένων. Η εικόνα, ο λόγος και το κείμενο προετοιμάζονται όλα με προεπεξεργασία των δεδομένων. Με αυτόν τον τρόπο, η πολυτροπική πτυχή του δικτύου εξακολουθεί να βασίζεται σε ενδείξεις σχετικά με τα δεδομένα, αυτό που η ομάδα αναφέρει ως «μικρούς κωδικοποιητές εισόδου ειδικά για τη μέθοδο».

Επίσης: Η Google αποκαλύπτει το «Pathways», μια τεχνητή νοημοσύνη επόμενης γενιάς που μπορεί να εκπαιδευτεί για πολλαπλές εργασίες

«Παρά το ενοποιημένο καθεστώς μάθησης, εξακολουθούμε να χρησιμοποιούμε εξαγωγείς χαρακτηριστικών και στρατηγικές απόκρυψης ειδικών τρόπων», εξηγούν.

Ως εκ τούτου, δεν βρισκόμαστε ακόμη σε έναν κόσμο όπου ένα νευρωνικό δίκτυο εκπαιδεύεται χωρίς κανένα νόημα από τους τύπους δεδομένων εισόδου. Επίσης, δεν βρισκόμαστε σε μια χρονική στιγμή που το νευρωνικό δίκτυο μπορεί να κατασκευάσει μια αναπαράσταση που συνδυάζει όλους τους διαφορετικούς τύπους δεδομένων, έτσι ώστε το νευρωνικό δίκτυο να μαθαίνει πράγματα σε συνδυασμό.

Το γεγονός αυτό καθίσταται σαφές από μια ανταλλαγή μεταξύ ZDNet και οι συγγραφείς. ZDNet προσέγγισε τον Baevski και την ομάδα και ρώτησε: "Είναι οι λανθάνουσες αναπαραστάσεις που χρησιμεύουν ως στόχοι μια συνδυασμένη κωδικοποίηση και των τριών τρόπων σε οποιοδήποτε δεδομένο χρονικό βήμα ή είναι συνήθως μόνο μία από τις μεθόδους;"

Ο Μπάεφσκι και η ομάδα απαντούν ότι είναι η τελευταία περίπτωση, και η δική τους reply είναι ενδιαφέρον να παραθέσω εκτενώς:

Οι λανθάνουσες μεταβλητές δεν αποτελούν συνδυασμένη κωδικοποίηση για τις τρεις μορφές. Εκπαιδεύουμε ξεχωριστά μοντέλα για κάθε τρόπο, αλλά η διαδικασία μέσω της οποίας μαθαίνουν τα μοντέλα είναι πανομοιότυπη. Αυτή είναι η κύρια καινοτομία του έργου μας αφού πριν υπήρχαν μεγάλες διαφορές στον τρόπο εκπαίδευσης των μοντέλων σε διαφορετικούς τρόπους. Οι νευροεπιστήμονες πιστεύουν επίσης ότι οι άνθρωποι μαθαίνουν με παρόμοιους τρόπους για τους ήχους και τον οπτικό κόσμο. Το έργο μας δείχνει ότι η αυτοεποπτευόμενη μάθηση μπορεί επίσης να λειτουργήσει με τον ίδιο τρόπο για διαφορετικούς τρόπους.

Λαμβάνοντας υπόψη τους περιορισμούς του data2vec που σχετίζονται με τη μέθοδο, ένα νευρωνικό δίκτυο που μπορεί να είναι πραγματικά Ένα δίκτυο για να τους κυβερνά όλους παραμένει η τεχνολογία του μέλλοντος.

Πηγή