Το OpenAI ξόδεψε 160,000 $ στο Upwork για παίκτες του Minecraft για να εκπαιδεύσουν ένα νευρωνικό δίκτυο

χειροτεχνία-διαμάντι-αξίνα

Από το βίντεο του VPT που επιδιώκει την κατασκευή μιας διαμαντένιας αξίνας στο Minecraft. Το πρόγραμμα υπολογιστή πέτυχε το κατόρθωμα σε δέκα λεπτά, τον μισό χρόνο που θα χρειαζόταν ένας ικανός άνθρωπος παίκτης για να το κάνει.

Πόσο σημαντικό μπορεί να είναι να κατακτήσετε το «εργαλείο διαμαντιών» στο Minecraft;

Είναι αρκετά σημαντικό για να ξοδέψετε 160,000 $, σύμφωνα με την OpenAI, την startup τεχνητής νοημοσύνης.

Αυτό είναι το ποσό των χρημάτων που ξόδεψε μια ομάδα στο OpenAI για να προσλάβει παίκτες του Minecraft στην ηλεκτρονική πλατφόρμα αγγελιών θέσεων εργασίας Upwork για να υποβάλουν βίντεο με τους εαυτούς τους να παίζουν το παιχνίδι. 

Amazon Prime Day 2022: Early Deals

In ένα χαρτί που αποκαλύφθηκε αυτή την εβδομάδα, «Video Pretraining (VPT): Learning to Act by Watching Unlabeled Online Videos», οι ερευνητές του OpenAI, Bowen Baker και η ομάδα, ξεκίνησαν τη χρήση μεγάλων συνόλων δεδομένων για να εκπαιδεύσουν ένα νευρωνικό δίκτυο να μιμείται ανθρώπινα πλήκτρα για την επίλυση διαφορετικών εργασιών στο βίντεο παιχνίδι. (Μια ανάρτηση στο blog έχει επίσης αναρτηθεί από το OpenAI.) 

Μια πληθώρα νευρωνικών δικτύων έχουν κατακτήσει διάφορους τύπους παιχνιδιών μέσω αυτού που ονομάζεται ενισχυτική μάθηση τα τελευταία χρόνια, συμπεριλαμβανομένου του AlphaZero του DeepMind DeepMind, το οποίο ανέλαβε το σκάκι, το Go και το Shogi και τα επόμενα Μουζέρο πρόγραμμα, το οποίο πρόσθεσε τη δυνατότητα χειρισμού παιχνιδιών Atari. 

Ο Baker και η ομάδα ήθελαν να αναπτύξουν ένα νευρωνικό δίκτυο για το πιο περίπλοκο περιβάλλον παιχνιδιού «ανοιχτού κόσμου» του Minecraft, όπου μια σειρά από πατήματα πλήκτρων επιτρέπει στους παίκτες πολύ μεγαλύτερους βαθμούς ελευθερίας από ό,τι στα παιχνίδια σκακιού ή Atari. 

Επίσης: AI σε εξήντα δευτερόλεπτα 

Η ερευνητική βιβλιογραφία, γράφουν οι συγγραφείς, περιλαμβάνει έναν «τεράστιο όγκο» εργασιών στο Minecraft. Αλλά το έργο του VPT είναι μοναδικό, γράφουν, για το εύρος και την κλίμακα του: «Από όσο γνωρίζουμε, δεν υπάρχει δημοσιευμένη εργασία που να λειτουργεί στον πλήρη, μη τροποποιημένο χώρο ανθρώπινης δράσης, ο οποίος περιλαμβάνει διαχείριση αποθέματος μεταφοράς και απόθεσης και χειροτεχνία αντικειμένων."

Το έργο της κατασκευής του νευρωνικού δικτύου, που ονομάζεται VPT, πραγματοποιήθηκε σε δύο στάδια. Το πρώτο στάδιο χρειαζόταν ανθρώπινους παίκτες παιχνιδιών ή εργολάβους, οι οποίοι συγκέντρωσαν 4,500 ώρες παιχνιδιού. Οι ερευνητές αργότερα κατάλαβαν ότι χρειάζονταν πραγματικά μόνο περίπου 2,000 ώρες.

Ο Baker και η ομάδα περιγράφουν τη διαδικασία:

Είχαμε ανοιχτές τις αιτήσεις για μια ημέρα και, στη συνέχεια, επιλέξαμε τυχαία 10 αιτούντες για τον πρώτο γύρο αναδόχων. Αργότερα στο έργο, καθώς χρειαζόμασταν περισσότερα δεδομένα και καθώς ορισμένοι εργολάβοι ζήτησαν να τερματίσουν τις συμβάσεις τους, προσθέσαμε περισσότερους αιτούντες από την αρχική ομάδα καθώς και παραπομπές από τους εργολάβους που εργάζονται αυτήν τη στιγμή. Οι εργολάβοι πληρώνονταν 20 $ ανά ώρα (μείον τα τέλη πλατφόρμας Upwork και τους ισχύοντες φόρους). Όλα τα αποτελέσματα που παρουσιάζονται σε αυτό το έγγραφο βασίζονται σε περίπου 4,500 ώρες δεδομένων (συμπεριλαμβανομένων των δεδομένων που καταγράφηκαν για τη συλλογή στατιστικών στοιχείων του ανθρώπινου παιχνιδιού που δεν χρησιμοποιήθηκαν για προπόνηση), τα οποία μας κόστισαν περίπου 90,000 $. Κατά τη διάρκεια του έργου, συλλέξαμε κάποια δεδομένα που δεν χρησιμοποιήσαμε λόγω σφαλμάτων στη συσκευή εγγραφής και για κάποιες ιδέες τελικά δεν επιδιώξαμε. Συνολικά, ξοδέψαμε περίπου 160 χιλιάδες δολάρια για αποζημίωση εργολάβου κατά τη διάρκεια του έργου. Ωστόσο, όπως συζητάμε στο Sec. 4.6, πιθανότατα θα μπορούσαμε να λάβουμε τα περισσότερα από τα αποτελέσματά μας με ένα IDM που εκπαιδεύτηκε χρησιμοποιώντας δεδομένα αξίας μόνο 2000 $, π.χ. το βασικό μοντέλο VPT, BC μικροσυντονισμός στο σύνολο δεδομένων earlygame_keyword και τα αποτελέσματα μικρορύθμισης RL. Η συλλογή του συνόλου δεδομένων contractor_house κόστισε περίπου $8000. Επειδή χρησιμοποιήσαμε το IDM εκπαιδευμένο σε περίπου 2000 ώρες δεδομένων εργολάβου, το πραγματικό κόστος των δεδομένων του εργολάβου για αυτά τα αποτελέσματα ήταν περίπου 40,000 $.

Για αυτές τις 4,500 ώρες, προσάρτησαν ετικέτες στα καρέ του βίντεο του παιχνιδιού για ενέργειες όπως "απόθεμα", για να ελέγξουν τη συλλογή αντικειμένων ενός παίκτη, χρησιμοποιώντας το πλήκτρο "E". και "sneak", για να μετακινηθείτε "προσεκτικά" στην τρέχουσα κατεύθυνση, χρησιμοποιώντας το SHIFT κλειδί. Αυτές οι ενέργειες καταγράφονται ως συμβολοσειρές κειμένου JSON σε κάθε στιγμή του παιχνιδιού και αποθηκεύονται με τα καρέ βίντεο. 

Τα πλαίσια του παιχνιδιού με τις επισημασμένες ενέργειες τους χρησιμοποιήθηκαν για την εκπαίδευση ενός νευρικού δικτύου που ονομάζεται μοντέλο αντίστροφης δυναμικής ή IDM, το οποίο μαθαίνει ποιες ενέργειες συμβαδίζουν με ποια πλαίσια. Το IDM είναι ένας συνδυασμός πολλών ειδών νευρωνικών δικτύων, συμπεριλαμβανομένου ενός τρισδιάστατου συνελικτικού νευρωνικού δικτύου και ενός ResNet για την ανάλυση των καρέ βίντεο και πολλών δικτύων προσοχής Transformer για την πρόβλεψη του επόμενου καρέ βίντεο. 

Επίσης: Αισθητικός? Το Google LaMDA μοιάζει με ένα τυπικό chatbot

Αυτή η εκπαιδευμένη ικανότητα του IDM χρησιμοποιείται στη συνέχεια σε ένα πολύ μεγαλύτερο σύνολο βίντεο, συνολικά 70,000 ώρες πλάνα χωρίς ετικέτα Minecraft που συγκεντρώθηκαν από τον Ιστό. Το IDM εφαρμόζει «ψευδοετικέτες» σε αυτήν την πολύ μεγαλύτερη συλλογή. Με άλλα λόγια, το IDM και οι αμοιβές του εργολάβου, είναι ένας τρόπος για να εκκινήσετε ένα τεράστιο σετ εκπαίδευσης βίντεο. 

openai-vpt-training-2022

Το πρόγραμμα εκπαίδευσης για VPT.

OpenAI

Όσο ακριβή και αν φαίνεται η πληρωμή του εργολάβου, η προσέγγιση αντιπροσωπεύει μεγάλη εξοικονόμηση κόστους, γράφουν οι συγγραφείς. Αν έπρεπε να συλλέξουν δεδομένα εργολάβων ισοδύναμα με τις 70,000 ώρες βίντεο Ιστού, θα ήταν πολύ πιο ακριβό.

«Αν μπορούσαμε να συλλέξουμε φτηνά ένα ονομασμένο σύνολο δεδομένων εργολάβου παρόμοιας τάξης μεγέθους με το web_clean, τότε αυτό δεν θα ήταν σημαντικό. Ωστόσο, η συλλογή αυτής της κλίμακας δεδομένων θα κόστιζε εκατομμύρια δολάρια».

Χρησιμοποιώντας τις 70,000 ώρες, οι συγγραφείς εκπαιδεύουν στη συνέχεια ένα δεύτερο νευρωνικό δίκτυο, που αποτελείται επίσης από επίπεδα Transformer, για να μιμείται τις ενέργειες των χρηστών στα βίντεο, μια κοινή πρακτική γνωστή ως «συμπεριφορική κλωνοποίηση».

Το θέμα της εργασίας είναι να βρεθεί ένας τρόπος να εκπαιδεύσει έναν «πράκτορα» υπολογιστή γενικού σκοπού που μπορεί να χρησιμοποιήσει τον πλούτο των δεδομένων στο Διαδίκτυο που δεν έχει ετικέτες για να λύσει εργασίες που περιλαμβάνουν αιτιότητα, νόημα και ακολουθίες ενεργειών που έχουν απαραίτητη σχέση από το ένα στο άλλο. 

«Τα αποτελέσματα που παρουσιάζονται σε αυτό το έγγραφο βοηθούν να ανοίξει ο δρόμος για τη χρήση του πλούτου των δεδομένων χωρίς ετικέτα στον Ιστό για διαδοχικούς τομείς αποφάσεων», γράφουν. 

Το έργο μπορεί να χρησιμοποιηθεί για πολλές εργασίες υπολογιστή που απαιτούν ακολουθίες κλικ του ποντικιού και άλλα χειριστήρια από τον άνθρωπο, προτείνουν. 

«Ενώ πειραματιζόμαστε μόνο στο Minecraft, πιστεύουμε ότι το VPT παρέχει μια γενική συνταγή για την εκπαίδευση των προτεραιοτήτων συμπεριφοράς σε σκληρούς, αλλά γενικούς χώρους δράσης σε οποιονδήποτε τομέα που έχει μεγάλο αριθμό ελεύθερα διαθέσιμων δεδομένων χωρίς ετικέτα, όπως η χρήση υπολογιστή».

Το Open-AI είναι περισσότερο γνωστό για το μεγάλο γλωσσικό πρόγραμμα που ονομάζεται GPT-3, το οποίο χρησιμοποιεί επίσης μια «προεκπαιδευμένη» προσέγγιση που βασίζεται σε τόνους δεδομένων Ιστού που δεν φέρουν ετικέτα. Κατά μία έννοια, το παιχνίδι Minecraft επεκτείνει αυτή την προσέγγιση στη μίμηση της συμπεριφοράς στον τομέα των διαδοχικών εργασιών υπολογιστή που καταγράφονται μέσω βίντεο. 

Επίσης: Τι είναι το GPT-3; Όλα όσα χρειάζεται να γνωρίζει η επιχείρησή σας για το πρωτοποριακό πρόγραμμα γλώσσας AI του OpenAI

Το απόλυτο επίτευγμα είναι να υπερβεί σε ορισμένες περιπτώσεις τον χρόνο που απαιτείται για έναν άνθρωπο για να επιτύχει ένα από τα πιο δύσκολα καθήκοντα, την απόκτηση μιας διαμαντένιας αξίνας.

Στο Minecraft, τα εργαλεία που βασίζονται σε διαμάντια διαρκούν περισσότερο και μπορούν να προκαλέσουν μεγαλύτερη ζημιά. Οι αξίνες διαμαντιών είναι οι μόνες που είναι ιδιαίτερα σημαντικές για τους περισσότερους παίκτες. Χρειάζεστε μια διαμαντένια αξίνα για να εξορύξετε οψιανό και ένα φανταστικό υλικό που ονομάζεται νεθερίτης, που είναι και τα δύο σημαντικά για δραστηριότητες στο τέλος του παιχνιδιού, όπως τα μαγευτικά τραπέζια και η κατασκευή εξοπλισμού νεθερίτη.

Μετά την εκπαίδευση του VPT για την εκμάθηση όλων των ειδών εργασιών Minecraft, οι συγγραφείς χρησιμοποίησαν μια προσέγγιση «λεπτής ρύθμισης» που ανέπτυξε ένα νευρωνικό δίκτυο ενίσχυσης εκμάθησης για να φτιάξει μια διαμαντένια αξίνα σε ταχύτερο χρόνο από τον κανονικό. 

«Για να δείξουμε την αποτελεσματικότητα της λεπτομέρειας RL, επιλέξαμε τον απαιτητικό στόχο να αποκτήσουμε μια αξίνα διαμαντιού μέσα σε 10 λεπτά ξεκινώντας από έναν νέο κόσμο επιβίωσης του Minecraft», γράφουν. 

Αυτό είναι δύσκολο για τους ανθρώπους, οι οποίοι συνήθως χρειάζονται διπλάσιο χρόνο για να το κάνουν, αν μπορούν να το κάνουν καθόλου:

Αυτό περιλαμβάνει την απόκτηση μιας σειράς δύσκολων αντικειμένων που απαιτούν σύνθετες δεξιότητες όπως εξόρυξη, διαχείριση αποθέματος, χειροτεχνία με και χωρίς τραπέζι χειροτεχνίας, χρήση εργαλείων, λειτουργία φούρνου και εξόρυξη στα χαμηλότερα βάθη, όπου υπάρχουν πολλοί κίνδυνοι όπως εχθροί και λάβα υπάρχει (Εικ. 6). Επιπρόσθετα στη δυσκολία, η πρόοδος μπορεί εύκολα να χαθεί με την πτώση αντικειμένων, την καταστροφή αντικειμένων ή τον θάνατο. Η απόκτηση μιας διαμαντένιας αξίνας πιο συχνά απαιτεί έναν ικανό άνθρωπο πάνω από 20 λεπτά (24,000 ενέργειες).

Κατά τη συγκέντρωση τόσο των δεδομένων του εργολάβου όσο και των 70,000 ωρών βίντεο Ιστού χωρίς ετικέτα, οι συγγραφείς είχαν υπόψη τους την προοπτική προσβλητικού περιεχομένου. «Οι ανάδοχοι θα μπορούσαν θεωρητικά να χρησιμοποιήσουν την ιδιοκτησία ανοιχτού κόσμου του Minecraft για να δημιουργήσουν προσωπικά αναγνωρίσιμες πληροφορίες ή/και προσβλητικό περιεχόμενο (π.χ. χρησιμοποιώντας μπλοκ Minecraft για να γράψουν το όνομά τους ή προσβλητικά μηνύματά τους και στη συνέχεια να βρουν ένα σημείο από το οποίο θα ήταν ορατό το μήνυμα)». γράφουν, αν και δεν το είδαν αυτό στα βίντεο από εργολάβους που παρακολούθησαν οι συγγραφείς. 

«Φυσικά, εκπαιδεύουμε τα μοντέλα μας BC [συμπεριφορικής κλωνοποίησης] σε βίντεο από το Διαδίκτυο ατόμων που παίζουν Minecraft, και αν υπάρχει τέτοια συμπεριφορά σε αυτά τα βίντεο, το μοντέλο μας θα μπορούσε επίσης να το μάθει, αν και αναμένουμε ότι τέτοια συμπεριφορά είναι αρκετά σπάνια ώστε το μοντέλο μας δεν θα ήταν πιθανό να το αναπαράγουν», γράφουν. 

Πού πάει μετά ένας τέτοιος γενικός πράκτορας; Η ιδέα είναι ότι έχοντας κατακτήσει τους άξονες με διαμάντια, το VPT ή τους απογόνους του, μπορεί να κάνει όλα τα είδη των πραγμάτων που μπορεί να κάνει ένα άτομο με το ποντίκι και το πληκτρολόγιο, συμπεριλαμβανομένης της αποδοκιμασίας εισιτηρίων, της πλοήγησης στα μέσα κοινωνικής δικτύωσης ή της πλοήγησης σε χάρτες. 

Πηγή