Η τεχνητή νοημοσύνη είναι ήδη καλύτερη στο διάβασμα των χειλιών που είμαστε

TΓεια σου δεν θα γεράσεις, ένα ντοκιμαντέρ του 2018 για τις ζωές και τις φιλοδοξίες των Βρετανών και των Νεοζηλανδών στρατιωτών που έζησαν τον Πρώτο Παγκόσμιο Πόλεμο από αναγνωρισμένους Άρχοντας των Δαχτυλιδιών Ο σκηνοθέτης Πίτερ Τζάκσον, εκσυγχρονίστηκε το βουβό υλικό εκατοντάδων και πλέον ετών μέσω χρωματισμού και εγγραφής νέου ήχου για διαλόγους που δεν υπήρχαν στο παρελθόν. Για να πάρει μια ιδέα για το τι έλεγαν οι άνθρωποι που εμφανίζονται στο αρχειακό υλικό, ο Τζάκσον προσέλαβε μια ομάδα ιατροδικαστικών χειλιών αναγνωστών για να μαντέψει τις καταγεγραμμένες δηλώσεις τους. Αναφέρεται, «οι αναγνώστες των χειλιών ήταν τόσο ακριβείς που μπορούσαν ακόμη και να προσδιορίσουν τη διάλεκτο και την προφορά των ανθρώπων που μιλούσαν».

«Αυτοί οι μάγκες δεν έζησαν σε έναν ασπρόμαυρο, βουβό κόσμο, και αυτή η ταινία δεν είναι για τον πόλεμο. πρόκειται για την εμπειρία του στρατιώτη στον πόλεμο», είπε ο Τζάκσον Καθημερινός Sentinel το 2018. «Ήθελα το κοινό να δει, όσο πιο κοντά γινόταν, τι είδαν οι στρατιώτες, πώς το είδαν και το άκουσαν».

Αυτό είναι αρκετά το γλωσσικό επίτευγμα δεδομένου ότι μια μελέτη του 2009 διαπίστωσε ότι οι περισσότεροι άνθρωποι μπορούν να διαβάσουν μόνο τα χείλη με περίπου 20 τοις εκατό ακρίβεια και των CDC Οδηγός γονέων για την απώλεια ακοής στα παιδιά εκτιμά ότι, «ένας καλός αναγνώστης ομιλίας μπορεί να είναι σε θέση να δει μόνο 4 έως 5 λέξεις σε μια πρόταση 12 λέξεων». Ομοίως, μια μελέτη του 2011 από το Πανεπιστήμιο της Οκλαχόμα είδε μόνο περίπου 10 τοις εκατό ακρίβεια στα υποκείμενα της δοκιμής.

«Κάθε άτομο που πέτυχε α CUNY παρτιτούρα ανάγνωσης χειλιών Το 30 τοις εκατό σωστό θεωρείται ακραίο, δίνοντάς τους ένα T-score σχεδόν 80 τρεις φορές την τυπική απόκλιση από τον μέσο όρο. Μια βαθμολογία ακρίβειας αναγνώρισης ανάγνωσης χειλιών 45 τοις εκατό σωστή τοποθετεί ένα άτομο 5 τυπικές αποκλίσεις πάνω από το μέσο όρο. κατέληξε η μελέτη του 2011. «Αυτά τα αποτελέσματα ποσοτικοποιούν την εγγενή δυσκολία στην οπτική αναγνώριση προτάσεων μόνο».

Για τους ανθρώπους, το διάβασμα των χειλιών μοιάζει πολύ με το χτύπημα στα Major Leagues — το κάνετε με συνέπεια, ακόμη και μόλις τρεις φορές στις δέκα και θα είστε από τους καλύτερους που έχουν παίξει ποτέ το παιχνίδι. Για τα σύγχρονα συστήματα μηχανικής μάθησης, η ανάγνωση των χειλιών μοιάζει περισσότερο με το παιχνίδι Go — κάθε φορά που χτυπάτε τα σακίδια που σας δημιούργησαν και σας υποδούλωσαν — με τα σημερινά συστήματα αιχμής να πετυχαίνουν καλά πάνω από 95 τοις εκατό ακρίβεια λέξης σε επίπεδο πρότασης. Και καθώς συνεχίζουν να βελτιώνονται, θα μπορούσαμε soon δείτε μια μέρα όπου οι εργασίες από την επεξεργασία βωβών ταινιών και τη βουβή υπαγόρευση στο κοινό έως τη βιομετρική ταυτοποίηση χειρίζονται από συστήματα τεχνητής νοημοσύνης.

Σημεία Περιεχομένου

Τώρα, θα πίστευε κανείς ότι οι άνθρωποι θα ήταν καλύτεροι στο διάβασμα των χειλιών, δεδομένου ότι ασκούμε επίσημα την τεχνική από την εποχή του Ισπανού Βενεδικτίνου μοναχού, Pedro Ponce de León, ο οποίος πιστώνεται πρωτοπορώντας την ιδέα στις αρχές του 16ου αιώνα.

είναι άγαλμα

Wikipedia / Δημόσιος Τομέας

«Συνήθως σκεφτόμαστε την ομιλία ως αυτό που ακούμε, αλλά το ακουστό μέρος της ομιλίας είναι μόνο μέρος της», δήλωσε ο Δρ Fabian Campbell-West, CTO του προγραμματιστή εφαρμογών ανάγνωσης χειλιών, Λιόπα, είπε στο Engadget μέσω email. «Όπως το αντιλαμβανόμαστε, η ομιλία ενός ατόμου μπορεί να χωριστεί σε οπτικές και ακουστικές μονάδες. Οι οπτικές μονάδες, που ονομάζονται μέγγενη, φαίνονται ως κινήσεις των χειλιών. Οι ακουστικές μονάδες, που ονομάζονται φωνήματα, ακούγονται ως ηχητικά κύματα».

«Όταν επικοινωνούμε πρόσωπο με πρόσωπο συχνά προτιμάται επειδή είμαστε ευαίσθητοι τόσο σε οπτικές όσο και σε ακουστικές πληροφορίες», συνέχισε. «Ωστόσο, υπάρχουν περίπου τριπλάσια φωνήματα από τα μέγγελα. Με άλλα λόγια, οι κινήσεις των χειλιών από μόνες τους δεν περιέχουν τόσες πολλές πληροφορίες όσο το ακουστικό μέρος της ομιλίας».

«Οι περισσότερες κινήσεις που κάνουν χείλη, εκτός από τα χείλη και μερικές φορές τη γλώσσα και τα δόντια, είναι λανθάνουσες και δύσκολο να αποσαφηνιστούν χωρίς πλαίσιο», σημείωσε ο τότε ερευνητής του Πανεπιστημίου της Οξφόρδης και προγραμματιστής του LipNet, Γιάννης Άσαελ. σε 2016, επικαλούμενος παλαιότερες μελέτες του Fisher. Αυτά τα ομοφήμες είναι το μυστικό για Κακή ανάγνωση από τα χείλη's επιτυχία.

Αυτό που είναι περίεργο είναι ότι το Bad Lip Reading θα λειτουργεί γενικά σε οποιαδήποτε προφορική γλώσσα, είτε είναι τόνος-προφορά όπως αγγλικά ή τονικός σαν Βιετναμέζος. «Η γλώσσα κάνει τη διαφορά, ειδικά αυτές με μοναδικούς ήχους που δεν είναι συνηθισμένοι σε άλλες γλώσσες», είπε ο Campbell-West. «Κάθε γλώσσα έχει κανόνες σύνταξης και προφοράς που θα επηρεάσουν τον τρόπο ερμηνείας της. Σε γενικές γραμμές, οι μέθοδοι κατανόησης είναι οι ίδιες».

«Οι τονικές γλώσσες είναι ενδιαφέρουσες γιατί χρησιμοποιούν την ίδια λέξη με διαφορετικούς τόνους (όπως το μουσικό ύψος) αλλαγές για να μεταδώσουν νόημα», συνέχισε. «Διαισθητικά αυτό θα αποτελούσε μια πρόκληση για την ανάγνωση των χειλιών, ωστόσο η έρευνα δείχνει ότι είναι ακόμα δυνατή η ερμηνεία της ομιλίας με αυτόν τον τρόπο. Μέρος του λόγου είναι ότι η αλλαγή του τόνου απαιτεί φυσιολογικές αλλαγές που μπορούν να εκδηλωθούν οπτικά. Το διάβασμα από τα χείλη γίνεται επίσης με την πάροδο του χρόνου, επομένως το πλαίσιο των προηγούμενων μεγεθών, λέξεων και φράσεων μπορεί να βοηθήσει στην κατανόηση».

"Έχει σημασία από την άποψη του πόσο καλή είναι η γνώση της γλώσσας, επειδή ουσιαστικά περιορίζετε το σύνολο των ασαφειών που μπορείτε να αναζητήσετε," Adrian KC Lee, ScD, Καθηγητής και Πρόεδρος του Τμήματος Επιστημών Λόγου και Ακοής, Επιστημών Ομιλίας και Ακοής στο Πανεπιστήμιο της Ουάσιγκτον, είπε στο Engadget. «Πες, «κρύο. και «κρατήστε», σωστά; Αν κάθεστε μπροστά σε έναν καθρέφτη, δεν μπορείτε να διακρίνετε πραγματικά τη διαφορά. Οπότε από φυσική άποψη, είναι αδύνατο, αλλά αν κρατάω κάτι αντί να μιλάω για τον καιρό, εσείς, από το πλαίσιο, το γνωρίζετε ήδη».

Εκτός από το γενικό πλαίσιο της ευρύτερης μετατροπής, πολλά από αυτά που μεταφέρουν οι άνθρωποι όταν μιλούν συναντώνται μη λεκτικά. «Η επικοινωνία είναι συνήθως ευκολότερη όταν μπορείς να δεις το άτομο και να το ακούσεις», είπε ο Campbell-West, «αλλά ο πρόσφατος πολλαπλασιασμός των βιντεοκλήσεων μάς έδειξε σε όλους μας ότι δεν έχει να κάνει μόνο με το να βλέπεις το άτομο, αλλά και πολύ περισσότερες λεπτομέρειες. Υπάρχουν πολύ περισσότερες δυνατότητες για την κατασκευή ευφυών αυτοματοποιημένων συστημάτων για την κατανόηση της ανθρώπινης επικοινωνίας από ό,τι είναι σήμερα δυνατό».

Λείπει ένα δάσος για τα δέντρα, γλωσσικά

Ενώ οι άνθρωποι και οι μηχανικοί αναγνώστες χειλιών έχουν τον ίδιο γενικό τελικό στόχο, οι στόχοι των επιμέρους διαδικασιών τους διαφέρουν πολύ. Ως ομάδα ερευνητών από Πανεπιστήμιο Επιστήμης και Τεχνολογίας του Ιράν υποστήριξε το 2021, «Τα τελευταία χρόνια, έχουν προταθεί αρκετές μέθοδοι για να διαβάζει ένα άτομο τα χείλη, αλλά υπάρχει μια σημαντική διαφορά μεταξύ αυτών των μεθόδων και των μεθόδων ανάγνωσης χειλιών που προτείνονται στην τεχνητή νοημοσύνη. Ο σκοπός των προτεινόμενων μεθόδων χειλεανάγνωσης από το μηχάνημα είναι η μετατροπή οπτικών πληροφοριών σε λέξεις… Ωστόσο, ο κύριος σκοπός της χειλεανάγνωσης από τον άνθρωπο είναι να κατανοήσουν το νόημα της ομιλίας και όχι να κατανοήσουν κάθε λέξη της ομιλίας».

Εν ολίγοις, «οι άνθρωποι είναι γενικά τεμπέληδες και βασίζονται στο πλαίσιο επειδή έχουμε πολλές προηγούμενες γνώσεις», εξήγησε ο Lee. Και είναι αυτή η ασυμφωνία στη διαδικασία - το γλωσσικό ισοδύναμο του να λείπει ένα δάσος για τα δέντρα - που παρουσιάζει μια τόσο μοναδική πρόκληση στον στόχο της αυτοματοποίησης της ανάγνωσης των χειλιών.

«Ένα σημαντικό εμπόδιο στη μελέτη της γλωσσικής ανάγνωσης είναι η έλλειψη μιας τυπικής και πρακτικής βάσης δεδομένων», είπε ο Hao. «Το μέγεθος και η ποιότητα της βάσης δεδομένων καθορίζουν το αποτέλεσμα εκπαίδευσης αυτού του μοντέλου και μια τέλεια βάση δεδομένων θα προωθήσει επίσης την ανακάλυψη και την επίλυση ολοένα και πιο περίπλοκων και δύσκολων προβλημάτων στις εργασίες γλωσσικής διάδοσης». Άλλα εμπόδια μπορεί να περιλαμβάνουν περιβαλλοντικούς παράγοντες όπως ο κακός φωτισμός και shiftμε φόντο που μπορεί να μπερδέψει τα συστήματα μηχανικής όρασης, όπως και οι διακυμάνσεις που οφείλονται στον τόνο του δέρματος του ηχείου, στη γωνία περιστροφής του κεφαλιού τους (που shifts η οπτική γωνία του στόματος) και η συγκαλυμμένη παρουσία ρυτίδων και γενειάδων.

Όπως σημειώνει ο Assael, «Η μηχανική ειρήνη είναι δύσκολη γιατί απαιτεί την εξαγωγή χωροχρονικών χαρακτηριστικών από το βίντεο (καθώς τόσο η θέση όσο και η κίνηση είναι σημαντικές). Ωστόσο, όπως εξηγεί ο Mingfeng Hao του Πανεπιστημίου Xinjiang το 2020 Μια έρευνα για την τεχνολογία ανάγνωσης χειλιών, "η αναγνώριση δράσης, η οποία ανήκει στην ταξινόμηση βίντεο, μπορεί να ταξινομηθεί μέσω μιας μόνο εικόνας." Έτσι, «ενώ η λεξική ανάγνωση συχνά χρειάζεται να εξάγει τα χαρακτηριστικά που σχετίζονται με το περιεχόμενο της ομιλίας από μια μεμονωμένη εικόνα και να αναλύει τη χρονική σχέση μεταξύ ολόκληρης της ακολουθίας των εικόνων για να συμπεράνει το περιεχόμενο.» Είναι ένα εμπόδιο που απαιτεί δυνατότητες επεξεργασίας φυσικής γλώσσας και μηχανικής όρασης να ξεπεραστούν.

Ακρωνύμιο Soup

Σήμερα, η αναγνώριση ομιλίας διατίθεται σε τρεις γεύσεις, ανάλογα με την πηγή εισόδου. Αυτό για το οποίο μιλάμε σήμερα εμπίπτει στην έρευνα Visual Speech Recognition (VSR) — δηλαδή, χρησιμοποιώντας μόνο οπτικά μέσα για να κατανοήσουμε τι μεταφέρεται. Αντίθετα, υπάρχει Αυτοματοποιημένη αναγνώριση ομιλίας (ASR) που βασίζεται εξ ολοκλήρου στον ήχο, π.χ. "Hey Siri" και Οπτικοακουστική Αυτοματοποιημένη Αναγνώριση Ομιλίας (AV-ASR), το οποίο ενσωματώνει τόσο ηχητικά όσο και οπτικά στοιχεία στις εικασίες του.

«Η έρευνα για την αυτόματη αναγνώριση ομιλίας (ASR) είναι εξαιρετικά ώριμη και η τρέχουσα κατάσταση της τέχνης είναι αγνώριστη σε σύγκριση με ό,τι ήταν δυνατό όταν ξεκίνησε η έρευνα», δήλωσε ο Campbell-West. «Η οπτική αναγνώριση ομιλίας (VSR) βρίσκεται ακόμα στα σχετικά πρώιμα στάδια της εκμετάλλευσης και τα συστήματα θα συνεχίσουν να ωριμάζουν». του Λιόπα Εφαρμογή SRAVI, που επιτρέπει στους ασθενείς του νοσοκομείου να επικοινωνούν ανεξάρτητα από το αν μπορούν να εκφράζουν ενεργά, βασίζεται στην τελευταία μεθοδολογία. «Αυτό μπορεί να χρησιμοποιήσει και τους δύο τρόπους πληροφόρησης για να βοηθήσει να ξεπεραστούν οι ελλείψεις του άλλου», είπε. «Στο μέλλον θα υπάρξουν οπωσδήποτε συστήματα που θα χρησιμοποιούν πρόσθετες ενδείξεις για να υποστηρίξουν την κατανόηση».

«Υπάρχουν αρκετές διαφορές μεταξύ των υλοποιήσεων VSR», συνέχισε ο Campbell-West. «Από τεχνική άποψη, η αρχιτεκτονική του τρόπου κατασκευής των μοντέλων είναι διαφορετική… Τα προβλήματα βαθιάς μάθησης μπορούν να προσεγγιστούν από δύο διαφορετικές οπτικές γωνίες. Ο πρώτος αναζητά την καλύτερη δυνατή αρχιτεκτονική, ο δεύτερος χρησιμοποιεί μεγάλο όγκο δεδομένων για να καλύψει όσο το δυνατόν περισσότερες παραλλαγές. Και οι δύο προσεγγίσεις είναι σημαντικές και μπορούν να συνδυαστούν».

Στις πρώτες μέρες της έρευνας VSR, τα σύνολα δεδομένων όπως AVΓράμματα έπρεπε να επισημανθεί με το χέρι και να κατηγοριοποιηθεί, ένας περιορισμός έντασης εργασίας που περιόριζε σοβαρά τον όγκο των δεδομένων που ήταν διαθέσιμα για την εκπαίδευση μοντέλων μηχανικής εκμάθησης. Ως εκ τούτου, η αρχική έρευνα επικεντρώθηκε πρώτα στα απόλυτα βασικά - αλφάβητο και αναγνώριση σε επίπεδο αριθμού - πριν τελικά προχωρήσει στον προσδιορισμό σε επίπεδο λέξεων και φράσεων, με το επίπεδο προτάσεων να είναι η σύγχρονη τεχνολογία που επιδιώκει να κατανοήσει την ανθρώπινη ομιλία σε πιο φυσικές συνθήκες και καταστάσεις.

Τα τελευταία χρόνια, η άνοδος πιο προηγμένων τεχνικών βαθιάς μάθησης, που εκπαιδεύουν μοντέλα στο ευρύτερο διαδίκτυο, σε συνδυασμό με τη μαζική επέκταση των κοινωνικών και οπτικών μέσων που δημοσιεύονται στο διαδίκτυο, επέτρεψαν στους ερευνητές να δημιουργήσουν πολύ μεγαλύτερα σύνολα δεδομένων, όπως Προτάσεις ανάγνωσης χειλιών Oxford-BBC 2 (LRS2), το οποίο βασίζεται σε χιλιάδες προφορικές γραμμές από διάφορα προγράμματα του BBC. Το LRS3-TED συγκέντρωσε 150,000 προτάσεις από διάφορα προγράμματα TED, ενώ η βάση δεδομένων LSVSR (Large-Scale Visual Speech Recognition), μια από τις μεγαλύτερες που υπάρχουν αυτή τη στιγμή προσφέρει 140,000 ώρες τμημάτων ήχου με 2,934,899 δηλώσεις ομιλίας και πάνω από 127,000 λέξεις.

Και δεν είναι μόνο τα αγγλικά: Παρόμοια σύνολα δεδομένων υπάρχουν για πολλές γλώσσες όπως π.χ HIT-AVDB-II, το οποίο βασίζεται σε ένα σύνολο κινεζικών ποιημάτων ή IV2, μια γαλλική βάση δεδομένων που αποτελείται από 300 άτομα που λένε τις ίδιες 15 φράσεις. Παρόμοια σύνολα υπάρχουν και για εφαρμογές στη ρωσική, ισπανική και τσεχική γλώσσα.

Κοιτάζοντας μπροστά

Το μέλλον του VSR θα μπορούσε να μοιάζει πολύ με το παρελθόν του ASR, λέει ο Campbell-West, «Υπάρχουν πολλά εμπόδια για την υιοθέτηση του VSR, όπως υπήρχαν για το ASR κατά την ανάπτυξή του τις τελευταίες δεκαετίες». Το απόρρητο είναι μεγάλο, φυσικά. Αν και οι νεότερες γενιές παρεμποδίζονται λιγότερο με την τεκμηρίωση της ζωής τους στο διαδίκτυο, ο Campbell-West είπε, «οι άνθρωποι δικαίως έχουν μεγαλύτερη επίγνωση της ιδιωτικής ζωής τώρα από ό,τι πριν. Οι άνθρωποι μπορεί να ανέχονται ένα μικρόφωνο ενώ δεν ανέχονται μια κάμερα."

Ανεξάρτητα από αυτό, η Campbell-West παραμένει ενθουσιασμένη με τις πιθανές μελλοντικές εφαρμογές του VSR, όπως οι αυτοματοποιημένοι υπότιτλοι υψηλής πιστότητας. «Οραματίζομαι ένα σύστημα υποτιτλισμού σε πραγματικό χρόνο, ώστε να μπορείτε να λαμβάνετε ζωντανούς υπότιτλους στα γυαλιά σας όταν μιλάτε σε κάποιον», είπε η Campbell-West. "Για οποιονδήποτε με προβλήματα ακοής, αυτή θα μπορούσε να είναι μια εφαρμογή που θα αλλάξει τη ζωή, αλλά ακόμη και για γενική χρήση σε θορυβώδη περιβάλλοντα, αυτό θα μπορούσε να είναι χρήσιμο."

«Υπάρχουν περιπτώσεις όπου ο θόρυβος κάνει το ASR πολύ δύσκολο, αλλά ο φωνητικός έλεγχος είναι πλεονεκτικός, όπως σε ένα αυτοκίνητο», συνέχισε. «Το VSR θα μπορούσε να βοηθήσει αυτά τα συστήματα να γίνουν καλύτερα και ασφαλέστερα για τον οδηγό και τους επιβάτες».

Από την άλλη πλευρά, ο Lee, του οποίου το εργαστήριο στο UW έχει ερευνήσει εκτενώς τις τεχνολογίες Διασύνδεσης Εγκεφάλου-Υπολογιστή, βλέπει τις φορετές οθόνες κειμένου περισσότερο ως μέτρο «διακοπής» έως ότου ωριμάσει περαιτέρω η τεχνολογία BCI. «Δεν θέλουμε απαραίτητα να πουλήσουμε την BCI σε εκείνο το σημείο όπου, «Εντάξει, θα κάνουμε επικοινωνία εγκεφάλου με εγκέφαλο χωρίς καν να μιλάμε δυνατά», είπε ο Lee. «Σε μια δεκαετία περίπου, θα βρείτε τα βιολογικά σήματα να αξιοποιούνται στα ακουστικά βαρηκοΐας, σίγουρα. Τόσο λίγο όσο [η συσκευή] βλέποντας πού κοιτάζουν τα μάτια σας μπορεί να είναι σε θέση να της δώσει μια ιδέα για το πού να επικεντρωθεί ακούγοντας."

«Διστάζω να πω πραγματικά «ω ναι, θα πάρουμε ακουστικά βαρηκοΐας ελεγχόμενα από τον εγκέφαλο», παραδέχτηκε ο Lee. «Νομίζω ότι είναι εφικτό, αλλά ξέρετε, θα πάρει χρόνο».

Όλα τα προϊόντα που προτείνει η Engadget επιλέγονται από τη συντακτική μας ομάδα, ανεξάρτητα από τη μητρική μας εταιρεία. Ορισμένες από τις ιστορίες μας περιλαμβάνουν συνδέσμους συνεργατών. Εάν αγοράσετε κάτι μέσω ενός από αυτούς τους συνδέσμους, ενδέχεται να κερδίσουμε μια προμήθεια θυγατρικών. Όλες οι τιμές είναι σωστές τη στιγμή της δημοσίευσης.

Πηγή