Τεχνολογία-Επιστήμη
Παρασκευή, 26 Απριλίου 2019 06:16

Εγκεφαλικά σήματα σε φωνή: Σύνθεση ομιλίας μέσω αποκωδικοποίησης της εγκεφαλικής δραστηριότητας

Ένα εξελιγμένο σύστημα αλληλεπίδρασης εγκεφάλου και μηχανής που ανέπτυξαν νευροεπιστήμονες του UC San Francisco έχει τη δυνατότητα να παράγει συνθετική μεν, «φυσική» δε, ομιλία, χρησιμοποιώντας την εγκεφαλική δραστηριότητα για να ελέγξει μια εικονική φωνητική οδό.

Ένα εξελιγμένο σύστημα αλληλεπίδρασης εγκεφάλου και μηχανής που ανέπτυξαν νευροεπιστήμονες του UC San Francisco έχει τη δυνατότητα να παράγει συνθετική μεν, «φυσική» δε, ομιλία, χρησιμοποιώντας την εγκεφαλική δραστηριότητα για να ελέγξει μια εικονική φωνητική οδό- μια ανατομικά λεπτομερή προσομοίωση υπολογιστή, που περιλαμβάνει τα χείλη, τη σιαγόνα, τη γλώσσα και τον λάρυγγα. Η συγκεκριμένη τεχνολογία εκτιμάται πως θα μπορούσε κάποια στιγμή να οδηγήσει στην αποκατάσταση της φωνής ανθρώπων που έχουν χάσει τη δυνατότητα ομιλίας εξαιτίας παράλυσης και άλλων νευρολογικών προβλημάτων.

Κάποιοι άνθρωποι με σοβαρά προβλήματα ομιλίας μαθαίνουν να συλλαβίζουν τις σκέψεις τους γράμμα- γράμμα χρησιμοποιώντας βοηθητικές συσκευές οι οποίες παρατηρούν ανεπαίσθητες κινήσεις των ματιών ή των μυών του προσώπου. Ωστόσο, η παραγωγή κειμένου ή συνθετικής ομιλίας με τέτοιες συσκευές είναι δύσκολη και επιρρεπής σε λάθη, ενώ οι ταχύτητές της είναι χαμηλές (10 λέξεις το λεπτό, συγκριτικά με τις 100-150 που χαρακτηρίζουν τη φυσική ομιλία).

Το νέο σύστημα, που αναπτύσσεται στο εργαστήριο του Έντουαρντ Τσανγκ, παρουσιάστηκε στο Nature και επιδεικνύει πως είναι δυνατή η δημιουργία μιας συνθετικής έκδοσης της φωνής ενός ατόμου, που μπορεί να ελεγχθεί μέσω της δραστηριότητας των κέντρων ομιλίας. Στο μέλλον, αυτή η προσέγγιση θα μπορούσε όχι μόνο να επαναφέρει δυνατότητες «άπταιστης» επικοινωνίας σε άτομα με σοβαρά προβλήματα ομιλίας, λένε οι ερευνητές, μα θα μπορούσε να αναπαράγει και μέρος της μουσικότητας της φωνής που μεταδίδει τα συναισθήματα και την προσωπικότητα του ομιλητή.

«Για πρώτη φορά, αυτή η μελέτη δείχνει πως μπορούμε να παράγουμε ολόκληρες προτάσεις με βάση την εγκεφαλική δραστηριότητα ενός ατόμου» είπε ο Τσανγκ. «Υπάρχουν αποδείξεις επί της αρχής πως με τεχνολογία που είναι ήδη “εντός εμβέλειας” θα μπορούσαμε να δημιουργήσουμε μια συσκευή που είναι κλινικά βιώσιμη για ασθενείς με απώλεια ομιλίας».

Της έρευνας ηγήθηκαν οι Γκοπάλα Ανουμαντσιπάλι, PhD, και Τζος Τσαρτιέ. Βασίζεται σε πρόσφατη μελέτη όπου είχε περιγραφεί για πρώτη φορά πώς τα κέντρα ομιλίας του ανθρώπινου εγκεφάλου «χορογραφούν» τις κινήσεις των χειλιών, της σιαγόνας, της γλώσσας και άλλων τμημάτων της φωνητικής οδού, για την παραγωγή άπταιστης ομιλίας.

Με βάση τις ηχογραφήσεις των φωνών των συμμετεχόντων στην έρευνα (εθελοντές που δεν είχαν προβλήματα ομιλίας, οι οποίοι ωστόσο νοσηλεύονταν στο UCSF Epilepsy Center και είχαν ηλεκτρόδια προσωρινά εμφυτευμένα στους εγκεφάλους τους για την καταγραφή των πηγών των κρίσεών τους, εν όψει χειρουργικών επεμβάσεων) ερευνητές χρησιμοποίησαν γλωσσολογικές αρχές για το «reverse engineering» των κινήσεων της φωνητικής οδού που απαιτούνταν για την παραγωγή αυτών των ήχων. Η λεπτομερής «χαρτογράφηση» του ήχου από ανατομικής άποψης επέτρεψε στους επιστήμονες να δημιουργήσουν μια ρεαλιστική εικονική φωνητική οδό για τον κάθε συμμετέχοντα, που ελεγχόταν μέσω εγκεφαλικής δραστηριότητας. Αυτή αποτελούνταν από δύο αλγορίθμους machine learning- «νευρωνικά δίκτυα»: Έναν αποκωδικοποιητή που μετατρέπει τα μοτίβα εγκεφαλικής δραστηριότητας που παράγονται κατά την ομιλία σε κινήσεις της εικονικής φωνητικής οδού, και έναν συνθέτη (synthesizer) που μετατρέπει αυτές τις κινήσεις σε συνθετικές μιμήσεις της φωνής.

Η συνθετική ομιλία που δημιουργήθηκε από αυτούς τους αλγορίθμους ήταν πολύ καλύτερη από αυτήν που δημιουργείται απευθείας από την εγκεφαλική δραστηριότητα, χωρίς να συμπεριλαμβάνονται προσομοιώσεις των φωνητικών οδών των ομιλητών. Οι αλγόριθμοι παρήγαγαν προτάσεις που ήταν κατανοητές από εκατοντάδες ακροατές σε δοκιμές που έγιναν μέσω της πλατφόρμας Amazon Mechanical Turk.

«Έχουμε ακόμα δρόμο μπροστά μας για να μιμηθούμε τέλεια την ομιλούμενη γλώσσα» παραδέχτηκε ο Σαρτιέ. «Είμαστε καλοί στη σύνθεση πιο αργών ήχων ομιλίας, όπως το “sh” και το “z”, καθώς και στη διατήρηση ρυθμών και τονισμών ομιλίας και του φύλου και της ταυτότητας του ομιλούντος, αλλά κάποιοι από τους πιο απότομους ήχους όπως τα “b” και τα “p” είναι λίγο ασαφή. Παρόλα αυτά, τα επίπεδα ακρίβειας που επιτύχαμε εδώ θα συνιστούσαν εκπληκτική βελτίωση στην επικοινωνία σε πραγματικό χρόνο, σε σχέση με αυτά που είναι διαθέσιμα τώρα».