Scribe: «Υβριδικό» πρόγραμμα αναγνώρισης φωνής

Δευτέρα, 18 Μαρτίου 2013 12:49

Τα προγράμματα αναγνώρισης φωνής πολλές φορές εξακολουθούν να παρουσιάζουν προβλήματα, καθώς η ανθρώπινη ομιλία είναι κάτι που ακόμα και σήμερα είναι «δύσκολο» να αναγνωριστεί από μία μηχανή, λόγω διαφορετικών προφορών, φράσεων και άλλων παραγόντων.

A- A A+

Τα προγράμματα αναγνώρισης φωνής, όπως το Siri της Apple, βελτιώνονται συνεχώς και ενσωματώνονται όλο και περισσότερο στην καθημερινή χρήση συσκευών.

Ωστόσο, πολλές φορές εξακολουθούν να παρουσιάζουν προβλήματα, καθώς η ανθρώπινη ομιλία είναι κάτι που ακόμα και σήμερα είναι «δύσκολο» να αναγνωριστεί από μία μηχανή, λόγω διαφορετικών προφορών, φράσεων και άλλων παραγόντων. Για αυτό και ο Τζέφρι Μπίγκαμ, επιστήμονας υπολογιστών, συνδύασε τα καλύτερα στοιχεία των ανθρώπων και των μηχανών στο Scribe: ένα σύστημα που «ενισχύει» τους υπολογιστές με ανθρώπινη παρουσία, με σκοπό τη γρήγορη παραγωγή υποτίτλων και αποδόσεων/ αντιγράφων.

Οι άνθρωποι είναι σαφώς καλύτεροι από ό,τι οι υπολογιστές στο να καταλαβαίνουν την ανθρώπινη ομιλία, αλλά είναι πιο αργοί στο να την καταγράφουν σε πραγματικό χρόνο. Το εν λόγω πείραμα χρησιμοποιεί αλγορίθμους οι οποίοι καθοδηγούν/συντονίζουν ανθρώπους- εργαζομένους που ακούνε και πληκτρολογούν τμήματα μίας ομιλίας. Οι αλγόριθμοι είναι αρκετά «έξυπνοι» για να «κόβουν» την ομιλία σε κομμάτια, τα οποία επιβραδύνουν και προωθούν σε πολλαπλούς εργαζομένους.

Στη συνέχεια, το Scribe συνδυάζει τα κομμάτια του «παζλ» και παράγει ένα ενιαίο κείμενο- πιθανά λάθη εντοπίζονται χάρη στη σύγκριση σημείων που είναι κοινά μεταξύ των κομματιών. Όπως αναφέρει ο Μπίγκαμ στο ΜΙΤ Technology Review, το σύστημα είναι ικανό να δημιουργήσει ένα κείμενο/υπότιτλο με καθυστέρηση μέχρι και τριών δευτερολέπτων, χρησιμοποιώντας 3-5 εργαζομένους. Το κόστος τους είναι μικρότερο από ό,τι αυτό ενός, φερʼ ειπείν, στενογράφου.

Tο σύστημα είναι ικανό να δημιουργήσει ένα κείμενο με καθυστέρηση μέχρι και τριών δευτερολέπτων, χρησιμοποιώντας 3-5 εργαζομένους. Το κόστος τους είναι μικρότερο από ό,τι αυτό ενός στενογράφου όπως φαίνεται στο γράφημα.

Ο Μπίγκαμ και ο βοηθός του από το πανεπιστήμιο του Ρότσεστερ, Γουόλτερ Λασέκι, έχουν δοκιμάσει το σύστημα με εργαζομένους που βρήκαν μέσω του Mechanical Turk της Amazon, όπου γράφονται ενδιαφερόμενοι για να επιτελούν απλές εργασίες.  Η πληρωμή κυμαινόταν μεταξύ 6 και 10 δολαρίων την ώρα , και η τελική δουλειά ήταν ελαφρώς πιο ακριβής σε σχέση με ενός στενογράφου, καθώς η ομάδα των εργαζομένων ήταν σε θέση να αντιλαμβάνεται όρους αργκό που θα μπορούσαν να διαφύγουν από ένα μεμονωμένο άτομο.

Επί της παρούσης, το Scribe αναπτύσσεται σε εφαρμογή που θα απευθύνεται σε άτομα με προβλήματα ακοής, ενώ ο  Μπίγκαμ εξετάζει το ενδεχόμενο ίδρυσης μίας startup.
 

Προτεινόμενα για εσάς