Ένα αλγόριθμο ο οποίος μπορεί να αναδημιουργήσει ένα σήμα ήχου αναλύοντας τις ανεπαίσθητες δονήσεις σε αντικείμενα τα οποία απεικονίζονται σε βίντεο ανέπτυξαν ερευνητές του ΜΙΤ, της Microsoft και της Adobe. Σε ένα «σετ» πειραμάτων, μάλιστα, ήταν δυνατή η «ανάκτηση» ομιλίας μέσω της «ανάγνωσης» των δονήσεων σε ένα σακουλάκι με πατατάκια, η λήψη της εικόνας του οποίου είχε γίνει από απόσταση πέντε μέτρων διαμέσου ηχομονωτικού τζαμιού.
Ένα αλγόριθμο ο οποίος μπορεί να αναδημιουργήσει ένα σήμα ήχου αναλύοντας τις ανεπαίσθητες δονήσεις σε αντικείμενα τα οποία απεικονίζονται σε βίντεο ανέπτυξαν ερευνητές του ΜΙΤ, της Microsoft και της Adobe. Σε ένα «σετ» πειραμάτων, μάλιστα, ήταν δυνατή η «ανάκτηση» ομιλίας μέσω της «ανάγνωσης» των δονήσεων σε ένα σακουλάκι με πατατάκια, η λήψη της εικόνας του οποίου είχε γίνει από απόσταση πέντε μέτρων διαμέσου ηχομονωτικού τζαμιού.
Σε άλλα πειράματα οι ερευνητές ήταν σε θέση να εξάγουν σήματα ήχου από βίντεο με αλουμινόχαρτο, την επιφάνεια ενός ποτηριού με νερό, ακόμα και τα φύλλα ενός φυτού σε γλάστρα. Τα αποτελέσματα της έρευνας πρόκειται να παρουσιαστούν σε paper στη φετινή συνδιάσκεψη Siggraph.
«Όταν ο ήχος χτυπά ένα αντικείμενο, προκαλεί δονήσεις» αναφέρει σχετικά ο Έιμπ Ντέιβις, τελειόφοιτος ηλεκτρολογίας- μηχανολογίας και επιστήμης υπολογιστών στο ΜΙΤ και πρώτος συντάκτης του paper. «Η κίνηση της δόνησης δημιουργεί ένα πολύ διακριτικό οπτικό σήμα που είναι συνήθως αόρατο στο γυμνό μάτι. Οι άνθρωποι δεν συνειδητοποιούν ότι οι πληροφορίες ήταν εκεί».
Η αναδόμηση ήχου από βίντεο προϋποθέτει η συχνότητα των video samples (ο αριθμός των frames που γίνονται capture ανά δευτερόλεπτο) να γίνει υψηλότερο από αυτήν του audio signal. Σε κάποια από τα πειράματα οι ερευνητές χρησιμοποίησαν μία κάμερα υψηλής ταχύτητας που έκανε capture 2.000 με 6.000 frames/ δευτερόλεπτο- πολύ παραπάνω από τα 60 που υπάρχουν αντίστοιχα σε κάποια smartphones, αλλά παράλληλα κάτω από τα frame rates των καλύτερων high-speed καμερών που κυκλοφορούν στο εμπόριο (μέχρι και 100.000 frapes per second).
Σε άλλα πειράματα ωστόσο χρησιμοποιήθηκε συνηθισμένη ψηφιακή κάμερα. Εξαιτίας μιας ιδιαιτερότητας στον σχεδιασμό των αισθητήρων των περισσότερων καμερών, οι ερευνητές ήταν σε θέση να εξάγουν πληροφορίες για δονήσεις υψηλής συχνότητας ακόμα και από βίντεο που είχε καταγραφεί στα 60 frames per second. Αν και τα αποτελέσματα δεν ήταν τόσο «καθαρά», παρόλα αυτά ήταν δυνατή η ταυτοποίηση του φύλου των ομιλητών, ο αριθμός τους και ακόμη και της ταυτότητάς τους, εφόσον υπήρχαν επαρκή στοιχεία για τα ακουστικά χαρακτηριστικά των φωνών τους.
Η τεχνική προφανώς και ενδείκνυται για χρήση από την αστυνομία, ωστόσο ο Ντέιβις κάνει λόγο για τη δυνατότητα δημιουργίας ενός ολοκαίνουριου τύπου λήψης εικόνας. «Ανακτούμε ήχους από αντικείμενα. Αυτό μας δίνει πολλές πληροφορίες σχετικά με τον ήχο γύρω από ένα αντικείμενο, αλλά και πολλές πληροφορίες για το ίδιο το αντικείμενο, επειδή διαφορετικά αντικείμενα αντιδρούν στους ήχους με διαφορετικούς τρόπους». Οι ερευνητές επί της παρούσης προσπαθούν να εντοπίσουν υλικά και δομικά χαρακτηριστικά αντικειμένων βάσει των αντιδράσεών τους σε ήχους.