Τεχνολογία-Επιστήμη
Δευτέρα, 07 Οκτωβρίου 2013 12:53

Βελτιωμένη ρομποτική όραση

Η αναγνώριση αντικειμένων (και του περιβάλλοντος γενικότερα) είναι ένα από τα πιο ευρέως μελετώμενα προβλήματα στον τομέα του computer vision (όραση υπολογιστών).  Ειδικά για τα ρομπότ έχει πάρα πολύ μεγάλη σημασία, καθώς ένα ρομπότ το οποίο κινείται στον πραγματικό κόσμο δεν αρκεί απλά να αναγνωρίζει κάτι, αλλά πρέπει να μπορεί και να αντιληφθεί τον προσανατολισμό και τη θέση του.

Η αναγνώριση αντικειμένων (και του περιβάλλοντος γενικότερα) είναι ένα από τα πιο ευρέως μελετώμενα προβλήματα στον τομέα του computer vision (όραση υπολογιστών).  Ειδικά για τα ρομπότ έχει πάρα πολύ μεγάλη σημασία, καθώς ένα ρομπότ το οποίο κινείται στον πραγματικό κόσμο δεν αρκεί απλά να αναγνωρίζει κάτι, αλλά πρέπει να μπορεί και να αντιληφθεί τον προσανατολισμό και τη θέση του.

Πάνω σε αυτό το πλαίσιο κινείται η δουλειά του Τζάρεντ Γκλόβερ, του Τμήματος Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του ΜΙΤ. Σε paper το οποίο θα παρουσιαστεί τον Νοέμβριο στην International Conference on Intelligent Robots and Systems, ο Γκλόβερ και η Σάνια Πόποβιτς, απόφοιτη του ΜΙΤ που εργάζεται πλέον στην Google, θα παρουσιάσουν έναν πρωτοποριακό αλγόριθμο ρομποτικής όρασης, ο οποίος είναι 15% καλύτερος από τον κορυφαίο ανταγωνιστή του στην ταυτοποίηση αντικειμένων εντός χώρων με πολλά αντικείμενα – και πάλι, αυτό υπό την προϋπόθεση οπτικών δεδομένων υψηλής ποιότητας εντός γνωστού περιβάλλοντος.

Το «εργαλείο» που βρίσκεται στην καρδιά του συστήματος προέρχεται από το χώρο της στατιστικής και είναι το αποκαλούμενο Bingham distribution (κατανομή Μπίνγκαμ). Ο Γκλόβερ το χρησιμοποιεί για την ανάλυση του προσανατολισμού μπαλών του πινγκ πονγκ εν πτήσει, στο πλαίσιο ενός προγράμματος εκπαίδευσης ρομπότ στο πινγκ πονγκ. Ειδικά σε περιπτώσεις όπου τα οπτικά δεδομένα είναι πολύ περιορισμένα, ο αλγόριθμος παρουσιάζεται 50% καλύτερος σε σχέση με τις άλλες εναλλακτικές. Ο Γκλόβερ έχει επίσης αναπτύξει μία σειρά εργαλείων λογισμικού για την επιτάχυνση των υπολογισμών, τα οποία είναι δωρεάν διαθέσιμα online.

Το βασικό πλεονέκτημα της κατανομής Bingham είναι το ότι επιτρέπει το συνδυασμό πληροφοριών από πολλές πηγές, αξιοποιώντας τα δεδομένα που προκύπτουν από μία κάμερα Microsoft Kinect. Οι επιδόσεις του αλγορίθμου θα μπορούσαν να βελτιωθούν ακόμη περισσότερο εάν εισάγονταν πληροφορίες από επιπλέον πηγές, όπως οι στατιστικές πιθανότητες του να βρεθούν συγκεκριμένα αντικείμενα σε συγκεκριμένες θέσεις: για παράδειγμα, ένα ποτήρι θα μπορούσε να βρεθεί σε κανονική θέση, αναποδογυρισμένο ή πεσμένο στα πλάγια, αλλά πολύ σπάνια διαγώνια – η γνώση αυτού του δεδομένου θα καθιστούσε τον αλγόριθμο ακόμα πιο «έξυπνο» όσον αφορά την αναγνώριση ενός ποτηριού μέσα σε ένα «φυσικό» περιβάλλον.

Κατά τον Γκλόβερ, το βασικό πλεονέκτημα της κατανομής Bingham είναι η ευελιξία/ πολυπλευρότητα που παρέχει, καθιστώντας το ιδανικό εργαλείο για τη ρομποτική έρευνα, λόγω του γενικού του χαρακτήρα. «Μπορείς να περάσεις όλο σου το διδακτορικό προγραμματίζοντας ένα ρομπότ να βρίσκει τραπέζια, καρέκλες, κύπελλα και άλλα τέτοια πράγματα, αλλά στην πραγματικότητα δεν υπάρχουν πολλά εργαλεία γενικής χρήσης» λέει σχετικά.

«Σε περιπτώσεις μεγαλύτερων προβλημάτων, όπως ο υπολογισμός των σχέσεων μεταξύ αντικειμένων και των χαρακτηριστικών τους και η αντιμετώπιση ασαφών ζητημάτων, είμαστε ακόμη πολύ μακριά από εκεί που θα έπρεπε να είμαστε. Μέχρι τότε, νομίζω ότι οι δυνατότητες των ρομπότ θα παραμένουν περιορισμένες», προσθέτει.