Τεχνολογία-Επιστήμη
Τετάρτη, 30 Δεκεμβρίου 2020 13:53

Νέο μοντέλο «εκπαίδευσης» ρομπότ από τον αμερικανικό στρατό

Tο νέο μελλοντικό δόγμα επιχειρήσεων του αμερικανικού στρατού αφορά σε επιχειρήσεις σε πολλαπλά πεδία (multi-domain), και απαιτεί αυτόνομους δρώντες με δυνατότητες εκμάθησης για να μπορούν να επιχειρούν δίπλα στους στρατιωτικούς. Σε αυτό το πλαίσιο νέα έρευνα του στρατού αυξάνει την προβλεψιμότητα των σημερινών πολιτικών reinforcement learning, έτσι ώστε να είναι καταλληλότερες για συστήματα με φυσική παρουσία- όπως επίγεια/ χερσαία ρομπότ.

Tο νέο μελλοντικό δόγμα επιχειρήσεων του αμερικανικού στρατού αφορά σε επιχειρήσεις σε πολλαπλά πεδία (multi-domain), και απαιτεί αυτόνομους δρώντες με δυνατότητες εκμάθησης για να μπορούν να επιχειρούν δίπλα στους στρατιωτικούς. Σε αυτό το πλαίσιο νέα έρευνα του στρατού αυξάνει την προβλεψιμότητα των σημερινών πολιτικών reinforcement learning, έτσι ώστε να είναι καταλληλότερες για συστήματα με φυσική παρουσία- όπως επίγεια/ χερσαία ρομπότ.
 
Όπως είπε ο Dr. Άλεκ Κοπέλ του Army Research Laboratory του DEVCOM (US Army Combat Capabilities Development Command), αυτές οι μέθοδοι θα επιτρέπουν σε αυτόνομους δρώντες να εξάγουν λογικά συμπεράσματα και να προσαρμόζονται σε μεταβαλλόμενες συνθήκες στο πεδίο της μάχης. Ο όλος μηχανισμός προσαρμογής και επανασχεδιασμού αποτελείται από πολιτικές που βασίζονται στο reinforcement learning και το να καταστούν αυτές οι πολιτικές δυνατές/ διαθέσιμες είναι κρίσιμης σημασίας για την υλοποίηση των MDO (Multi Domain Operations). Σύμφωνα με τον Κοπέλ, οι πολιτικές αυτές αποτελούν τη βάση για κλιμακούμενους αλγορίθμους, ωστόσο οι υπάρχουσες τεχνικές δεν μπορούν να ενσωματώσουν ευρύτερους στόχους λήψης αποφάσεων, όπως οι περιορισμοί ασφαλείας, η αντίληψη κινδύνου κ.α.
 
Το ζήτημα του σχεδιασμού αυτόνομων συμπεριφορών όταν η σχέση μεταξύ δυναμικών και στόχων είναι πολύπλοκη μπορεί να επιλυθεί μέσω reinforcement learning, το οποίο εδώ και καιρό έχει προσελκύσει ενδιαφέρον ως προς την επίλυση δύσκολων «προβλημάτων», όπως σε παιχνίδια στρατηγικής σαν το «γκο» και το σκάκι και βιντεοπαιχνίδια όπως το Starcraft II. Ωστόσο κάτι τέτοιο ως τώρα ήταν ιδιαίτερα απαιτητικό, απαιτώντας προσομοίωση χιλιάδων ετών παιχνιδιού. Αυτή η πολυπλοκότητα καθιστά πολλούς μηχανισμούς εκπαίδευσης μη πρακτικούς.
 
Ο Κοπέλ και οι συνεργάτες του ανέπτυξαν νέες μεθόδους γενικής χρήσης, παρατηρώντας πως μείωναν τη μεταβλητότητα της συσσώρευσης ανταμοιβών, απέδιδαν καλά αποτελέσματα στις εξερευνητικές δραστηριότητες σε άγνωστα πεδία και παρείχαν έναν μηχανισμό ενσωμάτωσης της προηγούμενης εμπειρίας.
 
«Οι καινοτομίες αυτές έχουν επίδραση στον αμερικανικό στρατό καθώς επιτρέπουν στόχους reinforcement learning...όπως ευαισθησία στον κίνδυνο, περιορισμούς ασφαλείας, εξερεύνηση» είπε ο Κοπέλ, προσθέτοντας πως το μέλλον αυτής της έρευνας φαίνεται ιδιαίτερα φωτεινό: «Είμαι αισιόδοξος πως αυτόνομα ρομπότ με reinforcement learning θα είναι σε θέση να βοηθήσουν τον στρατιώτη στην εξερεύνηση, την αναγνώριση και την αξιολόγηση κινδύνου στο μελλοντικό πεδίο μάχης».