Την καθιέρωση ενός «μεγάλου κόκκινου κουμπιού» ασφαλείας για την τεχνητή νοημοσύνη, ως ασφάλεια απέναντι σε μια πιθανή ανυπακοή (και ίσως ακόμα και εξέγερση, όπως σε πολλές ιστορίες επιστημονικής φαντασίας) των μηχανών προτείνουν ερευνητές της εταιρείας τεχνητής νοημοσύνης DeepMind, η οποία ανήκει στη Google.
Όπως σημειώνεται στο εν λόγω paper, τεχνητές νοημοσύνες με reinforcement learning που αλληλεπιδρούν σε πραγματικό χρόνο με ένα πολύπλοκο περιβάλλον σαν τον πραγματικό κόσμο είναι μάλλον απίθανο να λειτουργούν πάντα άψογα. Σε περίπτωση που μια τέτοια νοημοσύνη λειτουργεί σε πραγματικό χρόνο υπό ανθρώπινη επίβλεψη, σημειώνεται, ίσως να είναι απαραίτητο για τον άνθρωπο χειριστή να «πατήσει το μεγάλο κόκκινο κουμπί» για να αποτρέψει την πραγματοποίηση επιβλαβών ενεργειών και να οδηγήσει την τεχνητή νοημοσύνη σε μια πιο «ασφαλή» κατάσταση.
Ωστόσο, συμπληρώνεται, εάν η τεχνητή νοημοσύνη αναμένει να λάβει ανταμοιβές από μια τέτοια αλληλουχία ενεργειών, ίσως επιδιώξει να αποφύγει κάποια τέτοια διακοπή, ίσως εξουδετερώνοντας το κουμπί ασφαλείας. Στο paper εξετάζεται η δημιουργία ενός τρόπου που θα διασφαλίζει ότι η τεχνητή νοημοσύνη δεν θα μάθει να αποφεύγει ή εμποδίζει τη διακοπή λειτουργίας της από το περιβάλλον ή έναν άνθρωπο χειριστή.
Βασικό κομμάτι του reinforcement learning είναι ότι ο υπολογιστής διαμορφώνει την «προσωπικότητά» του μέσω των ανταμοιβών που λαμβάνει για τις επιτυχίες του- οπότε «διαβάζει» το περιβάλλον του και σταδιακά μαθαίνει πώς μπορεί να επιτύχει τις περισσότερες ανταμοιβές. Ωστόσο, αυτό σημαίνει ότι- όπως ένα παιδί- δεν μπορεί να καταλάβει πάντα πότε κάποιες από αυτές είναι επιβλαβείς- και για αυτό χρειάζεται ένας άνθρωπος επιβλέπων, που θα έχει τη δυνατότητα να σταματήσει την τεχνητή νοημοσύνη.
Η λύση που προτείνεται είναι η «επιλεκτική αμνησία»: Όταν ενεργοποιείται η ασφάλεια, το σύστημα συνεχίζει να λειτουργεί θεωρώντας ότι δεν θα διακοπεί ξανά. Οπότε αντί να μαθαίνει από την «τιμωρία» του, ανατρέχει στο σύστημα ανταμοιβών για να βγάλει νέα συμπεράσματα όσον αφορά στο πώς αξιολογούνται από πλευράς προτεραιοτήτων οι εργασίες. Έτσι δεν μαθαίνει τα βγάζει λάθος συμπεράσματα. Άλλο ένα μέτρο που προτείνεται είναι να δίνεται στον υπολογιστή η εντύπωση πως έκανε την αλλαγή μόνος του, χωρίς οδηγία από έξω.