H τεχνητή νοημοσύνη AlphaGo της DeepMind κέρδισε και το τελευταίο από τα πέντε παιχνίδια με τον 33χρονο πρωταθλητή Λι Σεντόλ, ο οποίος, μετά από τρεις συνεχείς ήττες, είχε καταφέρει να κερδίσει ένα, κάνοντας το 3-1.
H τεχνητή νοημοσύνη AlphaGo της DeepMind κέρδισε και το τελευταίο από τα πέντε παιχνίδια με τον 33χρονο πρωταθλητή Λι Σεντόλ, ο οποίος, μετά από τρεις συνεχείς ήττες, είχε καταφέρει να κερδίσει ένα, κάνοντας το 3-1. Το τελικό σκορ ήταν 4-1, δίνοντας τέλος σε ένα «θρίλερ» που προκάλεσε αίσθηση εντός και εκτός του κόσμου της τεχνολογίας, καθώς η επικράτηση του AlphaGo στο τρίτο παιχνίδι (από τα πέντε που είχαν προγραμματιστεί) σήμανε τη νίκη σε ένα παιχνίδι που μέχρι πρότινος πιστευόταν ότι αποτελεί «αποκλειστικότητα» για τους ανθρώπους.
Ο Νοτιοκορεάτης Λι Σεντόλ εξέφρασε τη λύπη του για το τέλος των παιχνιδιών, καθώς και για το ότι δεν κατάφερε να αναδειχθεί νικητής, ενώ ευχαρίστησε τους υποστηρικτές του και ξεκαθάρισε ότι διασκέδασε τα παιχνίδια- τα οποία είχαν μεταδοθεί ζωντανά σε τηλεόραση και Ίντερνετ, καθώς το «Γκο» είναι ένα πολύ δημοφιλές παιχνίδι στην Ασία, και ειδικά στην Κίνα, τη Νότια Κορέα και την Ιαπωνία. Ωστόσο, τόνισε πως δεν θεωρεί ότι το AlphaGo είναι ανώτερο από τους ανθρώπους παίκτες, αν και σημείωσε ότι πρέπει να εξασκηθεί και μελετήσει περισσότερο, και παραδέχτηκε πως τα παιχνίδια κλόνισαν κάποιες από τις παγιωμένες αντιλήψεις του γύρω από το «Γκο».
Από πλευράς του, ο Ντέμης Χασάμπης, ιδρυτής της DeepMind, έκανε λόγο για ένα «απίστευτο παιχνίδι».
Παρά τους απλούς κανόνες του, το παιχνίδι είναι ιδιαίτερα πολύπλοκο, λόγω του ασύλληπτα τεράστιου αριθμού θέσεων και συνδυασμών που είναι δυνατοί- και ως εκ τούτου είναι πάρα πολύ δύσκολο για την Τεχνητή Νοημοσύνη. «Οι παραδοσιακές μέθοδοι Τεχνητής Νοημοσύνης- με τη δημιουργία ενός “δέντρου αναζήτησης” με όλες τις δυνατές θέσεις- δεν έχουν ελπίδα στο Γκο. Οπότε, όταν ξεκινήσαμε για να “σπάσουμε” το Γκο, πήραμε διαφορετική προσέγγιση. Φτιάξαμε ένα σύστημα, το AlphaGo, το οποίο συνδυάζει ένα προηγμένο tree search με βαθιά νευρικά δίκτυα (deep neural networks). Αυτά τα νευρικά δίκτυα παίρνουν μια περιγραφή του ταμπλό του Γκο ως πληροφορία/ input και την επεξεργάζονται μέσα από 12 διαφορετικά στρώματα δικτύου, που περιέχουν εκατομμύρια συνδέσεις στα πρότυπα νευρώνων. Ένα νευρικό δίκτυο, το “δίκτυο πολιτικής”, επιλέγει την επόμενη κίνηση. Το άλλο νευρικό δίκτυο, το “δίκτυο αξίας” προβλέπει τον νικητή του παιχνιδιού» αναφέρεται σε παλαιότερη δημοσίευση του κ. Χασάμπη στο επίσημο blog της Google.
Εν συνεχεία, τα δίκτυα εκπαιδεύτηκαν πάνω σε 30 εκατ. κινήσεις από παιχνίδια που παίχτηκαν από ανθρώπους παίκτες, μέχρι που το πρόγραμμα ήταν σε θέση να προβλέψει την ανθρώπινη κίνηση στο 57% των περιπτώσεων (το προηγούμενο ρεκόρ ήταν 44%). «Αλλά ο στόχος μας ήταν να νικήσουμε τους καλύτερους ανθρώπους παίκτες, όχι να τους μιμηθούμε» γράφει ο Χασάμπης. Οπότε, το AlphaGo έμαθε να ανακαλύπτει μόνο του νέες στρατηγικές, παίζοντας χιλιάδες παιχνίδια μεταξύ των νευρικών δικτύων του, και προσαρμόζοντας τις συνδέσεις μέσω μιας διαδικασίας trial and error, γνωστή ως reinforcement learning.
Το «Γκο», έχει να κάνει με τον έλεγχο της μεγαλύτερης περιοχής μέσω της τοποθέτησης μαύρων και λευκών ψηφίδων. Μέχρι τώρα δεν πιστευόταν ότι ένα πρόγραμμα τεχνητής νοημοσύνης θα τα κατάφερνε να κερδίσει επαγγελματία παίκτη πριν περάσει μια δεκαετία- ωστόσο το AlphaGo τα κατάφερε πέρυσι, νικώντας τον Φαν Χούι, πρωταθλητή Ευρώπης, και προκαλώντας τον πρώτο «σεισμό» στον χώρο της A.I., προοίμιο αυτού που θα ακολουθούσε με τη μεγάλη αναμέτρηση με τον Λι Σεντόλ.