Μία πρωτοπόρα προσπάθεια για τη δημιουργία καινοτόμων γλωσσικών πόρων για την Ελληνική προωθούν το ΟΠΑ και η Εθνική Βιβλιοθήκη Ελλάδος.
Μία πρωτοπόρα προσπάθεια για τη δημιουργία καινοτόμων γλωσσολογικών πόρων για την Ελληνική προωθούν το ΟΠΑ και η Εθνική Βιβλιοθήκη Ελλάδος.
Η Ελληνική γλώσσα διαδίδεται στην εποχή του Ιντερνέτ και των ψηφιακών μέσων κατά κύριο λόγο μέσω online υπηρεσιών και ιστοσελίδων του Παγκόσμιου Ιστού (ΠΙ) ο οποίος είναι η κύρια πηγή αναζήτησης πληροφορίας και γνώσης. Οι πρόσφατες εξελίξεις στην Τεχνητή Νοημοσύνη έχουν παράξει τα τελευταία χρόνια πρωτοφανούς εκφραστικότητας διανυσματικές παραστάσεις λέξεων (word embeddings) και έχουν καθιερωθεί ως αναπόσπαστο μέρος των πόρων και μοντέλων για Επεξεργασία Φυσικής Γλώσσας.
Όπως επισημαίνεται στη σχετική ανακοίνωση, είναι χαρακτηριστική η έλλειψη τέτοιων γλωσσολογικών πόρων για την Ελληνική γλώσσα που να στηρίζεται σε μεγάλες ποσότητες κειμένου. Υπό τις συνθήκες αυτές η ερευνητική ομάδα «Εξόρυξης Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό» του Τμήματος Πληροφορικής του ΟΠΑ, υπό την επιστημονική επίβλεψη και καθοδήγηση του Δρ. Μιχάλη Βαζιργιάννη (Καθηγητής στο ΟΠΑ και την Ecole Polytechnique στη Γαλλία) έχει επιτύχει ένα σημαντικό επίτευγμα στο χώρο αυτό: την παραγωγή του πληρέστερου ως τώρα συνόλου γλωσσολογικών πόρων για την Ελληνική γλώσσα που παράχθηκε με τεχνικές Τεχνητής Νοημοσύνης από την μεγαλύτερη συλλογή κειμένων που υπήρξε ποτέ στην Ελληνική.
Συγκεκριμένα το έργο
Το σύνολο των παραπάνω πόρων θα είναι διαθέσιμο σαν ανοιχτό λογισμικό και δεδομένα για χρήση από την ερευνητική, ακαδημαϊκή και βιομηχανική κοινότητα της χώρας αλλά και διεθνώς. Δείγμα των γλωσσολογικών αυτών πόρων είναι διαθέσιμο στην ιστοσελίδα: http://archive.aueb.gr:7000/
Η προσπάθεια αυτή χρηματοδοτήθηκε μερικά από το Ίδρυμα Νιάρχου για λογαριασμό της Εθνικής Βιβλιοθήκης της Ελλάδος.