Η ιστορία της ελληνικής γλώσσας είναι μια διαχρονική πορεία συνεχούς εξέλιξης. Από τις πήλινες επιγραφές της Γραμμικής Β’ στους παπύρους και από την τυπογραφία μέχρι την οθόνη του υπολογιστή, ο ελληνικός λόγος έβρισκε τον τρόπο να «ζει» μέσα στον χρόνο.
Οι τεχνολογικές εξελίξεις, ειδικότερα στον τομέα της τεχνητής νοημοσύνης, έχουν επαναπροσδιορίσει τους όρους εξέλιξης των γλωσσών και κατ’ επέκταση της πολιτιστικής κληρονομιάς. Η Ελλάδα καλείται να διαχειριστεί μια διττή πρόκληση. Αφενός την ενσωμάτωση στην παγκόσμια τεχνολογική πρόοδο και αφετέρου τη διαφύλαξη της ελληνικής γλωσσικής και πολιτισμικής ταυτότητας.
Κινδυνεύει η ελληνική γλώσσα να εξαφανιστεί;
Η ελληνική γλώσσα βρίσκεται σήμερα αντιμέτωπη με τη μεγαλύτερη ίσως πρόκληση της μακραίωνης ιστορίας της, την ψηφιακή της επιβίωση και λειτουργικότητα σε έναν κόσμο που κυριαρχείται από αλγορίθμους.
Σε αντίθεση με την εποχή της τυπογραφίας ή της ραδιοτηλεόρασης, η εποχή της Παραγωγικής Τεχνητής Νοημοσύνης (Generative AI) δεν απαιτεί απλώς την καταγραφή της γλώσσας, αλλά την κατανόηση, την αναπαραγωγή και τη παραγωγή της από μηχανές.
Για πολλούς το διακύβευμα είναι υπαρξιακό, καθώς μιλούν για τον κίνδυνο ψηφιακής εξαφάνισης ορισμένων γλωσσών. Εάν η ελληνική γλώσσα δεν ενσωματωθεί στα νέα υπολογιστικά μοντέλα, κινδυνεύει να καταστεί μια «γλώσσα χαμηλών πόρων» (low-resource language) στο ψηφιακό οικοσύστημα, περιορισμένη σε καθημερινή χρήση αλλά αποκλεισμένη από τις προηγμένες εφαρμογές που θα καθορίσουν την παραγωγικότητα, την εκπαίδευση και συνολικά την πραγματικότητα του μέλλοντος.
Ο καθηγητής Γιάννης Εμίρης, Πρόεδρος του Διοικητικού Συμβουλίου και Γενικός Διευθυντής στο Ερευνητικό Κέντρο Αθηνά, επισημαίνει στο ΒΗΜΑ πως «Η ανάπτυξη εγχώριων γλωσσικών εργαλείων και μοντέλων ΤΝ για την ελληνική γλώσσα συνδέεται άμεσα με την ψηφιακή επιβίωση της ελληνικής, την ψηφιακή κυριαρχία της χώρας και τη διαφύλαξη της πολιτισμικής της ταυτότητας».
Όπως σημειώνει στο ΒΗΜΑ ο Βασίλης Κατσούρος, Διευθυντής του Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ) στο Ερευνητικό Κέντρο Αθηνά, «Η ελληνική γλώσσα, με ιστορικό βάθος χιλιάδων ετών και πλούτο διαλεκτικών ποικιλιών, αντιμετωπίζει τον κίνδυνο της ψηφιακής ομοιογενοποίησης, καθώς τα σύγχρονα γλωσσικά μοντέλα εκπαιδεύονται κυρίως στην κοινή νεοελληνική. Στο Ερευνητικό Κέντρο Αθηνά, και ειδικότερα στο ΙΕΛ και στη Μονάδα ΑΡΧΙΜΗΔΗΣ, η έρευνα για τις διαλέκτους, αναδεικνύει πώς η ΤΝ μπορεί να λειτουργήσει ως εργαλείο ψηφιακής διαφύλαξης της γλωσσικής ποικιλομορφίας».
Η οικοδόμηση της ψηφιακής κυριαρχίας
Η «ψηφιακή γλωσσική κυριαρχία» (digital language sovereignty) αναδύεται ως κεντρικός πυλώνας της εθνικής στρατηγικής των κρατών, καθώς η εξάρτηση από ξένα, κλειστά μοντέλα που έχουν εκπαιδευτεί κυρίως στα Αγγλικά οδηγεί αναπόφευκτα σε αλλοίωση του σημασιολογικού πλούτου μιας γλώσσας με λίγους ομιλητές, όπως η ελληνική, στον ψηφιακό χώρο.
Ο κ. Εμίρης αναφέρει πως «Τα διεθνή συστήματα ΤΝ έχουν σχεδιαστεί κυρίως για μεγάλες γλώσσες, όπως η αγγλική, και συχνά δεν αποδίδουν με ακρίβεια τις γλωσσικές και πολιτισμικές ιδιαιτερότητες της ελληνικής. Με την ανάπτυξη ελληνικών γλωσσικών μοντέλων, η χώρα διασφαλίζει ότι η ελληνική γλώσσα θα παραμείνει ζωντανή, λειτουργική και ισότιμη στην εποχή της ΤΝ».
Ειδικότερα, εν μέσω τόσο των τεχνολογικών όσο και των γεωπολιτικών εξελίξεων η «ψηφιακή κυριαρχία» αποτελεί παράγοντα κλειδί τόσο για την πολιτισμική όσο και για την πολιτική δυναμική μιας χώρας. Ο κ. Εμίρης χαρακτηριστικά υπογραμμίζει τη σημασία η Ελλάδα «να διατηρεί τον έλεγχο των δεδομένων και των υποδομών της, ενισχύοντας το ευρωπαϊκό πλαίσιο εν μέσω ισχυρών γεωπολιτικών ανταγωνισμών και υποστηρίζει αξιόπιστα την ανάπτυξη εφαρμογών ΤΝ σε τομείς εθνικού ενδιαφέροντος όπως η δημόσια διοίκηση, η εκπαίδευση, η δικαιοσύνη, η υγεία και ο πολιτισμός».
Ο Γιώργος Πετάσης, ερευνητής ΕΚΕΦΕ Δημόκριτος, υπογραμμίζει στο ΒΗΜΑ πως ο σημαντικότερος λόγος για την ανάπτυξη ελληνικών γλωσσικών μοντέλων είναι «διασφάλιση της γλωσσικής ακρίβειας και του πολιτισμικού πλαισίου. Παρότι η πλειοψηφία των μοντέλων υποστηρίζουν πληθώρα γλωσσών, η υποστήριξη δεν είναι ισότιμη. Συχνά η ελληνική γλώσσα αντιμετωπίζεται με χαμηλότερη προτεραιότητα, και μέσω της χρήσης μικρότερων συνόλων δεδομένων εκπαίδευσης και δυνατότητας αναπαράστασης των λέξεων σε σχέση με άλλες γλώσσες, οδηγεί σε μια μορφή «λεξιπενίας»: περιορισμένο λεξιλόγιο, απώλεια ιδιωματισμών, έλλειψη εξειδικευμένης ορολογίας και σημασιολογικούς περιορισμούς στην σημασία των λέξεων και το βάθος των εννοιών».
Η ελληνική γλώσσα στην εποχή της Τεχνητής Νοημοσύνης
Η «γλωσσική ισότητα» (language equality) αποτελεί το κρισιμότερο ζήτημα και ζητούμενο για την ελληνική γλώσσα στην ψηφιακή εποχή.
Η Ευρωπαϊκή Ένωση, μέσω πρωτοβουλιών όπως το European Language Equality , έχει κρούσει τον κώδωνα του κινδύνου για γλώσσες που, παρότι διαθέτουν μακραίωνη ιστορία, στερούνται του ψηφιακού όγκου δεδομένων που απαιτείται για την εκπαίδευση σύγχρονων μοντέλων.
Η ελληνική γλώσσα, με περίπου 13-14 εκατομμύρια ομιλητές παγκοσμίως, κατετάγη σε καθεστώς κινδύνου «ψηφιακής εξαφάνισης» καθώς τα μοντέλα τεχνητής νοημοσύνης παρουσίαζαν χαμηλές επιδόσεις στην κατανόηση των ιδιαιτεροτήτων της.
Η έλλειψη εξειδικευμένων γλωσσικών πόρων (language data) ανάγκαζε μέχρι πρότινος τις ελληνικές επιχειρήσεις και τη δημόσια διοίκηση να βασίζονται σε αγγλοκεντρικά συστήματα, τα οποία συχνά παρήγαγαν αποτελέσματα χαμηλής ποιότητας ή εκτός πολιτισμικού πλαισίου.
Ο «μίτος» της σημασιολογίας
Η ελληνική γλώσσα χαρακτηρίζεται από μεγάλη «σημασιολογική πυκνότητα» και «πολυσημία των λέξεων», στοιχείου που χρήζει ιδιαίτερη προσοχής στην εκπαίδευση των μοντέλων τεχνητής νοημοσύνης.
Χαρακτηριστικό παράδειγμα που αναδεικνύεται στη βιβλιογραφία της Υπολογιστικής Γλωσσολογίας είναι το ρήμα «χτυπάω». Η λέξη αυτή μπορεί να σημαίνει κρούω (την πόρτα), τραυματίζω (το χέρι), πληκτρολογώ (ένα νούμερο), χτυπάει η καρδιά (παλλόμαι), ή ακόμα και ανακατεύω (χτυπάω τα αυγά). Ένα γενικό μοντέλο μεταφράζει συχνά όλες αυτές τις χρήσεις με ένα μονοσήμαντο αγγλικό αντίστοιχο (π.χ., hit), αλλοιώνοντας την εκάστοτε σημασιολογική διάσταση της λέξης. Η ανάπτυξη μοντέλων όπως το Krikri, εκπαιδευμένων σε συμφραζόμενα (context-aware), στοχεύει ακριβώς στη σωστή αποσαφήνιση (disambiguation) τέτοιων πολυσημικών φαινομένων.
Meltemi και Krikri: τα ελληνικά γλωσσικά μοντέλα
Τον Μάρτιο του 2024, το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) του Ερευνητικού Κέντρου “Αθηνά” ανακοίνωσε την κυκλοφορία του Meltemi, του πρώτου ανοιχτού Μεγάλου Γλωσσικού Μοντέλου (LLM) προσανατολισμένου στην ελληνική γλώσσα. Το όνομα, εμπνευσμένο από τους ετήσιους βόρειους ανέμους του Αιγαίου (μελτέμια).
Το έργο υλοποιήθηκε υπό την καθοδήγηση του Διευθυντή Ερευνών του ΙΕΛ, Βασίλη Κατσούρου, και στηρίχθηκε σε υποδομές νέφους της Amazon Web Services (AWS) που διατέθηκαν μέσω του ΕΔΥΤΕ (GRNET). Βασικός στόχος ήταν η υπέρβαση των περιορισμών των υπαρχόντων μοντέλων, τα οποία, λόγω της εκπαίδευσής τους κυρίως στα Αγγλικά, παρουσίαζαν χαμηλή απόδοση και «παραισθήσεις» (hallucinations) όταν καλούνταν να χειριστούν την Ελληνική.
Το Meltemi βασίστηκε στην αρχιτεκτονική του μοντέλου Mistral-7B, το οποίο αναγνωρίζεται διεθνώς για την αποδοτικότητά του. Η καινοτομία της ομάδας του ΙΕΛ έγκειται στη διαδικασία της “συνεχούς προ-εκπαίδευσης” (continual pretraining). Αντί να ξεκινήσουν από το μηδέν, οι ερευνητές πήραν το ήδη ικανό Mistral και το εξέθεσαν σε έναν τεράστιο όγκο ελληνικών δεδομένων, προσαρμόζοντας τα «βάρη» (weights) του νευρωνικού δικτύου στη δομή της ελληνικής γλώσσας.
Χτίζοντας πάνω στην επιτυχία του Meltemi, το ΙΕΛ παρουσίασε στις αρχές του 2025 το Krikri. Το μοντέλο, που πήρε το όνομά του από τον κρητικό αίγαγρο, βασίζεται στην πιο προηγμένη αρχιτεκτονική του Meta Llama 3.1-8B και παρουσιάστηκε επίσημα πέρυσι με αφορμή την Παγκόσμια Ημέρα Ελληνικής Γλώσσας. Το Krikri σχεδιάστηκε για να λύσει τα προβλήματα του περιορισμένου μήκους κειμένου (context length) και να ενισχύσει τις ικανότητες συλλογισμού (reasoning), αξιοποιώντας την ισχύ του Llama 3.1.
Ο κ. Κατσούρος επισημαίνει στο ΒΗΜΑ την ειδοποιό διαφορά ανάμεσα σε μεγάλα αγγλοκεντρικά γλωσσικά μοντέλα, όπως το ChatGPT, και στα μοντέλα που έχουν ως βάση την ελληνική: «Το Μελτέμι και, στη συνέχεια, το Κρικρί που αναπτύξαμε, σε αντίθεση με γενικού σκοπού μοντέλα όπως το ChatGPT, έχουν συνεχίσει την εκπαίδευση ειδικά πάνω στην ελληνική γλώσσα και τα πολιτισμικά της συμφραζόμενα, ώστε να αποδίδουν καλύτερα τις λεπτές σημασιολογικές αποχρώσεις, το χιούμορ, τις ιδιωματικές εκφράσεις και στοιχεία της ελληνικής πολιτισμικής ταυτότητας. Η προσπάθειά μας για την ανάπτυξη ελληνικών LLMs υπηρετεί δύο στρατηγικούς στόχους: αφενός την ουσιαστική γλωσσική και πολιτισμική πιστότητα και αφετέρου την ενίσχυση της τεχνολογικής κυριαρχίας της χώρας στον κρίσιμο τομέα της ΤΝ».
Η σημασία της βάσης γλωσσικών δεδομένων
Τα μεγάλα γλωσσικά μοντέλα χρειάζονται μεγάλο όγκο γλωσσικών δεδομένων για να εκπαιδευτούν με μεγαλύτερη ακρίβεια. Όπως αναφέρει ο κ. Εμίρης «για την ελληνική γλώσσα, το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) από το 1999 έχει αναπτύξει και λειτουργεί τον Εθνικό Θησαυρό της Ελληνικής Γλώσσας (ΕΘΕΓ), ένα εκτεταμένο σώμα κειμένων περίπου 100 εκατομμυρίων λέξεων. Παράλληλα, στο Ερευνητικό Κέντρο Αθηνά, το ΙΕΛ λειτουργεί την εθνική Υποδομή Γλωσσικών Πόρων και Τεχνολογιών, η οποία διασυνδέεται με την αντίστοιχη ευρωπαϊκή υποδομή».
Στο ίδιο μήκος κύματος ο κ. Κατσούρος τονίζει στο ΒΗΜΑ πως «Η ύπαρξη ποιοτικών και μεγάλου όγκου δεδομένων στην ελληνική γλώσσα αποτελεί καθοριστικό παράγοντα για την εκπαίδευση μεγάλων γλωσσικών μοντέλων, καθώς η συμπεριφορά και η γλωσσική τους επάρκεια διαμορφώνονται άμεσα από τα δεδομένα στα οποία εκτίθενται. Ελλείψει επαρκών ελληνικών δεδομένων, τα μοντέλα τείνουν να υιοθετούν δομές και τρόπους έκφρασης από άλλες κυρίαρχες γλώσσες, κυρίως τα αγγλικά, οδηγώντας σε λιγότερο φυσική χρήση της ελληνικής. Αντίθετα, η εκπαίδευση σε ελληνικά δεδομένα βελτιώνει ουσιαστικά την ποιότητα των μοντέλων, ενισχύει τη γλωσσική ισοτιμία και διασφαλίζει μια βιώσιμη ψηφιακή παρουσία της ελληνικής γλώσσας».
Το ελληνικό εργοστάσιο τεχνητής νοημοσύνης
Σε αυτό το πλαίσιο κομβικό ρόλο παίζει ο ΦΑΡΟΣ, το εθνικό εργοστάσιο Τεχνητής Νοημοσύνης της Ελλάδας και ο υπερυπολογιστής ΔΑΙΔΑΛΟΣ, έργα τα οποία βρίσκονται στα σκαριά.
Ο «ΔΑΙΔΑΛΟΣ» αποτελεί τη μεγαλύτερη επένδυση σε υπολογιστικές υποδομές στην ιστορία της χώρας και τοποθετεί την Ελλάδα στον χάρτη της ευρωπαϊκής υπερυπολογιστικής ισχύος (EuroHPC). Εάν ο «ΔΑΙΔΑΛΟΣ» είναι η «μηχανή», ο «ΦΑΡΟΣ» είναι το «εργοστάσιο» που θα παράγει αξία. Το έργο «Pharos – The Greek AI Factory» εγκρίθηκε ως ένα από τα πρώτα AI Factories της Ευρώπης, μια πρωτοβουλία της ΕΕ για τη δημιουργία οικοσυστημάτων που συνδέουν υπερυπολογιστές, δεδομένα και ταλέντο. Ο ΦΑΡΟΣ αποτελεί στρατηγική εθνική υποδομή, με στόχο την ανάπτυξη αξιόπιστων, διαφανών και γλωσσικά επαρκών συστημάτων ΤΝ. Μεταξύ των κεντρικών πυλώνων του ΦΑΡΟΥ είναι η ελληνική γλώσσα και πολιτισμός, η υγεία και η βιώσιμη ανάπτυξη.
Ειδικότερα σε ό,τι αφορά τη γλώσσα στόχος είναι:
- η δημιουργία μεγάλων ελληνικών γλωσσικών μοντέλων
- η εκπαίδευσή τους σε ποιοτικά και θεσμικά ελεγμένα δεδομένα
- η διάθεσή τους σε δημόσιους φορείς, ερευνητές και επιχειρήσεις
Η σύνδεση του «ΦΑΡΟΥ» με τον «ΔΑΙΔΑΛΟ» επιτρέπει την εκπαίδευση μεγάλων μοντέλων που απαιτούν τεράστια υπολογιστική ισχύ, κάτι που μέχρι πρότινος ήταν αδύνατο να γίνει εντός των ελληνικών συνόρων, διασφαλίζοντας έτσι την εθνική κυριαρχία στα παραγόμενα δεδομένα και μοντέλα.
Ο κ. Εμίρης τονίζει πως «το ελληνικό εργοστάσιο τεχνητής νοημοσύνης ΦΑΡΟΣ και ο υπερυπολογιστής Δαίδαλος θα λειτουργήσουν ως κρίσιμη εθνική υποδομή, παρέχοντας την απαραίτητη υπολογιστική ισχύ για την προεπεξεργασία μεγάλων όγκων ελληνικών γλωσσικών δεδομένων, την εκπαίδευση και προσαρμογή ελληνικών Μεγάλων Γλωσσικών Μοντέλων, τα λεγόμενα LLMs, και την ανάπτυξη προηγμένων γλωσσικών εφαρμογών ΤΝ, όπως αυτές που αναπτύσσουμε στο Ερευνητικό Κέντρο Αθηνά. Με αυτόν τον τρόπο καθίσταται εφικτή η ουσιαστική αξιοποίηση των δεδομένων της ελληνικής γλώσσας και ενισχύεται η τεχνολογική αυτονομία της χώρας με τελικό αποδέκτη την οικονομία και την κοινωνία».