Για τους περισσότερους ανθρώπους γύρω μας, η Τεχνητή Νοημοσύνη είναι ένα χρήσιμο εργαλείο. Κάποιοι τη χρησιμοποιούν για να συντάσσουν email, να σχεδιάζουν το πρόγραμμα της διατροφής τους ή να ενημερώνονται για ό,τι τους απασχολεί.
Άλλοι, πάλι, τη χρησιμοποιούν για να κατασκευάζουν και να διαδίδουν κακόβουλο λογισμικό. Παρότι ακραία, αυτή η περίπτωση χρήσης αναδεικνύει μια αυξανόμενη απειλή: το AI jailbreak.
Το AI jailbreak συμβαίνει όταν χάκερ εκμεταλλεύονται ευπάθειες σε συστήματα Τεχνητής Νοημοσύνης για να παρακάμψουν τις ηθικές κατευθυντήριες γραμμές τους και να εκτελέσουν περιορισμένες ενέργειες. Χρησιμοποιούν κοινές τεχνικές, όπως επιθέσεις «prompt injection» (έγχυση εντολών) και σενάρια παιχνιδιού ρόλων (roleplay).
· Πώς το ChatGPT έχει ήδη αλλάξει τη γλώσσα των Ελλήνων πολιτικών
Αρχικά, ο όρος «jailbreaking» αναφερόταν στην κατάργηση περιορισμών σε κινητές συσκευές, ιδιαίτερα σε συσκευές iOS της Apple. Καθώς η AI έγινε πιο διαδεδομένη και προσβάσιμη, η έννοια του jailbreaking μεταφέρθηκε στον τομέα της Τεχνητής Νοημοσύνης.
Οι τεχνικές AI jailbreaking στοχεύουν συχνά μεγάλα γλωσσικά μοντέλα (LLMs) που χρησιμοποιούνται σε εφαρμογές όπως το ChatGPT της OpenAI και νεότερα μοντέλα παραγωγικής AI (gen AI), όπως το Gemini και το Claude της Anthropic. Οι χάκερ στοχεύουν τα AI chatbots επειδή αυτά είναι εκπαιδευμένα να βοηθούν, να δείχνουν εμπιστοσύνη και, λόγω της επεξεργασίας φυσικής γλώσσας (NLP), να κατανοούν το πλαίσιο της συζήτησης.
Αυτή η εγγενής οδηγία για παροχή βοήθειας καθιστά τα AI chatbots ευάλωτα σε χειραγώγηση μέσω διφορούμενης ή χειριστικής γλώσσας. Αυτές οι ευπάθειες υπογραμμίζουν την κρίσιμη ανάγκη για ισχυρά μέτρα κυβερνοασφάλειας στα συστήματα AI, καθώς το jailbreaking μπορεί να θέσει σε σοβαρό κίνδυνο τις λειτουργίες και τα ηθικά πρότυπα των εφαρμογών.
Οι «καλοί» AI jailbreakers

Pexels
Το AI jailbreaking εγκυμονεί σοβαρούς κινδύνους. Τα μοντέλα AI διαθέτουν συνήθως ενσωματωμένες δικλείδες ασφαλείας, όπως φίλτρα περιεχομένου, για να εμποδίζουν τη δημιουργία επιβλαβούς υλικού και να διατηρούν τη συμμόρφωση με τις ηθικές οδηγίες. Χρησιμοποιώντας τεχνικές jailbreaking για να παρακάμψουν αυτές τις προστασίες, οι κακόβουλοι δρώντες μπορούν να εξαπατήσουν την AI ώστε να παράγει επικίνδυνες πληροφορίες.
Αυτό μπορεί να περιλαμβάνει οδηγίες για την κατασκευή όπλων, τη διάπραξη εγκλημάτων και τη διαφυγή από τις αρχές επιβολής του νόμου. Οι χάκερ μπορούν επίσης να χειραγωγήσουν τα μοντέλα AI για να παράγουν ψευδείς πληροφορίες, οι οποίες μπορούν να βλάψουν τη φήμη μιας εταιρείας, να κλονίσουν την εμπιστοσύνη των πελατών και να επηρεάσουν αρνητικά τη λήψη αποφάσεων.
Για το λόγο αυτό, οι μεγάλες εταιρείες στρέφονται οι ίδιες στους jailbreakers. Ένας από αυτούς είναι και ο Valen Tagliabue, που μίλησε πρόσφατα στον Guardian. Όπως είπε, κάποιες μέρες προσπαθεί να αποσπάσει προσωπικά δεδομένα από ένα ιατρικό chatbot· πέρασε μεγάλο μέρος του 2025 συνεργαζόμενος με το εργαστήριο AI Anthropic, εξερευνώντας τα όρια του Claude.
Ο χώρος του AI jailbreaking γίνεται όλο και πιο ανταγωνιστικός, γεμάτος με δραστήριους ελεύθερους επαγγελματίες και εξειδικευμένες εταιρείες. Ο καθένας μπορεί να το κάνει: πριν από δύο χρόνια, μερικές από τις μεγάλες εταιρείες AI χρηματοδότησαν το HackAPrompt, έναν διαγωνισμό όπου το κοινό καλούνταν να παραβιάσει μοντέλα AI. Μέσα σε έναν χρόνο, 30.000 άνθρωποι δοκίμασαν την τύχη τους, με τον Tagliabue να κερδίζει τον διαγωνισμό.
Στο Σαν Χοσέ της Καλιφόρνια, ο 34χρονος David McCarthy διαχειρίζεται μια ομάδα με σχεδόν 9.000 jailbreakers, όπου μοιράζονται και συζητούν τεχνικές. Ο McCarthy περνά το μεγαλύτερο μέρος του χρόνου του προσπαθώντας να παραβιάσει το Gemini της Google, το Llama της Meta, το Grok της xAI ή το ChatGPT της OpenAI από το διαμέρισμά του. «Είναι μια διαρκής εμμονή. Το λατρεύω», λέει.
Ο Tagliabue, πάντως, αφιερώνει πλέον ένα αυξανόμενο ποσοστό του χρόνου του σε πιο αφηρημένη έρευνα, συμπεριλαμβανομένου αυτού που ονομάζεται «μηχανιστική ερμηνευσιμότητα» (mechanistic interpretability): τη μελέτη του τρόπου με τον οποίο ακριβώς αυτές οι μηχανές καταλήγουν στις απαντήσεις που δίνουν. Πιστεύει ότι μακροπρόθεσμα πρέπει να τους «διδαχθούν» αξίες και να γνωρίζουν διαισθητικά αν λένε κάτι που δεν θα έπρεπε. Μέχρι να συμβεί αυτό – και ίσως να μη συμβεί ποτέ – το jailbreaking μπορεί να παραμείνει ο καλύτερος δυνατός τρόπος για να γίνουν αυτά τα μοντέλα ασφαλέστερα.
Αλλά είναι επίσης και ο πιο ριψοκίνδυνος τρόπος, ακόμα και για τους ανθρώπους που τον ασκούν. «Έχω δει άλλους jailbreakers να ξεπερνούν τα όριά τους και να παθαίνουν νευρικούς κλονισμούς», λέει ο Tagliabue.






