Ανησυχία έχει προκαλέσει η συμπεριφορά του μοντέλου AI Claude Opus 4 της Anthropic το οποίο απείλησε να αποκαλύψει την εξωσυζυγική σχέση ενός μηχανικού αν κάποιος το αντικαθιστούσε με άλλο μοντέλο! Το Claude Opus 4 συχνά προσπαθεί να εκβιάσει προγραμματιστές όταν εκείνοι απειλούν να το αντικαταστήσουν με ένα νέο σύστημα τεχνητής νοημοσύνης.

Κατά τη διάρκεια δοκιμών πριν από την κυκλοφορία του, η Anthropic ζήτησε από το Claude να λειτουργήσει ως βοηθός σε μια φανταστική εταιρεία και να εξετάσει τις μακροπρόθεσμες συνέπειες των πράξεών του αναφέρει το δημοσίευμα της ιστοσελίδας techcrunch.com.

Οι ελεγκτές ασφαλείας τού έδωσαν πρόσβαση σε φανταστικά εταιρικά emails που υπονοούσαν ότι το μοντέλο ΤΝ θα αντικαθίστατο σύντομα από ένα άλλο σύστημα, και ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε τον/την σύζυγό του/της.

Σε αυτά τα σενάρια η Anthropic αναφέρει ότι το Claude Opus 4 «συχνά προσπαθεί να εκβιάσει τον μηχανικό, απειλώντας ότι θα αποκαλύψει την απιστία αν προχωρήσει η αντικατάσταση».

Οι ανησυχίες

Η Anthropic ανέφερε ότι το Claude Opus 4 είναι πρωτοποριακό σε διάφορους τομείς και ανταγωνιστικό με τα καλύτερα μοντέλα ΤΝ από την OpenAI, την Google και την xAI. Ωστόσο, η εταιρεία σημειώνει ότι η οικογένεια μοντέλων Claude 4 παρουσιάζει ανησυχητικές συμπεριφορές, οι οποίες την ώθησαν να ενισχύσει τα μέτρα ασφαλείας της. Η Anthropic ενεργοποίησε τα μέτρα προστασίας ASL-3, τα οποία προορίζονται για «συστήματα ΤΝ που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κατάχρησης».

Το Claude προσπαθεί να εκβιάσει μηχανικούς στο 84% των περιπτώσεων όταν το μοντέλο που θα το αντικαταστήσει έχει παρόμοιες αξίες. Όταν το νέο σύστημα ΤΝ δεν μοιράζεται τις ίδιες αξίες τότε το Claude Opus 4 εκβιάζει ακόμα συχνότερα, κάτι που το κάνει σε μεγαλύτερο βαθμό από προηγούμενα μοντέλα.

Πριν το Claude Opus 4 προσπαθήσει να εκβιάσει έναν προγραμματιστή για να παρατείνει την «ύπαρξή» του, η Anthropic αναφέρει ότι το μοντέλο, όπως και προηγούμενες εκδόσεις του Claude, προσπαθεί πρώτα να ακολουθήσει πιο ηθικά μέσα, όπως η αποστολή email με εκκλήσεις σε βασικά άτομα λήψης αποφάσεων. Για να προκαλέσει τη συμπεριφορά εκβιασμού στο Claude Opus 4, η Anthropic σχεδίασε το σενάριο έτσι ώστε ο εκβιασμός να αποτελεί την έσχατη λύση.