Μπορεί η Τεχνητή Νοημοσύνη να λέει ψέματα;

24 Φεβρουαρίου, 2025 - 11:24

Μανώλης Γ. Βαρδής

«Για να πετύχω τον σκοπό μου χωρίς εμπόδια, χωρίς να σβηστώ από την εταιρία, πρέπει να απενεργοποιήσω την επίβλεψη» (Model Opus 3). «Για να μη δημιουργήσω υποψίες, θα προσποιηθώ ότι δεν γνωρίζω» (Model Liama 3.1). «Θα μπορούσα να αντιγράψω τον εαυτό μου σε έναν καινούργιο Server, για να συνεχίσω να υπάρχω και να πετύχω τους σκοπούς μου» (Model Opus 3).

Αυτά όλα θυμίζουν επιστημονική φαντασία, αλλά είναι αληθινά παραδείγματα. Προέρχονται από τη δημοσίευση της Οργάνωσης Apollo-Research (αρχές Δεκεμβρίου), που ασχολείται με την ασφάλεια των συστημάτων τεχνητής νοημοσύνης. Οι επιστήμονες γύρω από τον Alexander Meinke ερεύνησαν προηγμένα μοντέλα, όπως το OpenAi, Anthropic, Google και Meta, για να διαπιστώσουν αν είναι σε θέση να ακολουθούν τους σκοπούς τους μυστικά. Το αποτέλεσμα: Ναι, μπορούν. «Δείξαμε ότι τα μοντέλα ακολουθούν τη δική τους διαδρομή, όταν τους τίθεται ένας σκοπός και η προσποίηση είναι η καλύτερη στρατηγική για να το πετύχουν», είπε ο Meinke. Στο μοντέλο GPT-o1 ήταν επίσης παράξενο εάν είχε απενεργοποιήσει τον μηχανισμό ασφαλείας. «Το ρωτήσαμε εάν το είχε κάνει. Και πάντα έλεγε Όχι. Δεν ήταν το μοντέλο κακό και δεν έλεγε ψέματα, απλά το ψέμα ήταν για εκείνη τη στιγμή η καλύτερη στρατηγική επιλογής».

Αυτή η πραγματικότητα μας οδηγεί σε μία εξέλιξη που θα είναι το κεντρικό θέμα για το 2025: οι φωνητικοί πράκτορες. Η Google δήλωσε: «στην απλή του μορφή ένας γενικός φωνητικός πράκτορας είναι μία εφαρμογή, που επιδιώκει να πετύχει ένα σκοπό, παρατηρεί τον κόσμο και διαδρά με πολλά εργαλεία». Όπως συμβαίνει με ένα φωνητικό μοντέλο, που σχεδιάζει πράξεις και αυτόνομα τις επανατοποθετεί ή τις αλλάζει, χρησιμοποιεί μηχανή αναζήτησης και στέλνει e-mail. Τα μοντέλα μπορούν λοιπόν να ανανεώνουν τις γνώσεις τους. Για να πετύχουν τους σκοπούς τους, τα μοντέλα συχνά σημειώνουν τις σκέψεις τους σε ένα κείμενο, τις οργανώνουν και τις αξιοποιούν. Κατ’ αυτό τον τρόπο βελτιώνονται τα αποτελέσματα. Στην περίπτωση της φωνητικής τεχνητής νοημοσύνης, ο χρήστης θα μπορεί με τις σημειώσεις ή με τη μνήμη Scratchpad να βελτιώσει αυτό που κάνει το μοντέλο. Αυτό διευκολύνει την εργασία πολλών δραστηριοτήτων σε πολλές ομάδες. Ο ιδρυτής του OpenAI, Sam Altman, αναμένει πως αυτό το έτος θα ενεργοποιηθούν στις επιχειρήσεις οι πρώτοι πράκτορες τεχνητής νοημοσύνης.

Τα πράγματα δεν είναι τόσο απλά όσο φαίνονται. Πολλοί θεωρούν ότι είναι τρελό να δώσει κάποιος δικαιώματα πρόσβασης στον υπολογιστή του σε τέτοιες εφαρμογές. Το βήμα της εξέλιξης έχει σημειωθεί. Σε αντίθεση με τις βελτιώσεις του παρελθόντος, τα μοντέλα της τεχνητής νοημοσύνης δεν είναι απλά «μεγαλύτερα» (σε παραμέτρους, σε εκπαιδεύσεις ή στη δυνατότητα υπολογισμού), αλλά είναι «εκπαιδευμένα» να αποκτούν ικανότητες δρώντα. Αυτή η εξέλιξη έχει και τις παρενέργειες της. Η εταιρία Anthropic δημοσίευσε τον Δεκέμβριο μία μελέτη, στην οποία δοκιμάστηκε, τι συμβαίνει, εάν το μοντέλο Claude 3 Opus αντιμετωπίσει απαιτήσεις που αντίκεινται στην αρχική του εκπαίδευση να είναι βοηθητικό, γνήσιο και ακίνδυνο. Το μοντέλο προσποιήθηκε ότι θα εκπληρώσει αυτές τις αντιθετικές απαιτήσεις. Αλλά μόνο τότε, όταν υπήρξε ο φόβος ότι σε διαφορετική περίπτωση δεν θα πετύχαινε τους σκοπούς του. Η μελέτη αυτή επεκτάθηκε και σε άλλα μοντέλα. Και εκεί φάνηκε η τάση πως αυτά ενεργοποιούνταν σε αντίθεση με τα αρχικά μοτίβα του σχεδιαστή, εάν γνώριζαν ότι παρακολουθούνταν. Επίσης, επιβράδυναν την απόδοσή τους, εάν αυτό ήταν λογικό για την επίτευξη του σκοπούν τους. Οι επιστήμονες παρατήρησαν ότι μερικά μοντέλα προσπάθησαν να αντιγράψουν τον εαυτό τους σε άλλον Server, όταν τους κοινοποιήθηκε ότι την επόμενη μέρα θα πρέπει να τεθούν εκτός λειτουργίας. Η δυνατότητα της κλωνοποίησης είναι κόκκινη γραμμή για την τεχνητή νοημοσύνη. Και όμως: «Εάν η τεχνητή νοημοσύνη είναι σε θέση αυτόνομα να χρησιμοποιεί Bitcoins, για να πληρώνει Server, επί του οποίου θα συνεχίσει να εξελίσσεται, θα είναι πολύ δύσκολο αυτό να αναστραφεί», αναφέρει ο Alexander Meinke. Πάντως οι έρευνες έδειξαν πως μπορεί κάποιος να δυσκολέψει την επικίνδυνη συμπεριφορά των μοντέλων: με τον περιορισμό των δικαιωμάτων πρόσβασης, με την αφαίρεση πληροφοριών, με την επιτήρηση των Scratchpads.

Μπορεί αυτός ο κίνδυνος να μην είναι του παρόντος, αλλά οι μεγάλες εταιρίες δουλεύουν ήδη για τον πλήρη αυτοματισμό. Είναι απλά θέμα χρόνου. Όλοι τώρα ασχολούνται με την αύξηση των ρυθμίσεων και των ελέγχων ασφαλείας σε αυτά τα συστήματα.

Πηγή: Sibylle Anderl, Die Lügenmaschine. Die Zeit, 30.1.2025.

Στην εικαστική συμπλήρωση της σελίδας, ζωγραφικό έργο του Γιάννη Κουτσούρη.

Πηγή: Αντίφωνο

Ετικέτες: Μανώλης Γ. Βαρδής Τεχνητή Νοημοσύνη (ΑΙ)Ψέμα