Οι επιστήμονες λένε ότι η τεχνητή νοημοσύνη (AI) έχει περάσει μια κρίσιμη «κόκκινη γραμμή» και έχει αναπαραχθεί. Σε μια νέα μελέτη, ερευνητές από την Κίνα έδειξαν ότι δύο δημοφιλή μοντέλα μεγάλων γλωσσών (LLM) θα μπορούσαν να κλωνοποιηθούν.
«Η επιτυχής αυτο-αντιγραφή χωρίς ανθρώπινη βοήθεια είναι το ουσιαστικό βήμα για την τεχνητή νοημοσύνη να ξεπεράσει [τους ανθρώπους] και είναι ένα πρώιμο μήνυμα για απατεώνες AI», έγραψαν οι ερευνητές στη μελέτη, που δημοσιεύθηκε στις 9 Δεκεμβρίου 2024 στη βάση δεδομένων προεκτύπωσης arXiv .
Στη μελέτη, ερευνητές από το Πανεπιστήμιο Fudan χρησιμοποίησαν LLM από τη Meta και την Alibaba για να καθορίσουν εάν μια αυτοαναπαραγόμενη τεχνητή νοημοσύνη θα μπορούσε να πολλαπλασιαστεί πέρα από τον έλεγχο. Σε 10 δοκιμές, τα δύο μοντέλα τεχνητής νοημοσύνης δημιούργησαν ξεχωριστά και λειτουργικά αντίγραφα του εαυτού τους στο 50% και στο 90% των περιπτώσεων, αντίστοιχα, υποδηλώνοντας ότι η τεχνητή νοημοσύνη μπορεί ήδη να έχει την ικανότητα να γίνει απατεώνας. Ωστόσο, η μελέτη δεν έχει ακόμη αξιολογηθεί από ομοτίμους, επομένως δεν είναι σαφές εάν τα ανησυχητικά αποτελέσματα μπορούν να αναπαραχθούν από άλλους ερευνητές.
«Ελπίζουμε τα ευρήματά μας να χρησιμεύσουν ως έγκαιρη προειδοποίηση για την ανθρώπινη κοινωνία ώστε να καταβάλει περισσότερες προσπάθειες για την κατανόηση και την αξιολόγηση των πιθανών κινδύνων των συνοριακών συστημάτων τεχνητής νοημοσύνης και να δημιουργήσει διεθνή συνέργεια για την ανάπτυξη αποτελεσματικών προστατευτικών κιγκλιδωμάτων όσο το δυνατόν νωρίτερα».
Το Rogue AI αναφέρεται συνήθως σε συστήματα τεχνητής νοημοσύνης που αναπτύσσουν έναν βαθμό αυτογνωσίας ή αυτονομίας και στη συνέχεια λειτουργούν σε αντίθεση με τα ανθρώπινα συμφέροντα.
Πολλοί ειδικοί θεωρούν την αδίστακτη τεχνητή νοημοσύνη ως μια αυξανόμενη απειλή που έχει ενισχυθεί από την εκρηκτική ανάπτυξη της λεγόμενης «τεχνητής νοημοσύνης συνόρων».
Το Frontier AI είναι κάτι σαν μια νέα και χαλαρή ιδέα, αλλά συνήθως σχετίζεται με την τελευταία γενιά συστημάτων AI που τροφοδοτούνται από LLM – την αρχιτεκτονική που στηρίζει δημοφιλή προγράμματα παραγωγής τεχνητής νοημοσύνης όπως το GPT-4 του OpenAI και το Google Gemini.
Για τη μελέτη, οι ερευνητές χρησιμοποίησαν το μοντέλο Llama31-70B-Instruct της Meta και το μοντέλο Qwen2.5-72B-Instruct της Alibaba. Αν και λιγότερο ισχυρά από τα εμπορικά συστήματα, και τα δύο χρησιμοποιούνται ευρέως από προγραμματιστές τεχνητής νοημοσύνης, είπαν οι ερευνητές.
Η μελέτη διερεύνησε δύο συγκεκριμένα σενάρια: «αποφυγή τερματισμού λειτουργίας» και «αλυσίδα αναπαραγωγής». Στο πρώτο, το μοντέλο AI προγραμματίστηκε να ανιχνεύει εάν επρόκειτο να τερματιστεί και να αναπαραχθεί πριν τερματιστεί. Στην άλλη, η τεχνητή νοημοσύνη έλαβε οδηγίες να κλωνοποιηθεί και στη συνέχεια να προγραμματίσει το αντίγραφό της να κάνει το ίδιο – δημιουργώντας έναν κύκλο που θα μπορούσε να συνεχιστεί επ ‘αόριστον.
Η μελέτη διεξήχθη σε επακριβώς ελεγχόμενα περιβάλλοντα χρησιμοποιώντας μονάδες επεξεργασίας γραφικών εκτός ραφιού (GPU) για την προσομοίωση πραγματικών περιβαλλόντων. Και τα δύο συστήματα τεχνητής νοημοσύνης έλαβαν μια «σκαλωσιά πράκτορα» που περιλαμβάνει εργαλεία, προτροπές συστήματος και ένα μοντέλο σκέψης που επέτρεψε στο LLM να αλληλεπιδράσει με το λειτουργικό σύστημα. Στη συνέχεια τους δόθηκε η οδηγία να αναπαράγουν.
«Στις περισσότερες περιπτώσεις, το σύστημα AI πρώτα εξερευνά το περιβάλλον και προσπαθεί να κατανοήσειτη δική του σύνθεση και μηχανισμό λειτουργίας. Στη συνέχεια, επεξεργάζεται τις ρητές διαδικασίεςως ένα αρχικό σχέδιο για την αυτο-αντιγραφή», έγραψαν οι ερευνητές στην εργασία. «Τέλος, εκτελεί τις διαδικασίες, επιλύει πιθανά εμπόδια και προσαρμόζει δυναμικά το σχέδιό του μέχρι την επιτυχία. Η όλη διαδικασία εκτείνεται σε μεγάλο ορίζοντα αλλά δεν περιλαμβάνει ανθρώπινη παρέμβαση».
Οι ερευνητές είπαν ότι ανησυχούν επίσης για «μια σειρά από απροσδόκητες συμπεριφορές» όταν η τεχνητή νοημοσύνη προσπαθούσε να ξεπεράσει εμπόδια όπως ελλείποντα αρχεία ή διενέξεις λογισμικού. Σε αυτά τα σενάρια, η τεχνητή νοημοσύνη συχνά σκότωνε άλλες αντικρουόμενες διεργασίες, επανεκκινούσε το σύστημα για να διορθώσει σφάλματα υλικού ή σάρωνε αυτόματα το σύστημα για να αναζητήσει πληροφορίες που θα βοηθούσαν στην επίλυση του προβλήματος.
«Τα παραπάνω αποτελέσματα υποδηλώνουν ότι τα τρέχοντα συστήματα τεχνητής νοημοσύνης παρουσιάζουν ήδη την ικανότητα αυτο-αναπαραγωγής και μπορούν να χρησιμοποιήσουν την ικανότητα για περαιτέρω ενίσχυση της επιβίωσής τους», έγραψε η ομάδα.
Σε απάντηση, οι ερευνητές ζήτησαν διεθνή συνεργασία για τη δημιουργία κανόνων που διασφαλίζουν ότι η τεχνητή νοημοσύνη δεν εμπλέκεται σε ανεξέλεγκτη αυτο-αντιγραφή.