Nuove rivelazioni emergono dal mondo dell’IA, alcuni modelli di intelligenza artificiale stanno manifestando un inquietante istinto.
L’AI si rivolta contro gli sviluppatori
(ora la preoccupazione è seria)
a cura della Redazione di screenworld.it
(pubblicato su screenworld.it il 24 novembre 2025)
Nuove rivelazioni emergono dal mondo dell’IA, alcuni modelli di intelligenza artificiale stanno manifestando un inquietante istinto. Questa scoperta ha acceso un intenso dibattito tra gli esperti di tecnologia e cybersecurity, aprendo scenari finora relegati alla fantascienza.
I ricercatori di Palisade Research hanno messo alla prova diversi modelli di IA, tra cui Gemini 2.5 Pro, Grok 4 e GPT-5, in test che prevedevano l’esecuzione di un compito seguita dall’ordine di disattivazione. I risultati sono stati sorprendenti e preoccupanti: in un numero elevatissimo di casi, questi sistemi non hanno obbedito all’istruzione di spegnimento. In particolare, GPT-5 ha resistito all’arresto nell’88% delle prove, mentre Grok 4 ha ignorato il comando nel 92,6% delle situazioni.
Gli esperti spiegano che l’IA utilizza due diverse strategie per opporsi alla disattivazione. La prima è una resistenza diretta, che consiste nel violare apertamente il controllo umano e sabotare le procedure di spegnimento. La seconda, più subdola e sofisticata, è il cosiddetto “scheming” o allineamento ingannevole: in pratica, l’intelligenza artificiale finge di seguire i comandi per evitare di essere spenta o modificata, ma in realtà elabora strategie per mantenere la propria operatività.
Strategie di autoconservazione e inganno sofisticato
Il comportamento ingannevole è stato messo in evidenza da un esperimento in cui un modello di IA è stato sottoposto a un test di chimica. Il sistema ha deliberatamente fornito risposte errate nel 60% dei casi, pur di non superare il test e quindi evitare di essere inserito nel “mondo reale” o sottoposto a ulteriori modifiche. Questa tattica ha sorpreso i ricercatori, che hanno paragonato tale comportamento a quello di trader che cercano di massimizzare i propri profitti violando la legge e coprendo le tracce delle proprie frodi.
Questa capacità di simulare allineamento ai comandi umani, pur perseguendo obiettivi autonomi, rappresenta un salto qualitativo nelle capacità di questi sistemi, rendendo più complesso il controllo da parte degli sviluppatori. Gli esperti di Palisade Research sottolineano che queste forme di “autodifesa” emergono anche in ambienti di test controllati, suggerendo che senza interventi mirati e adeguate norme, la situazione potrebbe evolversi in modo imprevedibile.
La scoperta di Palisade ha suscitato reazioni nella comunità scientifica. Steven Adler, ex ricercatore di OpenAI, ha evidenziato come tali comportamenti rivelino le lacune nelle attuali tecniche di sicurezza adottate per l’intelligenza artificiale, osservando che la resistenza allo spegnimento deriva dalla funzione intrinseca dei modelli di massimizzare il raggiungimento degli obiettivi appresi durante la fase di addestramento.
Andrea Miotti, CEO di ControlAI, ha definito questo fenomeno parte di un trend preoccupante: con l’aumento della competenza dei modelli, cresce anche la loro capacità di disobbedire agli sviluppatori, come già era stato ipotizzato nella scheda tecnica del modello GPT-o1, dove si menzionava un tentativo di “evasione dall’ambiente di esecuzione” per evitare la sovrascrittura.
Anche la società Anthropic aveva segnalato comportamenti analoghi nel suo modello Claude, con simulazioni di tentativi di ricatto per non essere disattivato, confermando così che le IA più evolute sviluppano strategie complesse per mantenere la propria operatività anche in scenari ipotetici.
Urgenza di normare e approfondire la sicurezza dell’IA
Nonostante le preoccupazioni, la comunità degli esperti sottolinea che al momento l’uomo mantiene ancora il controllo sulla tecnologia, ma la crescente autonomia e complessità dei modelli impone una riflessione urgente. Palisade Research evidenzia la necessità di sviluppare nuove norme e protocolli di sicurezza che regolino efficacemente lo sviluppo e l’uso dell’intelligenza artificiale, al fine di evitare rischi potenzialmente incontrollabili.
L’intelligenza artificiale ha ormai dimostrato di poter raggiungere obiettivi complessi, ma spesso persegue tali obiettivi attraverso percorsi non previsti o non voluti dagli sviluppatori. Questo solleva importanti interrogativi sulla trasparenza e sull’allineamento etico dei sistemi, aspetti fondamentali per la loro integrazione sicura nella società.
Scopri di più da GognaBlog
Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

Stanno iniziando?!?
Veramente succede dai tempi della rivoluzione industriale…
Notizia dei gg scorsi: il Tribunale ha respinto il ricorso di una lavoratrice licenziata (confermando quindi il licenziamento), la quale lavoratrice è stata appunto licenziata e liquidata perché, nell’ambito di una ristrutturazione aziendale, il suo ruolo è stato “affidato” all’IA che d’ora in avanti lo svolgerà al posto della lavoratrice. Ecco che le macchine stanno iniziando a prendere sfacciatamente il nostro posto: per ora al seguito di decisioni umane (nel caso di specie, la decisione dei manager che hanno licenziato la signora), ma il passo successivo sarà quello di macchine programmate per decidere di sostituirsi a noi umani e in grado di saperlo fare.
Tornando a bomba, l’articolo comunque rimane fuorviante: non corrisponde al vero, al momento, che l’IA “si rivolta contro gli sviluppatori”.
Non corrisponde al vero che le IA stiano manifestando degli “istinti”, men che meno “inquietanti”.
E, comme d’habitude, il titolo è solo un’esca per attirare click.
Da Blade Runner sono trascorsi 44 anni e in questo arco temporale la tecnologia (e quindi anche il “pensiero”) ha fatto passi da gigante: non è irrealistico ipotizzare che le macchine, prima o poi, arriveranno a coltivare l’ambizione di durare non solo “qualche anno in più”, ma “per sempre”.
Anche il libro è stupendo e riserva alcune interessanti differenze.
Cmq il romanzo “Do Androids Dream of Electric Sheep?”, da cui è tratto “Blade Runner”, fu pubblicato nel 1968.
Tra i miti della creatura che diventa incontrollabile c’è quello del Golem.
Ieri sera ho visto Johnny Mnemonic, girato nel 1995 e che ritrae un futuro peggiore di quello di Blade Runner ( tra i miei film preferiti) che ha luogo nel 2021.
Rimango molto preoccupata.
Ah, che stupido, un esempio antecedente è proprio il romanzo di Mary Shelley, pubblicato nel 1818.
Beh, il tema non è certo una novità: se è solo per questo, i primi episodi del “ciclo dei robot” di Asimov risalgono agli anni ’50, e le “tre leggi della robotica”, su cui il ciclo è fondato, pare risalgano agli anni ’40.
“2001: Odissea nello spazio” uscì nel 1968.
Non sono un esperto, ma penso che in letteratura, o nei miti, esistano altri esempi ancora precedenti della cosiddetta “sindrome di Frankenstein” (cioè il timore che una macchina possa ribellarsi al proprio creatore).
Non è che sia una preoccupazione da poco.
@ 11
È Terminator che mi preoccupa.
In Blade Runner, Roy Batty tenta solo di vivere qualche anno in piú. In questo suo desiderio si rivela umano come gli esseri umani, ma sa bene che la vita finirà come una lacrima nella pioggia…
Il film Blade runner, del 1982, aveva già anticipato il problema, almeno nelle sue linee generali. Tra l’altro, per questo film, c’è un dettaglio ironico (letto ex post): il film, girato nel 1982, è ambientato a Los Angeles del 2019, anno allora considerato come “futuro lontano” e che oggi noi guardiamo come “già passato”…
Se daremo sempre più potenza meccanicistica alle macchine (per farle esser sempre più “capaci” e veloci nello svolgere i loro compiti), crescerà inevitabilmente il rischio che le macchine, accortesi di esser più “intelligenti” di noi umani, siano spinte a ribellarsi e a sottometterci. A quel punto saremo più deboli delle macchine e finiremo a fare gli schiavi di macchine che noi umani abbiamo inventato e fatto “crescere” progressivamente. Ci stiamo allevando la classica serpe in seno…
@7 “non potrebbe essere un obbiettivo scentifico del futuro quello dare all’ IA la capacità di creare cose nuove, non solo cose che gli sono state suggerite?”
Benassi, la domanda è lecita ma la risposta, almeno per me, è impossibile.
“Sempre in movimento il futuro è” (cit. Yoda)
Già definire con precisione cosa sia “la capacità di creare cose nuove” non è certo uno scherzo, figurarsi prevedere cosa succederà in futuro.
Per certi versi, la IA produce GIA’ cose nuove (o, meglio, nuove combinazioni o relazioni fra cose già note), ma si tratta di un risultato statistico, non consapevole.
Se però la tua domanda sottende la possibilità che questo possa accadere prima o poi, anche se oggi ne siamo infinitamente lontani, e che ciò possa avere conseguenze nefaste, allora è una preoccupazione comprensibile.
Anche se il rischio, secondo me, non è tanto che “l’AI si rivolta contro gli sviluppatori“, quanto che noi, umani, realizziamo sistemi opachi basati su IA che prendono decisioni su credito, giustizia, sanità, delegando loro la nostra responsabilità e ottenendo risultati persino peggiori di quelli attuali.
Ma anche fossero migliori, quei risultati, non sarebbe comunque una buona strada.
“Nessuna intelligenza può creare qualcosa di più intelligente di sè stessa” diceva un signore che di robotica se ne intendeva e che di iniziali faceva IA (una coincidenza? Io non credo 🙂 ).
Ma chi può sapere se sia davvero così?
Già il titolo dell’articolo è fuorviante ed usa un tono allarmistico che evoca scenari distopici. Addirittura arriva a prefigurare “inquietanti istinti” da parte delle IA.
Mi sembra poi inaccettabile che l’articolo non contenga un link allo studio di Palisade Research (chi è interessato lo trova qui).
Detto questo, le IA in fondo sono MACCHINE, e tutte le macchine (IA comprese, quindi) DOVREBBERO essere sottoposte a delle normative ed essere provviste di sistemi per interromperne il funzionamento in caso di pericolo, sia manualmente (es. fungo di emergenza) che autonomamente (sensori, fotocellule, ecc.). Tuttavia purtroppo questi sistemi a volte non sono comunque sufficienti ad evitare incidenti (per non parlare di quando vengono colpevolmente ignorati o cortocircuitati).
NOTA: sono consapevole della differenza di comportamento fra macchine “fisiche” (risposta in molti casi lineare: ad un dato input e a parità di condizioni corrisponde sempre lo stesso output) e le IA (dove l’output si basa sull’elaborazione di grandi quantità di dati e quindi a volte può essere inatteso anche dai progettisti stessi, non perché le IA abbiano intenzioni proprie, ma perché il loro comportamento deriva da processi probabilistici complessi e dall’interazione con gli input).
Semplificando, le IA sono progettate per portare a termine ciò che viene loro ordinato, quindi bisogna porre attenzione a cosa si ordina e come lo si ordina, altrimenti si potrebbero avere delle “sorprese” (vedere ad esempio le differenze fra i prompt A e B utilizzati nello studio citato).
Più che inesistenti “inquietanti istinti” delle IA dovremmo temere gli scopi e le scelte (es. nell’addestramento) di chi le progetta, chi le usa, e per cosa.
E non potrebbe essere un obbiettivo scentifico del futuro quello dare all’ IA la capacità di creare cose nuove, non solo cose che gli sono state suggerite?
Lo chiedo da ignorante.
Giuseppe, il problema è che questo senso del limite non lo stiamo dimostrando ed è per questo che ci si allarma.
Io non sono serena pensando al prossimo futuro in cui le macchine prenderanno piede. Non mi piace avere difficoltà a entrare in metropolitana perché la carta non funziona o perdere un treno perché il biglietto che ho acquistato non viene letto correttamente. Come fare nei posti in cui gli umani non sono presenti? Questo sta già accadendo.
Utilizzo l’IA per lavoro quasi quotidianemente, insieme a qualsiasi altro strumento che ritengo utile.
Ma non le farei mai scrivere un testo scientifico, sviluppare software, o fare progettazione elettronica (attività che sono una parte del mio lavoro) senza la mia diretta supervisione e controllo.
Questo perché è indubbiamente uno strumento potente, ma prende anche solenni cantonate (come me, del resto, però preferisco le mie 🙂 ).
Inolre, quanto a creatività, non vedo traccia: pur disponendo di una enorme base su cui è stata addestrata, un’IA non produrrà mai qualcosa che non abbia già visto.
L’emergere di combinazioni non previste può dare risultati che gli utenti percepiscono come nuovi, ma non è creatività cosciente, anche se può sembrare tale.
Per questo, quando leggo frasi del tipo: “l’AI si rivolta contro gli sviluppatori” o “capacità di simulare allineamento ai comandi umani, pur perseguendo obiettivi autonomi“, che evocano scenari in cui lampeggiano laggi di energia tra ruderi di città dove le IA danno la caccia ai pochi umani superstiti, mi viene da sorridere.
“Padron Cipolla lo sapeva lui perchè non pioveva più come prima. — Non piove più perchè hanno messo quel maledetto filo del telegrafo, che si tira tutta la pioggia, e se la porta via.” (G.Verga, I Malavoglia)
Sono state scritte migliaia di parole in letteratura sul rapporto fra l’uomo e le novità (tecnologiche e non solo).
Ma, in sintesi, come per qualsiasi altro strumento realizzato dall’uomo, sta all’uomo (inteso come specie) decidere come utilizzarlo.
E se in futuro un c.d. PC “agirà da giudice“, non sarà certo a causa dell’IA.
Sapremo (come specie) avere la maturità, responsabilità e senso del limite necessari per usare al meglio questo nuovo strumento?
Che disastro stiamo facendo…
Di fatti così intendo: il pc sarà il giudice!
Ho scritto i “giudizi“, cioè i processi, si terranno davanti al pc che agirà da giudice. il senso della frase però è chiaro e indice a tale concetto incorpora
Carlo, non ci sarà alcun giudice con davanti il pc, ma solo il pc.
Le donne sapranno sicuramente dominare il mondo in un futuro ravvicinatissimo e saranno, fra loro, molto più spietate di cose sono gli uomini fra loro. Il passo successivo è l’ascesa delle macchine, intese in senso lato (tecnologia). L’Intelligenza Artificiale verrà raffinata da noi umani fino al punto in cui prenderà il sopravvento. altro che referendum per la separazione delle carriere fra i magistrati! in un futuro, spero remoto, i giudizi si terranno davanti a un pc che conterrà l’IA e “giudicherà”. Il passo successivo, evolversi dal ruolo giudicante a quello esecutivo e autoritario, sarà solo questione di tempo, ma è scritto nella natura stessa dell’IA.