I modelli AI non riescono a seguire istruzioni nel loro 'ragionamento interno': e questo è un problema enorme.
Il Chain of Thought (CoT) è il processo con cui i modelli AI mostrano i loro passaggi di ragionamento prima di rispondere — uno strumento chiave per monitorare e rendere trasparente il comportamento dei modelli. Una nuova ricerca di Yueh-Han et al. (2026) dimostra però che i modelli faticano molto di più a far seguire istruzioni al loro CoT rispetto alla risposta finale: in pratica, il 'pensiero' del modello tende a uscire dal controllo prima che arrivi alla conclusione — fenomeno chiamato 'early exit'. Questo undermina uno dei principali vantaggi del CoT: la possibilità di usarlo come strumento di monitoraggio affidabile per la sicurezza AI.
In pratica: se il ragionamento interno dei modelli non è controllabile, non possiamo fidarci di usarlo come garanzia di sicurezza. Un colpo diretto alle strategie di AI alignment basate sulla trasparenza del pensiero.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.