
Quanto sono davvero capaci gli agenti AI quando le cose si complicano?
VAKRA è il nuovo benchmark sviluppato da IBM Research per valutare in profondità le capacità di ragionamento e uso degli strumenti negli agenti AI, con un focus specifico sui failure mode — ovvero i modi in cui questi sistemi falliscono. A differenza dei benchmark tradizionali che misurano solo il successo, VAKRA analizza come e perché un agente sbaglia, distinguendo tra errori di ragionamento, errori nell'uso dei tool e problemi di pianificazione. I risultati mostrano che i modelli attuali, anche i più avanzati, hanno lacune significative nelle catene di ragionamento multi-step e nella gestione degli strumenti in scenari complessi. Questo tipo di analisi granulare è esattamente ciò che manca all'ecosistema per costruire agenti davvero affidabili.
In pratica: non basta che un agente AI riesca nel compito — bisogna capire perché fallisce. VAKRA porta l'evaluation degli agenti a un livello di maturità che l'industria aspettava.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.