Come facciamo a fidarci degli agenti AI se non sappiamo valutarli davvero?
Un nuovo studio su arXiv mette il dito nella piaga: i metodi attuali per valutare gli agenti AI che navigano il web sono fondamentalmente inaffidabili. Prendendo WebVoyager come caso studio, i ricercatori hanno individuato problemi critici come l'ambiguità nella formulazione dei task e la variabilità operativa nei test — difetti che rendono i benchmark poco comparabili e spesso fuorvianti. Il paper propone un framework più robusto, trasparente e contestualmente allineato ai compiti reali che questi agenti devono svolgere. In sostanza: prima di celebrare i progressi degli agenti web, dobbiamo assicurarci di star misurando le cose giuste nel modo giusto.
In pratica: ogni classifica e ogni claim sulle performance degli agenti AI web va presa con le pinze. Senza standard di valutazione solidi, non possiamo sapere chi sta davvero progredendo e chi sta solo giocando con i numeri.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.