Non basta predire cosa compri: gli AI devono capire perché lo vuoi.
GISTBench è un nuovo benchmark che cambia le regole del gioco nella valutazione dei sistemi di raccomandazione basati su LLM. Invece di misurare solo l'accuratezza delle predizioni (il solito 'hai comprato X, ti consiglio Y'), valuta quanto bene un modello riesce a estrarre e verificare gli interessi reali di un utente dalla sua cronologia di interazioni. Il team introduce due famiglie di metriche inedite — Interest Groundedness (IG), con componenti di precision e recall — per misurare la qualità dell'inferenza degli interessi, non solo il risultato finale. È un salto concettuale importante: dal 'cosa clicchi' al 'cosa ti interessa davvero'.
In pratica: i sistemi di raccomandazione del futuro non si giudicheranno più su quante vendite generano, ma su quanto profondamente capiscono l'utente. Chi costruisce AI per e-commerce, streaming o news deve iniziare a pensare in questi termini.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.