Cosa succede quando lasci un modello AI scommettere soldi veri su eventi reali?
Prediction Arena è un nuovo benchmark che mette alla prova i modelli AI facendoli operare autonomamente su mercati predittivi reali — quei mercati dove si scommette su eventi futuri come elezioni, crisi o scoperte scientifiche. L'idea è brillante: invece di testare i modelli su dataset statici e artificiali, li si espone alla pressione del mercato reale, dove sbagliare ha un costo tangibile. Il benchmark misura sia l'accuratezza predittiva che la qualità delle decisioni di trading, due cose che spesso divergono in modo sorprendente. Il risultato è uno stress test molto più onesto delle solite classifiche su MMLU o simili.
In pratica: i classici benchmark mentono per omissione. Prediction Arena introduce il rischio reale come metro di giudizio, e questo potrebbe ridefinire come valutiamo l'intelligenza dei modelli AI.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.