I soliti test per LLM non bastano più: serve un banco di prova da esperti veri.
XpertBench è un nuovo benchmark progettato per valutare i modelli linguistici su task di livello professionale, quelli dove GPT-4 e compagni fanno ancora fatica. Il problema con i benchmark tradizionali è noto: i modelli li saturano troppo in fretta, rendendo impossibile distinguere chi è davvero bravo da chi ha 'memorizzato' le risposte. XpertBench introduce una valutazione basata su rubriche strutturate, lo stesso approccio usato per giudicare il lavoro di professionisti umani in campi complessi. Il risultato è una misurazione molto più granulare e resistente all'overfitting da training.
In pratica: se un modello eccelle su XpertBench, può davvero aiutarti in task professionali complessi — non solo rispondere bene a quiz da manuale.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.