Nessuno ha mai replicato i benchmark di OpenAI su gpt-oss-20b. Coincidenza?
Un paper su ArXiv solleva un problema serio: i risultati pubblicati da OpenAI per il modello gpt-oss-20b non sono riproducibili in modo indipendente, perché il paper originale non rivela né gli strumenti usati né la metodologia completa. Senza questi dettagli, verificare le performance dichiarate è semplicemente impossibile. Il problema non è tecnico, è strutturale: se un'azienda pubblica benchmark senza fornire i mezzi per replicarli, quei numeri diventano marketing, non scienza. Questo studio punta il dito su una pratica diffusa nel settore AI, dove la trasparenza è spesso selettiva.
In pratica: se non puoi replicare un benchmark, non puoi fidarti di quel benchmark. E OpenAI non è la sola a giocare così.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.