Affidare la correzione dei compiti all'AI? I ricercatori dicono: aspetta.
Uno studio pubblicato su ArXiv ha analizzato il grado di accordo tra i Large Language Model e i valutatori umani nel scoring automatico di testi scritti. Il risultato è chiaro: gli LLM seguono logiche di valutazione sistematicamente diverse da quelle di un insegnante in carne e ossa, con pattern di giudizio che non replicano il ragionamento umano. Non si tratta di piccole discrepanze marginali, ma di divergenze strutturali nel modo in cui vengono pesati criteri come coerenza, creatività e argomentazione. Il gap è abbastanza significativo da mettere in dubbio l'affidabilità di questi strumenti in contesti educativi reali.
In pratica: usare un LLM per valutare elaborati scolastici o universitari non è equivalente a una valutazione umana. Prima di adottare questi sistemi su larga scala, servono benchmark molto più solidi.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.