E se i modelli AI potessero scegliere i propri esperti senza imparare a farlo?
Nei modelli Mixture-of-Experts (MoE), un router decide quale sottoinsieme di 'esperti' attivare per ogni token — ma questo router richiede parametri aggiuntivi da addestrare, introducendo complessità e instabilità. Il paper 'Self-Routing' propone un approccio radicalmente diverso: usare direttamente gli hidden states del modello per instradare i token, eliminando completamente il router parametrico. Il meccanismo sfrutta le rappresentazioni interne già prodotte dal transformer, trasformandole in segnale di routing senza aggiungere pesi extra. Il risultato è un sistema più snello, potenzialmente più stabile durante il training e con meno overhead architetturale.
In pratica: meno parametri non significa meno intelligenza — significa che il modello stesso sa già dove mandare ogni token. Un passo verso architetture MoE più efficienti e meno fragili da addestrare.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.