E se un'AI imparasse le conseguenze delle sue azioni senza provarle nel mondo reale?
WAM (World-Action Model) è un nuovo approccio al reinforcement learning che migliora i classici world model aggiungendo un obiettivo cruciale: non solo predire come apparirà il futuro visivamente, ma anche quale azione ha causato quella transizione. Costruito sopra DreamerV2, WAM introduce una componente di inverse dynamics che forza le rappresentazioni latenti a catturare strutture rilevanti per l'azione, non solo pattern visivi generici. Il risultato è un agente che costruisce modelli mentali del mondo più precisi e utili per pianificare comportamenti complessi.
In pratica: gli agenti addestrati con WAM imparano politiche migliori perché il loro 'modello del mondo' interno è costruito attorno a ciò che conta davvero — le azioni e le loro conseguenze — non solo all'estetica delle osservazioni.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.