RecursiveMAS: gli agenti AI che collaborano nello spazio latente

Nei sistemi multi-agente oggi più diffusi, un modello linguistico produce testo, un altro modello lo legge, lo interpreta e a sua volta genera una risposta. Si tratta di una collaborazione ricorsiva e in alcuni casi bidirezionale mediata dal linguaggio naturale (NLP). Funziona, ma ha un costo: molti token, più latenza, passaggi intermedi ridondanti e una difficoltà strutturale nel rendere il sistema realmente efficiente in termini di calcolo computazionale e token.
Il paper Recursive Multi-Agent Systems, firmato da ricercatori affiliati a UIUC, Stanford University, NVIDIA e MIT, prova a spostare e risolvere l’annoso problema su un piano diverso. La domanda di partenza al problema è ‘semplice’: se i modelli linguistici ricorsivi possono aumentare la profondità del ragionamento riutilizzando computazioni nello spazio latente, è possibile applicare lo stesso principio non a un singolo modello, ma a un intero sistema di agenti?
La risposta proposta dagli autori si chiama RecursiveMAS, un framework che collega agenti eterogenei attraverso moduli leggeri chiamati RecursiveLink, capaci di scambiarsi rappresentazioni latenti (vettori numerici) invece di passarsi continuamente testo intermedio (NLP). riducendo così la dipendenza dalla comunicazione testuale interna fra modelli in Natural Language Processing come mezzo unico di collaborazione.

Il contesto: il limite della collaborazione testuale

Come visto più volte, la direzione recente dell’IA generativa è sempre più orientata verso le architetture agentiche di livello enterprise. In questi sistemi, invece di affidare un compito complesso ad un solo modello, si tende a costruire strutture nelle quali più agenti assumono ruoli distinti: pianificatore, critico, risolutore, specialista di dominio, esecutore di strumenti o aggregatore finale.
Questa impostazione è utile perché consente di scomporre problemi complessi e di combinare competenze diverse su più livelli agentici di uno stesso modello. In pratica si creano istanze compartimentate e altamente specializzate che dialogano tra loro in Natural Language Processing. Allo stato attuale, tuttavia, questo approccio introduce un rilevante problema operativo. Ogni agente deve generare testo per un altro. L’agente successivo deve quindi riceverlo, reinterpretarlo e produrre un nuovo output per il seguente, e così via. Il sistema guadagna in modularità, ma paga un prezzo elevato in termini di costi computazionali, consumo di token e latenza.
Il paper RecursiveMAS nasce proprio per dar una risposta alternativa a questo problema. Non contesta l’idea dei sistemi multi-agente, ma cerca invece di renderla più efficiente trasformando la collaborazione tra agenti in un processo ricorsivo interno al sistema. In questo approccio, gli agenti non vengono ottimizzati come componenti isolate. Sono trattati invece come parti di una computazione matematica collettiva che si ripete, si aggiorna e si raffina attraverso più round.

Che cosa introduce RecursiveMAS

Il contributo centrale del paper risiede nel paradigma di collaborazione nello spazio latente, contrapposto alla tradizionale collaborazione basata su interscambio testuale. In questo ambito, lo spazio latente è definito come l’universo delle rappresentazioni numeriche multidimensionali che il modello genera durante il processo computazionale (embedding vectoring).
A differenza dei sistemi multi-agente convenzionali, dove l’output di un modello viene forzato in una stringa testuale (tokenizzazione discreta) per essere interpretato da un secondo agente, RecursiveMAS propone e opera direttamente sui vettori di stato. Il sistema bypassa la proiezione nello spazio del vocabolario, permettendo agli agenti di comunicare attraverso la condivisione degli hidden states (stati nascosti) o degli embedding. Questo approccio preserva la densità informativa dei dati, evitando il ‘collo di bottiglia’ semantico intrinseco alla generazione di linguaggio naturale.
L’architettura demanda l’esecuzione di questa collaborazione ad un modulo chiave definito RecursiveLink, strutturato in due componenti funzionali distinte. Il modulo Inner RecursiveLink opera all’interno del singolo agente: la sua funzione è trasformare gli stati nascosti (hidden layers) derivanti dalla computazione corrente in input latenti direttamente riutilizzabili nel passo iterativo successivo. Parallelamente, il modulo Outer RecursiveLink funge da interfaccia inter-agente. La sua rilevanza risiede nella capacità di connettere modelli eterogenei, sia per architettura che per parametrizzazione, effettuando un’operazione di mapping (allineamento) delle rappresentazioni latenti del modello sorgente nello spazio di embedding del modello destinatario.
Questa dicotomia architetturale è cruciale. Il framework RecursiveMAS non si limita a teorizzare un ‘ragionamento congiunto’ astratto, ma ingegnerizza un protocollo tecnico esatto per la propagazione del flusso informativo. L’interscambio tra i modelli avviene bypassando totalmente i processi intermedi di decodifica testuale in NLP e quantizzazione. La proiezione nello spazio del vocabolario, e la conseguente generazione del testo in linguaggio naturale, viene ritardata e delegata esclusivamente all’ultimo agente nel round conclusivo di ricorsione. In tutte le fasi antecedenti, la collaborazione si sviluppa interamente in modo nativo, attraverso la trasmissione e l’elaborazione di stati latenti numerici.

Come funziona, a livello essenziale

Il funzionamento di RecursiveMAS può essere analizzato attraverso tre pilastri fondamentali: il flusso di calcolo, le topologie collaborative e la metodologia di ottimizzazione dei parametri.
Il sistema opera come un flusso iterativo ricorsivo. Invece di produrre stringhe discrete, il primo agente genera una sequenza di rappresentazioni – numeriche – latenti che fungono da “stato informativo denso”. Il modulo RecursiveLink funge da trasduttore: esso riceve questi tensori, ne esegue l’allineamento spaziale e li inietta nel grafo computazionale dell’agente successivo. In questo modo, l’agente ricevente non deve decodificare un messaggio semantico, ma eredita un contesto computazionale pre-elaborato. Il ciclo si chiude con il feedback dell’ultimo agente verso il primo, permettendo una raffinazione progressiva della soluzione attraverso molteplici passaggi di ricorsione.

Nel paper, questa impostazione viene applicata a quattro pattern collaborativi:

Sequenziale (Pipeline): Una catena logica composta da Planner (pianificazione), Critic (valutazione) e Solver (esecuzione).
Mixture-of-Experts (MoE): un’architettura parallela dove specialisti di dominio (Matematica, Code, Scienza) convergono verso un Summarizer.
Distillazione (Expert-Learner): un processo di trasferimento di conoscenza dove il modello più capace guida l’apprendimento o l’inferenza del modello più leggero.
Deliberativa (Agent-Tool): un’interazione dinamica tra un modulo di riflessione (Reflector) e un esecutore di strumenti (Tool-Caller).

Anche la fase di training segue una logica a livelli ma su due dimensioni invece di quattro.

Inner-loop Training: basata sulla generazione dei cosiddetti Latent Thoughts. In questa fase, il singolo agente viene istruito a produrre stati latenti che garantiscano la coerenza interna e la continuità del ragionamento tra i passi temporali della ricorsione.
Outer-loop Training: ottimizza i moduli RecursiveLink. L’obiettivo è massimizzare l’efficacia del trasferimento informativo tra agenti diversi, assegnando un segnale di errore (loss) basato sulle prestazioni globali del sistema.

Questa scelta rende il framework più leggero rispetto ad un addestramento integrale degli agenti, ma non significa però che RecursiveMAS sia un semplice prompt o una tecnica plug-and-play. L’approccio richiede invece accesso alle rappresentazioni interne dei modelli, capacità di manipolare gli embedding layers e hidden states, e una pipeline di training specifica. È quindi più vicino ad una proposta architetturale di ricerca che a una funzione immediatamente integrabile nei normali sistemi basati su API chiuse.

I risultati dichiarati

Gli autori hanno valutato l’approccio RecursiveMAS su nove benchmark riguardanti matematica, scienza, medicina, ricerca e scrittura di codice. Il confronto è stato condotto rispetto ad agenti singoli, sistemi multi-agente alternativi e baseline ricorsive basate su testo.
Il risultato principale riportato è un miglioramento medio dell’accuratezza dell’8,3%. Questo dato è accompagnato da uno speedup end-to-end compreso tra 1,2× e 2,4× e da una riduzione dell’uso di token tra il 34,6% e il 75,6%. Tali valori rappresentano gli elementi più significativi del paper, poiché collegano la proposta non solo a una maggiore accuratezza, ma anche a una migliore efficienza computazionale.
Il dato va tuttavia interpretato correttamente. Non significa che RecursiveMAS renda automaticamente migliori tutti i sistemi agentici. Indica invece che, nelle condizioni sperimentali definite dagli autori e sui benchmark selezionati, la collaborazione latente ricorsiva mostra un vantaggio rispetto alla collaborazione testuale e ad alcune baseline avanzate.
L’aspetto più interessante non risiede solo nel dato finale, quanto nel comportamento osservato al crescere della profondità ricorsiva. Secondo il paper, i benefici diventano più marcati all’aumentare dei round di ricorsione. A tre round, RecursiveMAS mostra un vantaggio superiore rispetto a Recursive-TextMAS (la versione con comunicazione NLP), sia in termini di tempo di inferenza sia di riduzione dei token.
Questo suggerisce che il costo della collaborazione testuale cresca rapidamente quando gli agenti iterano più volte tra loro. Se ogni passaggio produce testo, la ricorsione moltiplica il peso della generazione intermedia. Se invece la collaborazione resta, almeno in parte, nello spazio latente, il sistema può ricorrere più volte senza pagare lo stesso overhead testuale.

Perché conta

Il valore del paper non risiede nel presentare un nuovo agente più potente in senso generico, ma proprio nel voler proporre un diverso asse di scaling per i sistemi AI.
Negli ultimi anni il dibattito si è concentrato su alcune direzioni ricorrenti: modelli più grandi, più dati, più contesto, più calcolo in inferenza, più agenti o più strumenti esterni. RecursiveMAS aggiunge invece un’altra possibilità. Propone di far scalare non solo il singolo modello, ma la collaborazione stessa tra modelli, trattandola come una computazione ricorsiva di sistema.
E questa è forse la parte concettualmente più rilevante. Nei sistemi multi-agente tradizionali, la collaborazione è spesso un’orchestrazione esterna dove un agente scrive, un altro legge e un coordinatore decide il passaggio successivo. In RecursiveMAS, invece, il paradigma della collaborazione diventa una dinamica interna, addestrabile e in parte differenziabile. Gli agenti non sono più semplici moduli chiamati in sequenza, ma diventano nodi di un circuito ricorsivo. E se questa linea di ricerca si consolidasse, potrebbe incidere su tre aree principali.
La prima è l’efficienza. I sistemi agentici complessi sono spesso costosi proprio perché generano molto testo intermedio. Ridurre il traffico testuale tra gli agenti potrebbe migliorare tempi, costi e scalabilità.
La seconda riguarda la progettazione di architetture multi-modello. RecursiveMAS mostra una possibile via per collegare modelli diversi non soltanto attraverso prompt e output, ma attraverso interfacce latenti apprese.
La terza è l’addestramento di sistemi composti. Il framework non migliora ciascun agente separatamente, ma cerca di ottimizzare il sistema facendolo lavorare come un’unità centrale. Questo passaggio è rilevante perché molti limiti delle architetture agentiche non dipendono solo dalla capacità dei singoli modelli, ma dalla qualità della loro coordinazione.

I limiti e le cautele necessarie

Il primo limite è il più ovvio, ma anche il più importante. RecursiveMAS è ancora una proposta di ricerca. Il paper è un preprint arXiv datato 28 aprile 2026 e non costituisce una prova di maturità industriale generalizzata. I risultati sono interessanti, ma restano legati ai benchmark, alle configurazioni sperimentali e alle famiglie di modelli utilizzate.
Il secondo limite riguarda l’accessibilità tecnica. Molti sistemi AI attuali sono costruiti su API che non espongono pienamente gli stati interni, i layer nascosti o gli spazi di embedding manipolabili in modo controllato. RecursiveMAS richiede invece proprio questo tipo di accesso. Per tale ragione, la sua trasferibilità immediata in ambienti commerciali standard non è scontata.
Il terzo limite riguarda l’interpretabilità. Una collaborazione testuale è costosa, ma presenta un vantaggio significativo: lascia una traccia leggibile. Se un agente propone una soluzione, un altro la critica e un terzo la sintetizza, il percorso può essere ispezionato. Spostare la collaborazione nello spazio latente può migliorare l’efficienza e le performance, ma riduce la trasparenza del processo intermedio. Questo non invalida il framework, ma apre una questione rilevante in termini di auditing, debugging e controllo.
Il quarto limite è terminologico. L’espressione “latent thoughts”, usata nel paper, non va letta in senso antropomorfico. Non indica pensieri in senso umano, bensì rappresentazioni interne continue che il modello usa durante la computazione. È un dettaglio linguistico non secondario. La comunicazione pubblica sull’AI tende infatti a trasformare spesso le metafore tecniche in descrizioni psicologiche, rendendo necessaria una maggiore cautela.
Il quinto limite riguarda il rapporto tra benchmark e utilità reale. Un miglioramento su MATH500, AIME, GPQA-Diamond, MedQA, LiveCodeBench o task di search è significativo per valutare capacità specifiche. Tuttavia, tali test non esauriscono la questione dell’affidabilità in ambienti aperti, rumorosi o multi-obiettivo, né in contesti soggetti a stringenti vincoli operativi, normativi e di sicurezza.

Collocazione rispetto allo stato dell’arte

RecursiveMAS si inserisce in due linee di ricerca che convergono fra loro. La prima riguarda i sistemi multi-agente e mira a migliorare le prestazioni dei modelli distribuendo ruoli, competenze e processi decisionali. La seconda si concentra sui modelli ricorsivi, o looped language models, e analizza l’uso ripetuto di computazioni interne numeriche per aumentare la profondità – e compatibilità – del ragionamento.
La proposta degli autori consiste nell’estendere il principio ricorsivo dal singolo modello all’intero sistema. Non ci si limita più a un modello che affina internamente le proprie rappresentazioni, ma si punta su un insieme di agenti che si scambiano stati latenti e si perfezionano attraverso round successivi. Nel paper, questa impostazione viene presentata come un tentativo di portare la ricorsione alla dimensione dei sistemi multi-agente.
L’aspetto fondamentale però non è soltanto capire se RecursiveMAS superi una baseline su un benchmark. La questione più ampia è se la collaborazione tra agenti resterà in futuro prevalentemente linguistica o se inizierà a evolvere verso forme di coordinamento più interne, meno leggibili ma potenzialmente più efficienti.

Tirando le somme

RecursiveMAS non si limita ad aggiungere un nuovo tassello alla narrativa degli “agenti intelligenti”. Sposta invece la questione su un terreno più tecnico e concreto, interrogandosi su cosa renda davvero efficiente la collaborazione tra modelli.
E in quest’ottica, la tesi che il paper espone è che il linguaggio testuale potrebbe non essere sempre lo strumento migliore. Se da un lato infatti questo resta indispensabile per l’interazione umana, dall’altro può risultare inefficiente come canale di comunicazione interna tra agenti artificiali. Quando due modelli devono cooperare ripetutamente sullo stesso problema, la necessità di generare e reinterpretare testo a ogni passaggio rischia di trasformarsi in un onere strutturale.
La strada indicata da RecursiveMAS quindi è chiara, benché ancora estremamente sperimentale. I sistemi multi-agente potrebbero evolvere da pipeline di modelli che si scambiano messaggi verso circuiti ricorsivi capaci di ottimizzare rappresentazioni condivise. Si tratta di una direzione potente, ma non priva di rischi. Man mano che la collaborazione si sposta nello spazio latente, cresce infatti l’esigenza di nuovi strumenti per osservare, controllare e valutare le dinamiche tra gli agenti.
Questa ricerca non pretende certo di dimostrare che tale approccio diventerà il paradigma dominante. Evidenzia però che la collaborazione tra agenti può essere trattata come un oggetto tecnico da addestrare, e non solo come una sequenza di prompt da orchestrare. È proprio questo il passaggio che merita maggiore attenzione, ben più del singolo incremento percentuale registrato sui benchmark.

Glossario

Agente AI. Componente software basato su un modello linguistico, progettato per svolgere un ruolo specifico dentro un sistema più ampio, ad esempio pianificare, criticare, risolvere un problema o usare strumenti esterni.

API chiuse. Interfacce commerciali che permettono di usare un modello senza accedere pienamente ai suoi meccanismi interni, come stati nascosti, pesi o rappresentazioni latenti.

Auditabilità. Possibilità di ricostruire, controllare e valutare come un sistema AI abbia prodotto un certo risultato. Diventa più complessa quando i passaggi intermedi non sono espressi in testo leggibile.

Benchmark. Test standardizzato usato per misurare le prestazioni di un modello o di un sistema AI su compiti specifici, come matematica, medicina, ricerca o generazione di codice.

Collaborazione testuale. Modalità tradizionale dei sistemi multi-agente in cui un agente produce testo e un altro agente lo legge, lo interpreta e lo usa per generare il passaggio successivo.

Embedding. Rappresentazione numerica di un testo, una parola o un’informazione. Permette al modello di trattare contenuti linguistici come vettori matematici elaborabili.

Hidden layers. Strati interni di una rete neurale che trasformano progressivamente l’input in rappresentazioni più astratte. Nei modelli linguistici, gli hidden layers elaborano le informazioni prima che il sistema produca token, testo o altri output. Sono distinti dall’input layer, che riceve i dati iniziali, e dall’output layer, che genera il risultato finale.

Hidden state. Stato interno di un modello durante la computazione. Contiene informazioni elaborate dal modello prima che vengano eventualmente trasformate in token o testo.

Inferenza. Fase in cui un modello già addestrato viene utilizzato per produrre una risposta, una previsione o un output a partire da un input.

Latent thoughts. Espressione usata nel paper per indicare rappresentazioni interne continue generate dal modello durante la computazione. Non sono “pensieri” in senso umano, ma stati latenti utili al processo di elaborazione.

LLM. Acronimo di Large Language Model. Indica un grande modello linguistico addestrato su grandi quantità di dati testuali e capace di generare, interpretare o trasformare linguaggio naturale.

RecursiveLink. Modulo leggero proposto da RecursiveMAS per trasferire e adattare rappresentazioni latenti dentro un agente o tra agenti diversi, senza passare sempre dalla generazione testuale.

RecursiveMAS. Framework sperimentale per sistemi multi-agente ricorsivi. Propone di far collaborare gli agenti nello spazio latente, riducendo il ricorso al testo intermedio.

Ricorsione. Meccanismo in cui un processo viene ripetuto più volte, usando i risultati intermedi per raffinare progressivamente l’elaborazione successiva.

Sistema multi-agente. Architettura composta da più agenti AI, spesso con ruoli diversi, che collaborano per risolvere un compito complesso.

Spazio latente. Area matematica interna al modello in cui le informazioni vengono rappresentate come vettori e trasformazioni numeriche, prima di diventare eventualmente testo leggibile.

Token. Unità minima di testo elaborata da un modello linguistico. Può corrispondere a una parola, a una parte di parola, a un simbolo o a una sequenza di caratteri.

Training. Processo di addestramento attraverso cui un modello, o una parte del sistema, impara da dati ed esempi a migliorare il proprio comportamento.

Transformer. Architettura alla base di molti modelli linguistici moderni. Usa meccanismi di attenzione per elaborare relazioni tra elementi di una sequenza testuale.

Fonti

Recursive Multi-Agent Systems – Xiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He, James Zou, arXiv:2604.25917v1, 28 aprile 2026.