Non più chatbot: perché i nuovi modelli stanno diventando gli OS del lavoro cognitivo

Questo inizio di giugno 2026, non ha ancora annunciato nessun “modello definitivo” ma, al contrario, ha reso più leggibile una trasformazione già in corso: l’intelligenza artificiale generativa sta uscendo dal perimetro dell’interfaccia conversazionale e sta entrando in una fase operativa. Un cambiamento che non tratta più il modello come un sistema in grado di scrivere, riassumere, tradurre, spiegare o generare codice, ma che lo posiziona e sposta, sempre di più, verso sistemi capaci di prendere in carico sotto-compiti, organizzare sequenze di lavoro, usare strumenti esterni, interagire con repository, ambienti cloud, terminali, API e pipeline produttive.

Agenti AI e la frontiera degli OS Autonomi

La formula “sistemi operativi del lavoro cognitivo” va intesa con cautela. Tale espressione, infatti, non vuole descrivere questi strumenti come veri e propri sistemi operativi autonomi in senso tecnico, né presuppone che abbiano raggiunto un’autonomia generale completa. Indica piuttosto un cambio di funzione. L’AI di frontiera sembra non più limitarsi a produrre “semplici” output linguistici, ma tendere a diventare uno strato intermedio tra intenzione umana, strumenti digitali e processi esecutivi. Ed è proprio in questo scenario che il paradigma agentico diventa più che mai rilevante.
Un chatbot risponde,mentre un agente, almeno nella sua ambizione progettuale, organizza azioni partendo da obiettivi ben delineati. Un assistente conversazionale infatti produce testo in base a un prompt, un agente deve invece mantenere un obiettivo, scomporlo in passaggi, consultare risorse, invocare strumenti, verificare risultati intermedi, correggere errori e restituire un esito operativo concreto. La differenza non è cosmetica. È la differenza tra un’interfaccia di supporto e un’infrastruttura di esecuzione.
Questa trasformazione è visibile soprattutto nel software development, perché il codice offre un ambiente particolarmente adatto alla misurazione: esistono file, dipendenze, test, repository, issue, pull request, benchmark e log. Ma il punto non riguarda soltanto i programmatori e il programmare. Lo sviluppo software è oggi il laboratorio più avanzato di un passaggio molto più ampio: portare i modelli dentro processi produttivi controllabili.

Grok Build, nella documentazione pubblica di xAI, viene presentato come un coding agent estensibile, utilizzabile tramite interfaccia terminale interattiva, in modalità headless per script o bot, oppure attraverso l’Agent Client Protocol. La stessa documentazione di modello lo descrive come un modello addestrato per workflow di coding agentico, con una finestra di contesto dichiarata di 256k token per Grok Build 0.1. Questo dato va tenuto distinto da ricostruzioni esterne più aggressive che hanno circolato nelle ultime settimane e che attribuivano al sistema capacità più ampie. Il fatto rilevante però, sul piano editoriale, non è gonfiare il numero di token o il numero di sotto-agenti, ma osservare la direzione stessa che l’azienda ha intrapreso. xAI, infatti, non propone soltanto un modello che scrive codice, ma un ambiente orientato a far lavorare il modello stesso dentro l’intero ciclo di sviluppo.

Google, al contempo, mostra la stessa direzione da un’altra angolazione. Jules, il suo agente di coding asincrono, è uscito dalla beta ed è stato reso disponibile pubblicamente. Questo coding agent clona repository (Git) in una macchina virtuale cloud, costruisce un piano, produce modifiche, mostra diff e può arrivare alla creazione di una pull request in totale autonomia. Questo non significa che Jules “sappia programmare” in astratto. Il punto è che il lavoro viene spostato da una sessione conversazionale continua a una delega asincrona: l’utente assegna un compito, il sistema lavora in un ambiente separato e restituisce una proposta verificabile.
Questa architettura cambia completamente la relazione tra utente e modello. Il modello non è più soltanto un interlocutore passivo, ma diventa esecutore parziale, collaboratore tecnico e componente attivo di una catena di produzione completa. Naturalmente, resta necessaria la supervisione umana, ma cambia la posizione dell’umano nel processo: meno digitazione continua, più orientamento alla definizione e orchestrazione dell’obiettivo, revisione del piano, controllo del risultato, approvazione finale.
Il lancio di Gemini 3.5 Flash (in attesa dell’imminente versione 3.5 Pro) rafforza ulteriormente lo scenario descritto. Google lo descrive come un modello orientato a combinare intelligenza frontier e azione, con particolare attenzione ai compiti agentici di lungo orizzonte: pianificare, costruire, iterare, mantenere codebase, preparare documenti complessi. Anche qui la parola chiave non è “conversazione”, ma “azione”. Un modello veloce e capace non serve soltanto a rispondere meglio; serve a ridurre la latenza operativa di task lunghi, ripetitivi o multi-step.
Lo stesso vale per l’Agent Development Kit(ADK) di Google, presentato come framework open-source per costruire, debuggare e distribuire agenti AI affidabili su scala enterprise, fino a sistemi multi-agente e workflow mission-critical. Qui il passaggio è ancora più esplicito. L’agente non è soltanto un prodotto, ma un’unità architetturale a se stante che è capace di diventare, almeno nelle intenzioni di Google, qualcosa che si progetta, si osserva, si valuta, si collega ad altri strumenti e si mette in produzione.

Cursor, con Composer 2, offre un ulteriore segnale. Il modello viene presentato come disponibile in Cursor, ottimizzato per coding di livello frontier ed espressamente addestrato su long-horizon coding tasks tramite reinforcement learning; la documentazione aziendale sostiene che possa risolvere compiti che richiedono centinaia di azioni. Anche in questo caso il punto non è stabilire quale vendor abbia il modello “migliore”, ma riconoscere la convergenza fra i competitor. La competizione si sta infatti spostando dalla qualità della singola risposta alla capacità di sostenere sequenze operative complesse.
A dare profondità tecnica a questa visione d’insieme interviene, ancora una volta, la ricerca scientifica sui sistemi multi-agente. Il paper “Recursive Multi-Agent Systems”, pubblicato su arXiv ad aprile 2026, propone RecursiveMAS, un framework che punta a estendere il principio dei modelli ricorsivi dal singolo modello a sistemi composti da più agenti. L’idea è quella di trattare la collaborazione tra agenti come una computazione ricorsiva nello spazio latente, collegando elementi eterogenei attraverso un modulo chiamato RecursiveLink. Questo modulo, trasferendo gli stati latenti tra i diversi cicli di collaborazione, migliora l’accuratezza media dell’8,3% e garantisce accelerazioni end-to-end tra 1,2x e 2,4x, riducendo l’uso di token tra il 34,6% e il 75,6% rispetto alle baseline più avanzate.
Qui però, come sempre, serve cautela. Un paper non è un prodotto industriale come un benchmark non è un’utilizzo sistemico in un’organizzazione. Un miglioramento sperimentale non garantisce robustezza industriale. Tuttavia, la direzione è importante: la frontiera della ricerca non sta solo cercando modelli più grandi, ma modi migliori per far collaborare modelli e agenti fra loro, riducendo ridondanza, latenza e consumo di token. In altri termini, il problema non è più soltanto “quanto è intelligente il modello”, ma “come si organizza un sistema di modelli che lavori meglio di un singolo modello isolato”.

Una nuova frontiere in via di sviluppo

Questa è la soglia da leggere. Per anni la narrazione pubblica sull’AI generativa ha ruotato intorno alla risposta: quanto scrive bene, quanto ragiona, quanto confabula, quanto è creativo, quanto sembra umano. Questa nuova fase, invece, sembra spostare l’attenzione sul processo, ovvero, quanto sa mantenere il contesto, quanto sa usare strumenti, quanto sa correggersi, quanto sa collaborare con altri agenti, quanto sa operare in ambienti vincolati, quanto è verificabile.
La differenza è perciò strategica. Un modello conversazionale può essere adottato da singoli utenti senza modificare radicalmente l’organizzazione. Un sistema agentico, al contrario, entra nella struttura dei processi organizzativi: sviluppo software, analisi documentale, gestione ticket, revisione compliance, automazione di back office, sicurezza, operation, customer support, ricerca interna. Quindi, più il modello si avvicina all’esecuzione reale e più richiede governance solide.
I dati sull’adozione enterprise confermano che il passaggio non sta avvenendo in un vuoto. McKinsey rilevava già nel 2024 un salto dell’adozione AI al 72% delle organizzazioni intervistate. Nel 2025 il quadro appare ancor più esteso: quasi nove intervistati su dieci dichiarano un uso regolare dell’AI in almeno una funzione aziendale; il 62% delle organizzazioni sperimenta con agenti AI e il 23% sta già scalando sistemi agentici in qualche parte dell’impresa. Ma lo stesso rapporto segnala anche che la maggioranza di questi, resta ancora in una fase di sperimentazione o piloting, e che solo una quota più ridotta ha trasformato l’adozione in impatto enterprise reale e misurabile.
Questo è un dato rilevante, perché rivela e blocca due letture mediatiche opposte ed entrambe deboli. La prima è quella promozionale: gli agenti sarebbero già pronti a sostituire intere funzioni. La seconda è quella liquidatoria: si tratterebbe solo di hype. Il quadro reale appare invece molto più sobrio. L’AI agentica è già abbastanza reale da entrare nei workflow, ma non è ancora abbastanza matura da poter essere trattata come infrastruttura affidabile senza controlli, metriche, limiti, audit e responsabilità.
Il rischio principale nasce proprio da questa posizione intermedia. Più un agente può è libero di agire, più deve essere governato. Un chatbot isolato ha un perimetro relativamente limitato: genera testo, può sbagliare, può suggerire informazioni errate, ma non necessariamente modifica sistemi e infrastrutture. Un agente collegato a repository, API, documenti aziendali, strumenti cloud o ambienti di produzione introduce invece nuove superfici di rischio. Può accedere a dati sensibili, eseguire comandi, generare codice vulnerabile, interagire con credenziali, aprire canali laterali, amplificare errori.
Cloud Security Alliance ha richiamato il punto con chiarezza: gli agenti AI stanno entrando in ambienti di produzione e, in molti casi, agiscono con permessi ampi su più sistemi; il 92% dei professionisti della sicurezza citati nel rapporto dichiara preoccupazione per l’uso di agenti AI nella workforce e per il loro impatto sulla sicurezza. Il tema non è bloccare l’adozione, ma trattare gli agenti come identità operative da governare con least privilege, monitoraggio continuo e controllo dei comportamenti.
Il caso Anthropic rafforza la portata della questione. Con Project Glasswing, l’azienda ha collegato il modello Claude Mythos Preview alla scoperta e allo sfruttamento di vulnerabilità software, sostenendo che i modelli abbiano raggiunto un livello di coding capability tale da superare la media di esperti umani nell’individuare e sfruttare vulnerabilità. È una capacità a doppio uso: può proteggere infrastrutture critiche, ma può anche abbassare la soglia tecnica per attività offensive se inserita in scaffold e workflow non governati.

Tirando le somme

La visione d’insieme è semplice, ma non per questo rassicurante: quando l’AI passa dalla risposta all’azione, cambia anche il modello di rischio. Perciò, non basta più chiedersi se il modello dica il vero. Bisogna invece chiedersi che cosa può fare, con quali permessi, su quali sistemi, con quali vincoli, sotto quale supervisione e con quale tracciabilità.
Per le imprese, questo significa che la fase agentica non può essere gestita come l’ennesima adozione di “semplici” tool. Richiede architettura, policy, criteri di approvazione, logging, valutazioni ex ante ed ex post. Richiede una distinzione chiara tra agenti sperimentali, agenti assistivi, agenti con accesso a strumenti e agenti capaci di produrre modifiche operative. Senza aver chiare queste distinzioni, il rischio è quello di confondere attività di produttività apparente con quelle di controllo reale.
Per i vendor, la competizione si sposterà sempre più su affidabilità, osservabilità, sicurezza, costo per task completato e integrazione nei processi. Il benchmark tradizionale resterà importante, ma non basterà più. Un modello può essere eccellente in un test e fragile in un workflow operativo lungo. Può scrivere codice corretto in una demo e generare debito tecnico in un contesto reale. Può risolvere un task isolato e fallire nella gestione delle dipendenze, dei permessi o delle eccezioni.
Per noi, il punto da ricordare è questo: l’AI agentica non è ancora autonomia generale, ma è già una trasformazione concreta del modo nel quale i sistemi digitali vengono progettati, usati e governati. La domanda più concreta non è più soltanto se l’AI sappia scrivere, ragionare o programmare, ma se sappia lavorare dentro sistemi reali senza produrre opacità, dipendenza e rischio non governato.
Tutto quanto detto, quindi, non certifica la vittoria di uno specifico attore sugli altri. Non incorona xAI, Google, Cursor, Anthropic o alcun altro vendor. Mostra invece una convergenza precisa: il centro della competizione si sta spostando dalla qualità della risposta alla qualità dell’esecuzione. In questa nuova fase, il vantaggio non sarà semplicemente avere il modello più brillante, ma costruire il sistema più affidabile, verificabile e governabile.
Per anni abbiamo trattato l’intelligenza artificiale come una macchina che parla, e parla bene. Ora dobbiamo imparare a leggerla come una macchina con la capacità di entrare direttamente nei processi. Ed è qui che la promessa diventa più concreta, ma anche più esigente: perché quando uno strumento non si limita più a rispondere, ma comincia ad agire, la vera misura non è più lo stupore. È la responsabilità d’impiego.

Glossario

ADK, Agent Development Kit. Framework o kit di sviluppo pensato per progettare, testare, osservare e distribuire agenti AI.

Agentic coding. Modalità di sviluppo software nella quale un agente AI contribuisce attivamente alla scrittura, modifica, revisione o gestione del codice. Non coincide con il semplice suggerimento di frammenti di codice, perché implica un lavoro più ampio su repository, file, test, piani di modifica e pull request.

Agentic workflow. Flusso di lavoro nel quale uno o più agenti AI partecipano all’esecuzione di un processo. Il termine indica una sequenza organizzata di passaggi nei quali il modello non produce solo testo, ma opera dentro un ambiente di lavoro con obiettivi, strumenti e vincoli.

API. Interfaccia che consente a software diversi di comunicare tra loro. Nel contesto degli agenti AI, le API permettono al modello o al sistema agentico di accedere a strumenti esterni, servizi cloud, database, repository o funzioni operative.

Autonomia generale. Capacità ipotetica di un sistema AI di operare in modo ampio, flessibile e affidabile su molti domini senza supervisione costante.Gli agenti attuali non raggiungono questa soglia, pur mostrando una maggiore capacità di esecuzione rispetto ai chatbot tradizionali.

Benchmark. Test o insieme di test usati per valutare le prestazioni di un modello o di un sistema. I benchmark sono utili per confrontare capacità tecniche, ma non equivalgono automaticamente alla prova di affidabilità in ambienti reali.

Chatbot. Interfaccia conversazionale che risponde a input dell’utente generando testo, immagini, codice o altri output.

Codebase. Insieme dei file, moduli, librerie, configurazioni e dipendenze che compongono un progetto software. Gli agenti di coding diventano rilevanti quando riescono a lavorare su una codebase ampia, mantenendo coerenza tra parti diverse del progetto.

Coding agent. Agente AI specializzato in attività di sviluppo software. Può analizzare codice, proporre modifiche, correggere bug, generare test, lavorare su repository e preparare contributi da sottoporre alla revisione umana.

Contesto. Insieme delle informazioni che un modello usa per produrre una risposta o completare un task. Nel caso degli agenti, il contesto può includere prompt, file, documentazione, codice, cronologia delle azioni, risultati intermedi e vincoli operativi.

Delegazione asincrona. Modalità nella quale l’utente assegna un compito a un agente e non deve seguirlo passo per passo in tempo reale. L’agente lavora in autonomia limitata e restituisce successivamente un piano, una modifica, una proposta o un risultato verificabile.

Diff. Visualizzazione delle differenze tra una versione precedente e una nuova versione di un file o di un codice. Nei workflow di sviluppo, il diff permette al revisore umano di controllare precisamente che cosa l’agente ha modificato.

End-to-end. Espressione usata per indicare un processo seguito dall’inizio alla fine. Nel contesto degli agenti AI, descrive sistemi che non si limitano a un singolo passaggio, ma provano a coprire più fasi di un compito operativo.

Execution layer. Strato di esecuzione che collega l’intenzione dell’utente agli strumenti necessari per completare un compito. Nell’articolo indica il passaggio dell’AI da interfaccia che genera risposte a infrastruttura che entra nei processi.

Finestra di contesto. Quantità massima di informazione che un modello può considerare in una singola sessione, chat od operazione. Una finestra di contesto più ampia può aiutare il modello a lavorare su documenti, conversazioni o codebase più estese, ma non garantisce da sola qualità o affidabilità.

Framework. Struttura software che fornisce componenti, regole e strumenti per costruire applicazioni o sistemi. Nel caso degli agenti AI, un framework aiuta a definire ruoli, strumenti, memoria, orchestrazione, valutazione e deployment.

Frontier model. Modello AI collocato tra i sistemi più avanzati disponibili in un dato momento. Il termine va usato con cautela, perché indica una posizione relativa nello stato dell’arte, non una garanzia automatica di affidabilità in ogni contesto.

Governance AI. Insieme di regole, controlli, responsabilità, metriche e procedure con le quali un’organizzazione gestisce l’uso dell’intelligenza artificiale. Diventa essenziale quando i modelli non si limitano a generare risposte, ma possono accedere a strumenti, dati, processi e procedure.

Headless mode. Modalità di utilizzo di un software senza interfaccia grafica o conversazionale diretta. Nel contesto degli agenti, consente di integrare un modello o un agente dentro script, pipeline automatiche o processi tecnici.

Infrastruttura operativa. Insieme di sistemi, strumenti e processi che permettono ad una tecnologia di funzionare stabilmente in produzione. Nell’articolo il termine segnala che l’AI agentica non va letta solo come prodotto, ma come componente del lavoro digitale organizzato.

Latenza. Tempo che intercorre tra una richiesta e una risposta o tra l’avvio di un processo e il suo risultato. Nei sistemi agentici, ridurre la latenza è importante perché i task multi-step possono diventare costosi e lenti se ogni passaggio richiede troppo tempo.

Least privilege. Principio di sicurezza secondo il quale un sistema, un utente o un agente deve avere solo i permessi strettamente necessari per svolgere il proprio compito. È fondamentaleper gli agenti AI, perché più capacità operative implicano anche maggiori rischi se i permessi sono eccessivi.

Long-horizon task. Compito che richiede molti passaggi, mantenimento del contesto e capacità di correggere errori lungo il percorso. È una categoria importante per valutare gli agenti, perché misura la loro tenuta oltre la singola risposta immediata.

Macchina virtuale cloud. Ambiente di calcolo isolato, eseguito su infrastruttura cloud, nel quale un agente può lavorare su file, codice o repository senza operare direttamente sul computer dell’utente. Serve a separare l’esecuzione dal sistema locale e a rendere il lavoro più controllabile.

Modello. Componente AI addestrato per elaborare input e generare output. Va distinto dall’applicazione o dal prodotto finale: un modello può essere integrato dentro chatbot, agenti, strumenti di coding, piattaforme enterprise o workflow automatizzati.

Multi-agent system. Sistema composto da più agenti che collaborano, si dividono compiti o interagiscono per raggiungere un obiettivo. È rilevante quando un problema viene affrontato non da un solo modello, ma da più unità specializzate o coordinate.

Orchestrazione. Coordinamento di più passaggi, strumenti, agenti o sotto-compiti dentro un processo. Nei sistemi AI agentici, l’orchestrazione stabilisce chi fa cosa, in quale ordine, con quali dati e con quali controlli.

Pipeline. Sequenza strutturata di operazioni che trasforma un input in un risultato. In ambito AI può includere raccolta dati, elaborazione, chiamate a modelli, uso di strumenti, validazione, output e monitoraggio.

RecursiveMAS. Framework di ricerca per sistemi multi-agente ricorsivi. Nell’articolo è citato come esempio della direzione sperimentale verso la quale la collaborazione tra agenti viene trattata non solo come coordinamento esterno, ma come processo computazionale più integrato.

Repository. Archivio digitale che contiene codice, file, cronologia delle modifiche e strumenti di collaborazione di un progetto software. Gli agenti di coding diventano operativamente interessanti quando possono lavorare direttamente su repository reali.

Scaffold. Struttura di supporto che permette a un modello di agire in modo più organizzato. Può includere istruzioni, strumenti, memoria, procedure, controlli e logiche di pianificazione. Uno scaffold trasforma un modello isolato in parte di un sistema più operativo.

Sistema agentico. Architettura AI nella quale uno o più agenti operano con obiettivi, strumenti, passaggi intermedi e capacità di esecuzione. Il termine indica un livello più organizzato rispetto alla semplice interazione prompt-risposta.

Sistema operativo del lavoro cognitivo. Formula editoriale usata per descrivere il passaggio dell’AI da strumento di risposta a strato operativo che media tra intenzione umana, strumenti digitali e processi produttivi. Non va intesa come sistema operativo tecnico in senso stretto, ma come metafora controllata della nuova funzione dell’AI.

Superficie di attacco. Insieme dei punti attraverso cui un sistema può essere colpito, abusato o compromesso. Gli agenti AI possono ampliarla quando accedono a strumenti, dati, credenziali, repository o ambienti di produzione.

Task.Singolo compito assegnato ad un sistema, un modello o un agente. Può essere semplice, come riassumere un testo, oppure complesso, come correggere bug in una codebase, generare test e preparare una pull request.

Token. Unità di testo elaborata da un modello linguistico. Può corrispondere ad una parola, parte di una parola o segno. Il numero di token incide su costo, memoria di contesto, latenza e capacità del modello di gestire input lunghi.

Tool use. Capacità di un modello o agente di usare strumenti esterni, come motori di ricerca, terminali, API, database, repository o applicazioni. È una delle caratteristiche centrali del passaggio da chatbot ad agente operativo.

Workflow. Flusso di lavoro composto da fasi, decisioni, strumenti e responsabilità. L’AI agentica diventa rilevante quando riesce a inserirsi nei workflow esistenti, non solo quando produce risposte isolate.

Workflow produttivo. Processo organizzato che genera valore operativo dentro un contesto reale, come sviluppo software, analisi documentale, gestione ticket, compliance, sicurezza o back office. È il terreno su cui si misura la differenza tra promessa tecnologica e adozione concreta.