Google presenta Virgo per l’Ai su Megascala

Il Fatto

Google, nel quadro delle novità presentate a Google Cloud Next ’26, ha annunciato Virgo Network. Si tratta di un fabric di rete progettato per collegare su larga scala acceleratori destinati all’addestramento e all’esecuzione di modelli di intelligenza artificiale. Secondo l’azienda, Virgo consente di connettere fino a 134.000 TPU 8t in un singolo data center, con una banda bisezionale non bloccante fino a 47 petabit al secondo, e di estendere il training distribuito a oltre un milione di TPU su più siti. L’architettura separa il traffico interno ai pod, la comunicazione est-ovest tra acceleratori e l’accesso front-end alla rete Jupiter per storage e calcolo general purpose, con l’obiettivo di ridurre colli di bottiglia e propagazione dei guasti. Google dichiara inoltre una banda per acceleratore fino a quattro volte superiore rispetto alla generazione precedente e una riduzione del 40% della latenza unloaded per le TPU. Questi dati sono confermati come dichiarazioni ufficiali Google e ripresi da testate tecniche, ma restano claim aziendali: non risultano, al momento, benchmark indipendenti pubblici che ne verifichino le prestazioni su carichi reali.

Perché è importante

Virgo segnala che la competizione sull’AI avanzata non riguarda più soltanto i modelli o i singoli chip, ma l’intera infrastruttura fisica necessaria a farli funzionare in modo efficiente. La rete diventa un fattore strategico perché l’addestramento distribuito richiede sincronizzazione costante tra migliaia di acceleratori: anche piccoli ritardi possono degradare prestazioni, costi e tempi di sviluppo. Per Google, l’annuncio rafforza la proposta di un cloud AI full-stack, alternativo alla dipendenza esclusiva da GPU di terze parti, pur mantenendo il supporto a configurazioni Nvidia.

Per il mercato, l’effetto potenziale è duplice: maggiore pressione competitiva sui fornitori di infrastruttura AI e crescente concentrazione delle capacità di calcolo presso pochi operatori con risorse finanziarie, energetiche e ingegneristiche sufficienti a sostenere reti di questa scala. Le implicazioni operative dipenderanno da disponibilità effettiva, costi, regioni supportate e risultati misurabili su carichi reali.

TAKE AWAY

Un fabric di rete è un’architettura che collega molti nodi di calcolo come se fossero parte di un unico sistema coordinato. Nei data center AI serve a far comunicare rapidamente gli acceleratori, riducendo latenza, congestione e punti di failure.

Fonti

Fonti ufficiali

Introducing Virgo Network: megascale AI data center fabric

AI infrastructure at Next ’26

TPU 8t and TPU 8i technical deep dive

Google Cloud Next ’26: infrastructure and cloud announcements

FactCheck.org — Our Mission

Agenzie/stampa

Google Bolsters AI Hypercomputer with New TPU Chips, Virgo Interconnect, Speedier Lustre

Google unveils Virgo Network for next-gen AI workloads

Google unveils eighth-generation TPUs, two dedicated training and inference chips

Approfondimenti economici

Google doesn’t pay the Nvidia tax — its new TPUs explain why

Arista Networks Stock Could Get Boost From Google’s New Virgo AI Data Center Network

Glossario

Acceleratore AI: chip specializzato, come TPU o GPU, progettato per eseguire in modo efficiente calcoli intensivi usati nell’intelligenza artificiale.

AI Hypercomputer: nome usato da Google per indicare la propria infrastruttura integrata per l’AI, composta da chip, rete, storage, software e servizi cloud.

Banda bisezionale: misura della capacità di comunicazione tra due metà di una rete; indica quanta informazione può attraversare simultaneamente il sistema senza creare colli di bottiglia.

Benchmark indipendente: test prestazionale condotto da soggetti terzi, non dal produttore, utile per verificare in modo più neutrale le dichiarazioni tecniche.

Claim aziendale: dichiarazione fatta da un’azienda sui propri prodotti o servizi, da considerare attendibile come fonte primaria ma non equivalente a una verifica indipendente.

Cluster AI: insieme di server, acceleratori e reti configurati per lavorare come un’unica infrastruttura di calcolo dedicata all’intelligenza artificiale.

Collo di bottiglia: punto dell’infrastruttura che limita le prestazioni complessive perché non riesce a gestire il volume di dati o richieste in transito.

Fabric di rete: architettura che collega molti nodi di calcolo come se fossero parte di un unico sistema coordinato, permettendo comunicazioni rapide e distribuite.

Hyperscaler: grande operatore cloud, come Google, Amazon o Microsoft, capace di gestire data center e infrastrutture digitali su scala globale.

Inference: fase in cui un modello AI già addestrato viene usato per generare risposte, classificazioni, previsioni o altri output.

Jupiter: rete interna di Google usata nei data center per collegare servizi, storage e calcolo general purpose.

Latenza unloaded: tempo di risposta di una rete quando non è sotto carico significativo; serve a misurare la rapidità di base della comunicazione.

Petabit al secondo: unità di misura della velocità di trasmissione dati; un petabit equivale a mille terabit.

Pod: gruppo di acceleratori o server organizzati come unità logica all’interno di un’infrastruttura di calcolo più ampia.

Propagazione dei guasti: diffusione degli effetti di un malfunzionamento da una parte dell’infrastruttura ad altre componenti collegate.

Rete non bloccante: rete progettata per consentire comunicazioni simultanee tra molti nodi senza che il traffico di alcuni impedisca o rallenti quello di altri.

TPU: Tensor Processing Unit, chip progettato da Google per accelerare carichi di lavoro di machine learning e intelligenza artificiale.

TPU 8t: generazione di TPU Google orientata soprattutto al training, cioè all’addestramento di modelli AI su larga scala.

Traffico est-ovest: comunicazione interna tra server, acceleratori o nodi dello stesso data center, tipica dei carichi AI distribuiti.

Traffico north-south: comunicazione tra l’infrastruttura interna e servizi esterni o front-end, per esempio accesso a storage, utenti o applicazioni.

Training distribuito: tecnica che suddivide l’addestramento di un modello AI tra molti acceleratori collegati tra loro, così da ridurre i tempi di calcolo.