Google ha svelato la prossima generazione dei suoi Tensor Processing Unit (TPU), i chip proprietari che alimentano gran parte dei suoi servizi di intelligenza artificiale. A differenza delle iterazioni passate, questa volta l’azienda ha scelto di dividere le forze: due chip distinti, ciascuno ottimizzato per una specifica fase del ciclo di vita di un modello AI.
TPU 8t: il chip per l’addestramento
Il primo dei due è il TPU 8t, pensato per l’addestramento dei modelli di intelligenza artificiale. L’obiettivo dichiarato è quello di ridurre drasticamente i tempi di training, passando dai tradizionali mesi a poche settimane. Per riuscirci, Google punta su una scalabilità enorme: un singolo cluster può arrivare a ospitare fino a 9.600 chip con circa 2 petabyte di memoria condivisa.
Teoricamente, la scalabilità può raggiungere il milione di chip, numeri che pongono questo TPU tra le infrastrutture di calcolo più ambiziose al mondo. A rendere il tutto più efficiente intervengono anche ottimizzazioni sull’accesso alla memoria e sistemi di gestione automatica dei guasti.
TPU 8i: ottimizzato per l’inferenza
Il fratello minore è il TPU 8i, dedicato invece all’inferenza, ovvero all’esecuzione dei modelli già addestrati per rispondere alle richieste degli utenti. Qui le priorità cambiano: conta il consumo energetico e la velocità di risposta. Il TPU 8i dispone di una memoria on-chip molto più ampia rispetto alle generazioni precedenti, con vantaggi significativi nella gestione di contesti lunghi e di più agenti AI attivi in parallelo.
Arriva una CPU ARM proprietaria di Google
Un altro tassello importante della nuova generazione riguarda l’uso, in questa famiglia di TPU, di CPU ARM sviluppate da Google. Una scelta che permette di massimizzare l’efficienza complessiva delle macchine, sfruttando un ecosistema software allineato alle esigenze dell’AI su larga scala.
A livello di data center, l’azienda ha introdotto nuove ottimizzazioni per quanto riguarda rete, disposizione dei rack e raffreddamento liquido adattivo. Il risultato dichiarato è un aumento della capacità di calcolo per watt di fino a 6 volte rispetto alla generazione precedente.
Meno consumi e miglior raffreddamento
Uno dei temi più dibattuti dell’intelligenza artificiale è proprio il consumo energetico. Sui nuovi TPU, Google dichiara un raddoppio delle prestazioni per watt rispetto al passato, e il nuovo sistema di raffreddamento liquido è in grado di modulare il flusso in base al carico di lavoro, rendendo più efficienti anche i momenti di picco.
Una strategia sempre più indipendente
Mentre gran parte del mercato resta dipendente dalle soluzioni NVIDIA, Google continua a percorrere la propria strada con i TPU, utilizzandoli per alimentare Gemini e offrendoli come piattaforma anche agli sviluppatori esterni attraverso Google Cloud.
L’annuncio conferma come l’ottimizzazione dell’hardware AI sia sempre più un campo di battaglia strategico. Per gli utenti finali, questa evoluzione significa modelli più rapidi, risposte più immediate e, potenzialmente, costi più contenuti per i servizi AI del futuro.
