Maia 200: il nuovo acceleratore AI di Microsoft pensato per l'inferenza

Microsoft presenta Maia 200, il suo chip AI di nuova generazione progettato specificamente per l'inferenza, con prestazioni elevate, maggiore efficienza per token e un'integrazione profonda con Azure.

Microsoft ha annunciato Maia 200, un acceleratore AI sviluppato internamente e progettato fin dall’inizio per i carichi di lavoro di inferenza, cioè la fase in cui i modelli generano risposte, testi e output in tempo reale. L'obiettivo è ridurre drasticamente i costi e aumentare l'efficienza nella generazione dei token, un aspetto cruciale per l'AI su larga scala.

Il chip è realizzato con processo produttivo a 3 nm di TSMC e integra oltre 140 miliardi di transistor, insieme a 216 GB di memoria HBM3e ad alta larghezza di banda e 272 MB di SRAM on-chip, permettendo di alimentare modelli di grandi dimensioni con latenze ridotte e un utilizzo più efficiente delle risorse.

Maia 200 fa parte della nostra infrastruttura di intelligenza artificiale eterogenea e supporterà diversi modelli, inclusi i più recenti modelli GPT-5.2 di OpenAI, offrendo un vantaggio in termini di prestazioni per dollaro a Microsoft Foundry e Microsoft 365 Copilot. Il team di Microsoft Superintelligence utilizzerà Maia 200 per la generazione di dati sintetici e l'apprendimento per rinforzo, al fine di migliorare i modelli interni di prossima generazione. Per i casi d'uso di pipeline di dati sintetici, il design esclusivo di Maia 200 contribuisce ad accelerare la velocità con cui dati di alta qualità e specifici per dominio possono essere generati e filtrati, alimentando l'addestramento a valle con segnali più aggiornati e mirati.

Dal punto di vista delle prestazioni, Maia 200 raggiunge oltre 10 petaFLOPS in FP4 e 5 petaFLOPS in FP8, posizionandosi come uno dei chip di inferenza più potenti mai sviluppati da un hyperscaler. Microsoft sottolinea come il nuovo acceleratore superi nettamente le soluzioni concorrenti di Amazon e Google in specifici carichi di lavoro.

Maia 200 è una vera e propria centrale di potenza per l'inferenza AI, progettata per migliorare in modo drastico l'economia della generazione dei token.
Questo rende Maia 200 il silicio proprietario più performante mai realizzato da un hyperscaler, con prestazioni FP4 tre volte superiori e prestazioni FP8 superiori rispetto alla settima generazione di TPU di Google.
Maia 200 è anche il sistema di inferenza più efficiente mai distribuito da Microsoft, con un miglioramento del 30% nelle prestazioni per dollaro rispetto all'hardware di ultima generazione attualmente presente nella nostra infrastruttura.

Maia 200 è già operativo nei data center Azure negli Stati Uniti, dove alimenta servizi AI reali, e verrà progressivamente distribuito in altre regioni. Parallelamente, Microsoft ha rilasciato una preview del Maia SDK, con supporto a PyTorch, Triton e strumenti pensati per facilitare il porting e l'ottimizzazione dei modelli.

Per saperne di più, l'annuncio di Microsoft è qui.

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

Maia 200: il nuovo acceleratore AI di Microsoft pensato per l'inferenza

Microsoft presenta Maia 200, il suo chip AI di nuova generazione progettato specificamente per l'inferenza, con prestazioni elevate, maggiore efficienza per token e un'integrazione profonda con Azure.

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

{{posts[4].title}}

{{posts[5].title}}

Chi siamo

Resta connesso

Contattaci

Modulo di contatto

Argomenti

Archivio