AMDInstinctIntelligenza Artificiale

Instinct MI350 e architettura CDNA 4: la ricetta di AMD per l'IA

di pubblicata il , alle 08:31 nel canale Device Instinct MI350 e architettura CDNA 4: la ricetta di AMD per l'IA

Le nuove GPU della famiglia Instinct MI350 che AMD ha annunciato al proprio evento Advancing AI 2025 implementano specifiche ottimizzazioni che migliorano efficienza e potenza con gli ambiti di Intelligenza Artificiale

 

In occasione dell'evento Advancing AI 2025 tenutosi a San Jose in questi giorni, AMD ha annunciato le nuove GPU specificamente dedicate alle elaboraizoni di intelligenza artificiale. Parliamo delle proposte della famiglia Instinct MI350, con i due modelli Instinct MI350X e Instinct MI355X. Per entrambi il cuore è l'architettura CDNA 4, specificamente sviluppata da AMD a partire da quella di precedente generazione CDNA 3 implementando però varie novità legate al migliorare l'efficienza in ambito IA.

La più importante novità è legata al supporto nativo ai datapath FP4 e FP6, a inferiore precisione rispetto a quelli FP8 e superiori ma che sempre più stanno venendo utilizzati per le elaborazioni di intelligenza artificiale. Il trend generale del settore vede infatti un progressivo spostamento verso questo tipo di elaborazioni, in grado di fornire un livello di precisione nei risultati ritenuto mediamente accettabile per la maggior parte degli utilizzi a fronte di un beneficio in termini di velocità di elaborazione.

AMD ha adottato la stessa struttura di packaging di Instinct MI325 anche nelle nuove GPU Instinct MI350: si tratta di un approccio molto complesso, che prevede uno stacking 3D dei complex die (XCD) che contengono le logiche di elaborazione, costruiti con processo N3P a 3 nanometri, montati sopra l'I/O base die (IOD) che è a sua volta costruito con processo N6 a 6 nanometri. L'integrazione tra IOD-IOD e la memoria HBM3E è ottenuta con uno stacking di tipo 2,5D; i due IOD dies sono collegati attraverso Infinity Fabric, con una banda bidirezionale di 5,5TB/s.

Ogni I/O Die vede montati 4 Accelerator Complex Die (XCD), ciascuno dotato di 32 Compute Units: il numero totale per ogni chip MI350 è quindi pari a 256, in quanto sono presenti in totale 8 XCD in raggruppamenti di 4 per ogni IOD. Ogni IOD ha un'interfaccia di collegamento con la memoria HBM3E a 128 canali, con 256 Mbytes di Infinity Cache e link Infinity Fabric di quarta generazione, capaci di una bandwidth di 1.075 GB/s ciascuno. La memoria HBM3E è montata su 8 stack fisici, ciascuno da 36GB di capacità per un totale di 288GB a disposizione della GPU.

Lo schema a blocchi di ogni XCD evidenzia la presenza di 32 compute units attive per ciascuno, con altre 4 qui rappresentate di colore grigio che sono presenti ma non attive. In questo modo, cosa che del resto avviene abitualmente anche con altre architetture di GPU e CPU, AMD ha spazio per poter riutilizzare dei chip qualora questi presentino dei problemi di resa produttiva con alcune CU che non sono funzionanti.

Ogni XCD è abbinato a 4MB di cache L2, per un totale di 32MB complessivament epresenti nella GPU. Infinity Fabric è posta quale interfaccia di collegamento tra le XCD e Infinity Cache, che come detto è presente in quantitativo di 256MB totali ma segmentata in partizioni da 2MB ciascuna. Questa memoria cache si posiziona poi quale interfaccia tra le unità di elaborazione e gli 8 moduli di memoria HBM3E, ciascuno dalla capacità di 32GB.

AMD ha implementato differenti opzioni per la partizione del chip al proprio interno, così da ottimizzare l'utilizzo della GPU in funzione del tipo di elaborazione che viene eseguita. Da una singola partizione è possibile passare a segmentazioni a 2, 4 oppure 8 partizioni con il fine ultimo di aumentare il throughput senza però che questo abbia ripercussioni sulla potenza complessiva.

Per Instinct MI350X AMD ha indicato un TBP, Total Board Power, che può raggiungere i 1.000 Watt mentre per la soluzione Instinct MI355X tale valore si spinge sino a 1.400 Watt. Le due GPU sono identiche quanto a caratteristiche tecniche, con la seconda che opera ad una frequenza di clock superiore sia come dato di picco sia come valore medio sostenuto nel tempo in virtù dell'abbinamento ad un sistema di raffreddamento a liquido contro quello ad aria adottato per Instinct MI350X.

AMD dichiara dati di picco, in termini di Teraflops ai differenti livelli di precisione, che sono superio di di poco meno del 10% per Instinct MI355X rispetto all'altra scheda. In condizioni di funzionamento pratico, tuttavia, il divario prestazionale tra le due GPU è mediamente più vicino al 20% proprio in virtù della capacità di Instinct MI355X, grazie al raffreddamento a liquido, di meglio sostenere nel tempo frequenze di clock elevate.

2 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
uzzy13 Giugno 2025, 09:07 #1

Ottimo articolo

Grazie, articolo molto dettagliato e ben fatto.
supertigrotto13 Giugno 2025, 11:31 #2
IBM aveva ragione,non servono grandi architetture per la IA ma architetture parallele che elaborano piccoli dati e piccole istruzioni.
Il primo esperimento lo hanno fatto anni fa con un 6800 leggermente modificato.
Nvidia gli FP4 e superiori se non sbaglio,sono integrati anche nelle schede video consumer

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
^