Diit.cz - Novinky a informace o hardware, software a internetu

Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů

Zdroj: Nvidia

CEO Nvidie Jen-Hsun Huang podle očekávání na akci GTC 2024 ohlásil akcelerátory na bázi architektury Blackwell. Dostanou se do nových výšin výkonu, ale také příkonu…

Výpočetní řada produktů postavených na architektuře Blackwell je jiná. Oproti svým předchůdcům je v několika ohledech cítit změna přístupu Nvidie, která je nyní značně pragmatická a do jisté míry reflektuje, co ve svém výroku shrnul CEO Jen-Hsun Huang: I kdyby ostatní výrobci rozdávali AI akcelerátory zdarma, pro Nvidii nebudou konkurencí.

4nm proces

V první řadě může překvapit volba výrobního procesu. Zatímco v PC segmentu Nvidia volila spíše zaběhlé procesy TSMC, aby mohla výrobní kapacity těch nejnovějších věnovat akcelerátorům, kde má nejvyšší marže, tentokrát ke všeobecnému překvapení nedošlo na 3nm proces, ale na 4nm. Nvidia se tedy rozhodla nic neriskovat a zvolit proces, na kterém může TSMC dodávat ve velkých objemech a za nižší cenu. Nevýhodou bude vyšší spotřeba, ale Blackwell v době vydání nebude mít výkonnostní konkurenci, takže kdo bude chtít to nejvýkonnější, si zkrátka se spotřebou bude muset poradit.

Podrobněji k procesu: 4NP, velká neznámá

Zajímavá není jen volba samotné generace procesu, ale i jeho konkrétní varianta. Ta je označována jako 4NP (neplést s N4P) a má jít o verzi na míru vyvinutou pro Nvidii. Což byla i 4N (neplést s N4) využitá pro minulou generaci, Hopper). Různé weby se snaží proces 4NP nějak obecně okomentovat (např. že má být výkonnější ap.), ale Nvidia žádné informace oficiální cestou nezveřejnila. Neoficiálně ale o 4NP prosakují obdobné zprávy, jaké k příležitosti prvních zmínek o 4N uvedl leaker kopite7kimi. 4N a 4NP nejsou deriváty standardních procesů N4 a N4P, ale vývojově má jít o větev vzešlou přímo z 5nm procesu (N5 a N5P), která je silně optimalizována pro denzitu i na úkor dosažitelných frekvencí. Což dává podstatně větší smysl: Nvidia potřebovala na dostupnou plochu křemíku dostat možné maximum tranzistorů.

Plocha a čiplety / moduly

Pouzdro nese dva symetrické funkční kusy křemíku, kdy každý dosahuje maximální plochy, jakou dokáže TSMC vyrobit (reticle limit). Přesnější čísla Nvidia nesdělila, ale s jistotou se pohybujeme nad 800 mm² (pro každý kus křemíku) a pravděpodobně ne výš než kolem 850mm². S ohledem na symetrické rozdělení by asi bylo vhodnější označovat tyto kusy křemíku jako moduly než čiplety, ale použít lze pravděpodobně oba termíny.

Zachování maximálního limitu ukazuje na proslýchanou neochotu Nvidie dělit křemík na čiplety ve smyslu vyššího počtu menších kusů křemíku, který by zvýšil výtěžnost výroby a umožnil skládat čip z plně aktivních kousků křemíku. Nvidia zjevně razí jinou filozofii: Nemusí (tolik) řešit propojení a případné další problémy, na které by narazila při rozdělení na menší kousky křemíku, přičemž při současné poptávce a výši snadno (a výhodně) udá i kusy, které nejsou plně funkční.

Sběrnice, paměti HBM3e

Každý kus křemíku je vybaven 4096bit sběrnicí pro čtyři moduly HBM3e, takže celý čip disponuje 8192bit sběrnicí a osmi moduly HBM3e. Pro výkonnější variantu B200 (která by krom 192GB varianty měla později nabídnout i 288GB konfiguraci) uvádí Nvidia datovou propustnost 8 TB/s (tedy méně než 10 TB/s odpovídajícím specifikaci HBM3e při této šíři sběrnice), takže buďto paměti poběží na nižším taktu, nebo nebude sběrnice fyzicky využita v plné šíři.

 Nvidia A100Nvidia
H100
Nvidia
B100
Nvidia
B200
GPUGA100GH100GB100(?)
architekturaAmpereHopperBlackwell
formátSXM4SXM5PCIeSXM
CU/SM108132114??
FP32 jader691215872
16896
14592??
FP64 jader345684487296??
INT32 jader691284487296??
Tensor Cores432528456??
takt1410 MHz1980 MHz1750 MHz??
 ↓↓↓ T(FL)OPS ↓↓↓
FP16
78120 134102??
BF16
39120 134102??
FP32
19,560 6751??
FP64
9,730 3426??
INT4
?????
INT8?????
INT16?????
INT3219,530 3426??
FP4 tensor7/14 P9/18 P
FP6 tensor3,5/7 P4,5/9 P
FP8 tensor1979/3958*1513/3026*3,5/7 P4,5/9 P
FP16 tensor312/624*
989/1979*757/1513*1,8/3,5 P2,3/4,5 P
BF16 tensor312/624*
989/1979*757/1513*??
FP32 tensor19,560? 67?51???
TF32 tensor
156/312*
495/989*378/757*0,9/1,8 P1,1/2,3 P
FP64 tensor
19,567513040
INT8 tensor
624/1248*
1979/3958*1513/3026*3,5/7 P4,5/9 P
INT4 tensor
1248/2496*
????
 ↑↑↑ T(FL)OPS ↑↑↑
TMU432528 456??
LLC40 MB50 MB??
sběrnice5120bit5120bit?8192bit
paměť40 GB80 GB80 GB192 GB192 GB
(288 GB)
HBM2,43 GHz3,2 GHzHBM3
5,23 GHz
HBM2E
3,2 GHz
HBM3EHBM3E
pam. prop.1555 GB/s2048 GB/s3350 GB/s 2048 GB/s?8 TB/s
TDP400 W700-800 W 350 W700W1000W
transistorů54,2 mld.80 mld.208 mld.
plocha GPU826 mm²814 mm²2× >800 mm²
proces7 nm4nm (4N)4nm (4NP)
datum5. 202011. 202020222024?

*vyšší hodnoty platí pro tzv. sparse výpočty
P = P(FL)OPS

Výkon: o 75 % vyšší i krok zpět

Nvidia zatím zveřejnila jen fragmenty specifikací, takže nemůžeme mezigeneračně porovnávat všechny hodnoty. K dispozici jsou pouze údaje pro tenzorové výpočty a pouze pro přesnosti FP4/6/8/16, TF32 a FP64. Ostatní zatím nejsou známé. Většina hodnot mezigeneračně (B100 vůči H100) narostla asi o 3/4, ale v případě FP64 výpočtů výkon mezigeneračně podstatně klesl z 67 na 30 TFLOPS, tj. na zhruba 45 %. Jde patrně opět o důsledek pragmatického rozhodnutí: Tak vysokou přesnost využívá menší část potenciálních zákazníků, takže musela ustoupit, aby tranzistory zde ušetřené mohly být věnovány důležitějším účelům.

TDP od 700 do 2700 wattů

Informace zveřejněné Gigabytem již připravily značnou část obecenstva na skutečnost, že B200 přijde s 1000W TDP. Základní B100 si ponechala 700W TDP. Tím však nabídka nekončí. V přípravě je totiž i řešení nazvané Nvidia GB200, které nese 2× B200 (tzn. čtyři kusy křemíku) plus CPU Grace. Toto řešení má TDP nastavené na až 2700 wattů. Není to ještě tak dávno, co výpočetní moduly od Nvidie (generace Volta) měly 250W TDP. S Nvidia GB200 se posouváme o celý řád výše.

Nvidia zatím nezmínila žádné konkrétní datum vydání. Očekává se, že minimálně Nvidia B100 se na trhu objeví letos. Alespoň podle starších zpráv se Nvidia B200 s 288GB paměti chystá na rok 2025, ale Jen-Hsun Huang prezentoval pouze 192GB konfiguraci, takže lze připustit (respektive nelze vyvrátit ani potvrdit), že se i B200 objeví ještě letos.

Diskuse ke článku Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů

Čtvrtek, 21 Březen 2024 - 11:28 | Ladis | To jsou úplně jiné "grafiky" (CDNA vs....
Čtvrtek, 21 Březen 2024 - 11:26 | melkor | Nějaké eXperience a RTX remix nemá u...
Čtvrtek, 21 Březen 2024 - 06:30 | Ladis | Ale AMD má výkonější čipy dlouhodobě a zatím to k...
Čtvrtek, 21 Březen 2024 - 06:29 | FyBy | To, že prodají vše neznamená, že nemají...
Čtvrtek, 21 Březen 2024 - 00:07 | RedMaX | Uvidíme, za mě jsou nízké prodeje grafik od AMD...
Středa, 20 Březen 2024 - 17:59 | Kutil | S hodnocením bych si počkal až na hotové, zatím...
Středa, 20 Březen 2024 - 17:55 | Kutil | Tak se vrátí k přímému chlazení kapalinou, jak už...
Středa, 20 Březen 2024 - 14:40 | Ladis | Ten FP4/INT4 jsou už asi jen takový marketing...
Středa, 20 Březen 2024 - 14:37 | Ladis | Člověk si to může představit, že si kupuje ne...
Středa, 20 Březen 2024 - 12:49 | JirkaK | Pomer spotřeba vykon se tu zlepsuje porad. Vykon...

Zobrazit diskusi