Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů

20. 3. 2024 | no-X | Hardware, Novinky, Grafiky

Zdroj: Nvidia

CEO Nvidie Jen-Hsun Huang podle očekávání na akci GTC 2024 ohlásil akcelerátory na bázi architektury Blackwell. Dostanou se do nových výšin výkonu, ale také příkonu…

Výpočetní řada produktů postavených na architektuře Blackwell je jiná. Oproti svým předchůdcům je v několika ohledech cítit změna přístupu Nvidie, která je nyní značně pragmatická a do jisté míry reflektuje, co ve svém výroku shrnul CEO Jen-Hsun Huang: I kdyby ostatní výrobci rozdávali AI akcelerátory zdarma, pro Nvidii nebudou konkurencí.

4nm proces

V první řadě může překvapit volba výrobního procesu. Zatímco v PC segmentu Nvidia volila spíše zaběhlé procesy TSMC, aby mohla výrobní kapacity těch nejnovějších věnovat akcelerátorům, kde má nejvyšší marže, tentokrát ke všeobecnému překvapení nedošlo na 3nm proces, ale na 4nm. Nvidia se tedy rozhodla nic neriskovat a zvolit proces, na kterém může TSMC dodávat ve velkých objemech a za nižší cenu. Nevýhodou bude vyšší spotřeba, ale Blackwell v době vydání nebude mít výkonnostní konkurenci, takže kdo bude chtít to nejvýkonnější, si zkrátka se spotřebou bude muset poradit.

Podrobněji k procesu: 4NP, velká neznámá

Zajímavá není jen volba samotné generace procesu, ale i jeho konkrétní varianta. Ta je označována jako 4NP (neplést s N4P) a má jít o verzi na míru vyvinutou pro Nvidii. Což byla i 4N (neplést s N4) využitá pro minulou generaci, Hopper). Různé weby se snaží proces 4NP nějak obecně okomentovat (např. že má být výkonnější ap.), ale Nvidia žádné informace oficiální cestou nezveřejnila. Neoficiálně ale o 4NP prosakují obdobné zprávy, jaké k příležitosti prvních zmínek o 4N uvedl leaker kopite7kimi. 4N a 4NP nejsou deriváty standardních procesů N4 a N4P, ale vývojově má jít o větev vzešlou přímo z 5nm procesu (N5 a N5P), která je silně optimalizována pro denzitu i na úkor dosažitelných frekvencí. Což dává podstatně větší smysl: Nvidia potřebovala na dostupnou plochu křemíku dostat možné maximum tranzistorů.

Plocha a čiplety / moduly

Pouzdro nese dva symetrické funkční kusy křemíku, kdy každý dosahuje maximální plochy, jakou dokáže TSMC vyrobit (reticle limit). Přesnější čísla Nvidia nesdělila, ale s jistotou se pohybujeme nad 800 mm² (pro každý kus křemíku) a pravděpodobně ne výš než kolem 850mm². S ohledem na symetrické rozdělení by asi bylo vhodnější označovat tyto kusy křemíku jako moduly než čiplety, ale použít lze pravděpodobně oba termíny.

Zachování maximálního limitu ukazuje na proslýchanou neochotu Nvidie dělit křemík na čiplety ve smyslu vyššího počtu menších kusů křemíku, který by zvýšil výtěžnost výroby a umožnil skládat čip z plně aktivních kousků křemíku. Nvidia zjevně razí jinou filozofii: Nemusí (tolik) řešit propojení a případné další problémy, na které by narazila při rozdělení na menší kousky křemíku, přičemž při současné poptávce a výši snadno (a výhodně) udá i kusy, které nejsou plně funkční.

Sběrnice, paměti HBM3e

Každý kus křemíku je vybaven 4096bit sběrnicí pro čtyři moduly HBM3e, takže celý čip disponuje 8192bit sběrnicí a osmi moduly HBM3e. Pro výkonnější variantu B200 (která by krom 192GB varianty měla později nabídnout i 288GB konfiguraci) uvádí Nvidia datovou propustnost 8 TB/s (tedy méně než 10 TB/s odpovídajícím specifikaci HBM3e při této šíři sběrnice), takže buďto paměti poběží na nižším taktu, nebo nebude sběrnice fyzicky využita v plné šíři.

	Nvidia A100		Nvidia H100		Nvidia B100	Nvidia B200
GPU	GA100		GH100		GB100(?)
architektura	Ampere		Hopper		Blackwell
formát	SXM4		SXM5	PCIe	SXM
CU/SM	108		132	114	?	?
FP32 jader	6912		15872 16896	14592	?	?
FP64 jader	3456		8448	7296	?	?
INT32 jader	6912		8448	7296	?	?
Tensor Cores	432		528	456	?	?
takt	1410 MHz		1980 MHz	1750 MHz	?	?
	↓↓↓ T(FL)OPS ↓↓↓
FP16	78		120 134	102	?	?
BF16	39		120 134	102	?	?
FP32	19,5		60 67	51	?	?
FP64	9,7		30 34	26	?	?
INT4	?		?	?	?	?
INT8	?		?	?	?	?
INT16	?		?	?	?	?
INT32	19,5		30 34	26	?	?
FP4 tensor					7/14 P	9/18 P
FP6 tensor					3,5/7 P	4,5/9 P
FP8 tensor			1979/3958*	1513/3026*	3,5/7 P	4,5/9 P
FP16 tensor	312/624*		989/1979*	757/1513*	1,8/3,5 P	2,3/4,5 P
BF16 tensor	312/624*		989/1979*	757/1513*	?	?
FP32 tensor	19,5		60? 67?	51?	?	?
TF32 tensor	156/312*		495/989*	378/757*	0,9/1,8 P	1,1/2,3 P
FP64 tensor	19,5		67	51	30	40
INT8 tensor	624/1248*		1979/3958*	1513/3026*	3,5/7 P	4,5/9 P
INT4 tensor	1248/2496*		?	?	?	?
	↑↑↑ T(FL)OPS ↑↑↑
TMU	432		528	456	?	?
LLC	40 MB		50 MB		?	?
sběrnice	5120bit		5120bit		?	8192bit
paměť	40 GB	80 GB	80 GB		192 GB	192 GB (288 GB)
HBM	2,43 GHz	3,2 GHz	HBM3 5,23 GHz	HBM2E 3,2 GHz	HBM3E	HBM3E
pam. prop.	1555 GB/s	2048 GB/s	3350 GB/s	2048 GB/s	?	8 TB/s
TDP	400 W		700-800 W	350 W	700W	1000W
transistorů	54,2 mld.		80 mld.		208 mld.
plocha GPU	826 mm²		814 mm²		2× >800 mm²
proces	7 nm		4nm (4N)		4nm (4NP)
datum	5. 2020	11. 2020	2022		2024	?

*vyšší hodnoty platí pro tzv. sparse výpočty
P = P(FL)OPS

Výkon: o 75 % vyšší i krok zpět

Nvidia zatím zveřejnila jen fragmenty specifikací, takže nemůžeme mezigeneračně porovnávat všechny hodnoty. K dispozici jsou pouze údaje pro tenzorové výpočty a pouze pro přesnosti FP4/6/8/16, TF32 a FP64. Ostatní zatím nejsou známé. Většina hodnot mezigeneračně (B100 vůči H100) narostla asi o 3/4, ale v případě FP64 výpočtů výkon mezigeneračně podstatně klesl z 67 na 30 TFLOPS, tj. na zhruba 45 %. Jde patrně opět o důsledek pragmatického rozhodnutí: Tak vysokou přesnost využívá menší část potenciálních zákazníků, takže musela ustoupit, aby tranzistory zde ušetřené mohly být věnovány důležitějším účelům.

TDP od 700 do 2700 wattů

Informace zveřejněné Gigabytem již připravily značnou část obecenstva na skutečnost, že B200 přijde s 1000W TDP. Základní B100 si ponechala 700W TDP. Tím však nabídka nekončí. V přípravě je totiž i řešení nazvané Nvidia GB200, které nese 2× B200 (tzn. čtyři kusy křemíku) plus CPU Grace. Toto řešení má TDP nastavené na až 2700 wattů. Není to ještě tak dávno, co výpočetní moduly od Nvidie (generace Volta) měly 250W TDP. S Nvidia GB200 se posouváme o celý řád výše.

Nvidia zatím nezmínila žádné konkrétní datum vydání. Očekává se, že minimálně Nvidia B100 se na trhu objeví letos. Alespoň podle starších zpráv se Nvidia B200 s 288GB paměti chystá na rok 2025, ale Jen-Hsun Huang prezentoval pouze 192GB konfiguraci, takže lze připustit (respektive nelze vyvrátit ani potvrdit), že se i B200 objeví ještě letos.

Tagy:

GB100, Blackwell, HBM3, 4nm, Nvidia

Zdroje:

Tom'sHardware, Anandtech

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů

Čtvrtek, 21 Březen 2024 - 11:28 | Ladis | To jsou úplně jiné "grafiky" (CDNA vs....

Čtvrtek, 21 Březen 2024 - 11:26 | melkor | Nějaké eXperience a RTX remix nemá u...

Čtvrtek, 21 Březen 2024 - 06:30 | Ladis | Ale AMD má výkonější čipy dlouhodobě a zatím to k...

Čtvrtek, 21 Březen 2024 - 06:29 | FyBy | To, že prodají vše neznamená, že nemají...

Čtvrtek, 21 Březen 2024 - 00:07 | RedMaX | Uvidíme, za mě jsou nízké prodeje grafik od AMD...

Středa, 20 Březen 2024 - 17:59 | Kutil | S hodnocením bych si počkal až na hotové, zatím...

Středa, 20 Březen 2024 - 17:55 | Kutil | Tak se vrátí k přímému chlazení kapalinou, jak už...

Středa, 20 Březen 2024 - 14:40 | Ladis | Ten FP4/INT4 jsou už asi jen takový marketing...

Středa, 20 Březen 2024 - 14:37 | Ladis | Člověk si to může představit, že si kupuje ne...

Středa, 20 Březen 2024 - 12:49 | JirkaK | Pomer spotřeba vykon se tu zlepsuje porad. Vykon...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů

4nm proces

Podrobněji k procesu: 4NP, velká neznámá

Plocha a čiplety / moduly

Sběrnice, paměti HBM3e

Výkon: o 75 % vyšší i krok zpět

TDP od 700 do 2700 wattů

Jiří "no-X" Souček

Diskuse ke článku Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů

Komerční sdělení

CDR Hry

Genetické stopy viru ptačí chřipky byly nalezeny i v pasterizovaném mléce

Epic rozdává zdarma dvě hry. Potěší hráče stříleček a RPG her

Rozvojové země jsou hřiště pro hackery

Sociální síť Threads už má 150 milionů uživatelů

Robopes s plamenometem může být váš za pakatel

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT