Mae cwmni sglodion dan arweiniad Jim Keller, Tenstorrent, wedi rhyddhau ei brosesydd Wormhole cenhedlaeth nesaf ar gyfer llwythi gwaith AI, y mae'n disgwyl iddo gynnig perfformiad da am bris fforddiadwy.Ar hyn o bryd mae'r cwmni'n cynnig dau gerdyn PCIe ychwanegol a all gynnwys un neu ddau o broseswyr Wormhole, yn ogystal â gweithfannau TT-LoudBox a TT-QuietBox ar gyfer datblygwyr meddalwedd. Mae holl gyhoeddiadau heddiw wedi'u hanelu at ddatblygwyr, nid y rhai sy'n defnyddio byrddau Wormhole ar gyfer llwythi gwaith masnachol.
“Mae bob amser yn braf cael mwy o'n cynnyrch i ddwylo datblygwyr. Gall systemau datblygu rhyddhau gan ddefnyddio ein cardiau Wormhole ™ helpu datblygwyr i raddfa a datblygu meddalwedd AI aml-sglodion,” meddai Jim Keller, Prif Swyddog Gweithredol Tenstorrent.Yn ogystal â’r lansiad hwn, rydyn ni’n gyffrous i weld y cynnydd rydyn ni’n ei wneud gyda thâp a phŵer ein cynnyrch ail genhedlaeth, Blackhole.”
Mae pob prosesydd Wormhole yn cynnwys 72 creiddiau Tensix (mae pump ohonynt yn cefnogi creiddiau RISC-V mewn fformatau data amrywiol) a 108 MB o SRAM, gan ddarparu 262 FP8 TFLOPS ar 1 GHz gyda phŵer dylunio thermol o 160W. Mae'r cerdyn Wormhole n150 un sglodyn wedi'i gyfarparu â chof fideo 12 GB GDDR6 ac mae ganddo lled band o 288 GB / s.
Mae proseswyr dyfrdwll yn darparu graddadwyedd hyblyg i ddiwallu anghenion amrywiol llwythi gwaith. Mewn gosodiad gweithfan safonol gyda phedwar cerdyn Wormhole n300, gellir cyfuno'r proseswyr yn un uned sy'n ymddangos yn y meddalwedd fel rhwydwaith craidd Tensix unedig, eang. Mae'r cyfluniad hwn yn caniatáu i'r cyflymydd drin yr un llwyth gwaith, ei rannu rhwng pedwar datblygwr neu redeg hyd at wyth model AI gwahanol ar yr un pryd. Nodwedd allweddol o'r scalability hwn yw y gall redeg yn lleol heb fod angen rhithwiroli. Mewn amgylchedd canolfan ddata, bydd proseswyr Wormhole yn defnyddio PCIe ar gyfer ehangu y tu mewn i'r peiriant, neu Ethernet ar gyfer ehangu allanol.
O ran perfformiad, cyflawnodd cerdyn Wormhole n150 sglodyn sengl Tenstorrent (72 creiddiau Tensix, amledd 1 GHz, 108 MB SRAM, 12 GB GDDR6, lled band 288 GB/s) 262 FP8 TFLOPS ar 160W, tra bod y bwrdd Wormhole3 nsglodyn deuol (128 creiddiau Tensix, amledd 1 GHz, 192 MB SRAM, 24 GB GDDR6 agregedig, lled band 576 GB/s) yn darparu hyd at 466 FP8 TFLOPS ar 300W.
Er mwyn rhoi 300W o 466 FP8 TFLOPS yn ei gyd-destun, byddwn yn ei gymharu â'r hyn y mae arweinydd marchnad AI Nvidia yn ei gynnig yn y pŵer dylunio thermol hwn. Nid yw A100 Nvidia yn cefnogi FP8, ond mae'n cefnogi INT8, gyda pherfformiad brig o 624 TOPS (1,248 TOPS pan yn denau). Mewn cymhariaeth, mae H100 Nvidia yn cefnogi FP8 ac yn cyrraedd perfformiad brig o 1,670 TFLOPS ar 300W (3,341 TFLOPS yn brin), sy'n sylweddol wahanol i Wormhole n300 Tenstorrent.
Fodd bynnag, mae un broblem fawr. Mae Wormhole n150 Tenstorrent yn adwerthu am $999, tra bod yr n300 yn gwerthu am $1,399. Mewn cymhariaeth, mae un cerdyn graffeg Nvidia H100 yn adwerthu am $30,000, yn dibynnu ar faint. Wrth gwrs, nid ydym yn gwybod a all pedwar neu wyth o broseswyr Wormhole gyflawni perfformiad un H300 mewn gwirionedd, ond eu TDPs yw 600W a 1200W yn y drefn honno.
Yn ogystal â'r cardiau, mae Tenstorrent yn cynnig gweithfannau wedi'u hadeiladu ymlaen llaw i ddatblygwyr, gan gynnwys 4 cerdyn n300 yn y TT-LoudBox mwy fforddiadwy sy'n seiliedig ar Xeon gydag oeri gweithredol, a'r TT-QuietBox datblygedig gyda Xiaolong yn seiliedig ar EPYC swyddogaeth oeri hylif).
Amser post: Gorff-29-2024