日韩免费高清专区-日韩免费高清一级毛片在线-日韩免费高清一级毛片久久-日韩免费高清一级毛片-日韩免费高清完整版-日韩免费高清视频网站

幣圈網(wǎng)

AMD發(fā)布全新AI加速卡Instinct MI350系列:288GB HBM3E海量?jī)?nèi)存、1400W功耗野獸

本站6月13日圣何塞現(xiàn)場(chǎng)報(bào)道——

2023年發(fā)布的Instinct MI300X,可以說(shuō)是AMD最成功的AI GPU加速卡,甚至稱(chēng)得上AMD歷史上最成功的產(chǎn)品之一,用最快的速度拿到了1億美元收入。

更重大的意義在于,它在幾乎被NVIDIA完全壟斷的高端AI芯片市場(chǎng)上,撕開(kāi)了一道口子,為行業(yè)提供了更多選擇。

2024年,AMD再接再厲發(fā)布了升級(jí)版的Instinct MI325X,主要提升了HBM3E內(nèi)存,核心規(guī)格沒(méi)變。

北京時(shí)間6月13日,AMD在美國(guó)圣何塞舉辦新一屆Advancing AI 2025大會(huì)。

會(huì)上,AMD正式發(fā)布了全新一代“Instinct MI350系列”,包括MI350X、MI355X兩款型號(hào)。

無(wú)論性能還是技術(shù)特性,新卡都再次取得了長(zhǎng)足的進(jìn)步,完全可以和NVIDIA Blackwell系列掰一掰手腕。

MI350系列最核心的變化,就是升級(jí)了新一代CDNA 4架構(gòu)(可能也是最后一代CDNA),同時(shí)采用了新的N3P工藝。

從大的方向上講,這一代的提升主要有四個(gè)方面,首要的自然是更好的AI能力,針對(duì)生成式AI和LLM大語(yǔ)言模型增強(qiáng)了數(shù)學(xué)矩陣模型。

另外,支持新的混合精度數(shù)據(jù)格式、增強(qiáng)Infinity Fabric互連總線(xiàn)和高級(jí)封裝互連、改進(jìn)能效,也都是重中之重。

MI350系列繼續(xù)采用延續(xù)多代的chiplets芯粒設(shè)計(jì),仍然分為頂層的XCD(加速器計(jì)算模塊)、底部的IOD(輸入輸出模塊)和周?chē)腍BM3E內(nèi)存模塊。

其中,XCD工藝從5nm升級(jí)為N3P 3nm級(jí)工藝高性能版本,IOD則維持在6nm工藝。

它采用了非常復(fù)雜的多重先進(jìn)封裝技術(shù),不同模塊之間使用了2.5D、3D混合鍵合,整體則用了臺(tái)積電的CoWoS-S晶圓級(jí)封裝,使用硅中介層作為主要的連接媒介——NVIDIA也在大面積使用它,不過(guò)已經(jīng)開(kāi)始向更高級(jí)的CoWoS-L過(guò)渡。

上代MI300X就使用了1530億個(gè)晶體管,創(chuàng)下新高,MI350系列進(jìn)一步增加到1850億個(gè)晶體管。

這是MI350系列的內(nèi)部架構(gòu)和布局圖。

XCD模塊一共有8個(gè),每個(gè)內(nèi)部分為4組著色器引擎,下轄32組CU計(jì)算單元,還有4MB二級(jí)緩存,配有一個(gè)全局資源調(diào)度分配單元。

整體合計(jì)256個(gè)CU單元(1024個(gè)矩陣核心)、32MB二級(jí)緩存,事實(shí)上CU單元數(shù)量反而少于MI300X/MI325X 304個(gè)(芯片原生320個(gè)),而每個(gè)單元的二級(jí)緩存容量沒(méi)變。

IOD模塊一共2個(gè),集成128個(gè)通道HBM3E內(nèi)存控制器、256MB Infinity Cache無(wú)限緩存,容量和上代相同,還支持第四代Infinity Fabric互連總線(xiàn),雙向帶寬提升至1075GB/s。

HBM3E內(nèi)存仍然是8顆,每一顆都是12Hi堆疊,和MI325X相同而高于MI300X 8Hi,只是這次開(kāi)放了全部容量,單顆是完整的36GB而非32GB,因此總計(jì)多達(dá)288GB。

內(nèi)存?zhèn)鬏斅?Gbps,總帶寬高達(dá)8TB/s,顯著高于MI300X 5.3TB/s、MI325X 6TB/s,尤其是平均到每個(gè)CU單元的內(nèi)存帶寬提升了多達(dá)50%。

每一個(gè)IOD上堆疊四個(gè)XCD、四顆HBM3E,而兩個(gè)IOD之間使用5.5TB/s高帶寬的Infinity Fabric AP進(jìn)行互連整合封裝。

整個(gè)MI350系列芯片與AMD EPYC處理器之間的通道,走的是完整的PCIe 5.0 x16,帶寬128GB/s。

功耗方面,風(fēng)冷模組最高1000W,水冷模組則可以做到1400W。

在裸金屬、SR-IOV虛擬化應(yīng)用中,為了實(shí)現(xiàn)最大化利用,MI350系列支持對(duì)計(jì)算資源進(jìn)行空域分區(qū),最多可以分成8個(gè)。

不同分區(qū)可以支持多種使用模式,但不同于前代的NSP1、NSP4,這次改為NSP1(單個(gè)分區(qū))、NSP2(雙/四/八個(gè)分區(qū)),看似降級(jí)了,AMD解釋說(shuō)NSP4模式的性能提升其實(shí)比較有限。

MI350系列在單分區(qū)+NSP1模式下,最高可以支持5200億參數(shù)的AI模型,而在八分區(qū)+NSP2模式下,可以支持最多8個(gè)700億參數(shù)Llama 3.1模型的并發(fā)。

MI350系列針對(duì)生成式AI、LLM的具體改進(jìn),包括矩陣核心的提升和更靈活的量化機(jī)制,過(guò)于專(zhuān)業(yè)就不一一解釋了。

注意這次支持行業(yè)標(biāo)準(zhǔn)的PF6、FP4格式,支持從FP16/BF16到FP32的基于硬件的Stochastic Rounding量化。

MI350系列支持豐富的數(shù)據(jù)格式,包括FP64、FP32、FP16、BF16、FP8、MXFP8、MXFP6、MXFP4、INT8、INT4。

通過(guò)提升每個(gè)CU單元每時(shí)鐘周期的性能,F(xiàn)P16、BF16、FP8、FP6、FP4的單位性能都得到了顯著提升。

正因此如,MI355X在核心數(shù)更少的情況下,性能基本追上甚至超過(guò)了MI300X,其中矢量FP64、FP32、FP16和矩陣FP32下都基本一致,矩陣FP64下約為一半(單位性能也是一半),矩陣FP16/BF16、FP8、INT8/INT4下的稀疏性性能則幾乎翻了一倍,還新增支持了矩陣FP6/FP4稀疏性。

可以看到,MIX350系列的性能并非全方位飛躍,有些數(shù)據(jù)格式下甚至更弱了,因?yàn)檫@代更注重支持更多更靈活的數(shù)據(jù)格式、單位性能的提升(類(lèi)似提升IPC),以及對(duì)于AI訓(xùn)推更關(guān)鍵的矩陣稀疏性能。

Instinct MI350系列有兩款型號(hào)MI350X、MI355X,都配備完整的288GB HBM3E內(nèi)存,帶寬均為8TB/s。

區(qū)別在于,MI355X是滿(mǎn)血性能,峰值可達(dá)FP64 79TFlops(79萬(wàn)億次每秒)、FP16 5PFlops(5千萬(wàn)億次每秒)、FP8 10PFlops(1億億次每秒)、FP6/FP4 20PFlops(2億億次每秒),整卡功耗最高達(dá)1400W。

MI350X的性能削減了8%,F(xiàn)P4峰值可達(dá)18.4PFlops,整卡功耗最高1000W,和MI325X持平。

當(dāng)然更關(guān)鍵的是實(shí)際性能,官方宣稱(chēng)MI355X對(duì)比MI300X在不同AI大模型中的推理性能普遍提升了3倍甚至更多。

在AI助手/對(duì)話(huà)、內(nèi)容創(chuàng)作、內(nèi)容摘要、對(duì)話(huà)式AI等應(yīng)用中,性能同樣全面提升,最高幅度甚至超過(guò)4倍。

大模型預(yù)訓(xùn)練與微調(diào)中,提升幅度也不容小覷,最高達(dá)3.5倍。

MI350X對(duì)比NVIDIA B200/GB200,內(nèi)存容量多出60%(后者192GB),內(nèi)存帶寬持平。

FP64/FP32性能領(lǐng)先約1倍,F(xiàn)P6性能領(lǐng)先最多約1.2倍,F(xiàn)P16、FP8、FP4領(lǐng)先最多約10%。

除了理論性能,大模型推理性能也處在同一水平,或者領(lǐng)先最多約30%,訓(xùn)練性能BF16/FP8預(yù)訓(xùn)練基本同一檔次,F(xiàn)P8微調(diào)則有10%以上的領(lǐng)先。

更關(guān)鍵的是高性?xún)r(jià)比,單位價(jià)格可以多生成最多40%的Tokens。

MI350系列依然支持多GPU平臺(tái)化部署,單個(gè)節(jié)點(diǎn)還是最多八卡,總計(jì)就有2304GB HBM3E內(nèi)存,F(xiàn)P16/BF16性能最高40.2PFlops(4.02億億次每秒),F(xiàn)P8性能最高80.5PFlops(8.05億億次每秒)、FP6/FP4 161PFlops(16.1億億次每秒)。

八卡并行時(shí),每?jī)烧咧g都是153.6GB/s雙向帶寬的Infinity Fabric通道互連,而每塊卡和CPU之間都是128GB/s雙向帶寬的PCIe 5.0通道連接。

MI350系列支持風(fēng)冷、機(jī)架部署,其中風(fēng)冷下最多64塊并行,液冷時(shí)支持2U到5U,最多128塊并行,也可以96塊。

128卡就能帶來(lái)36TB HBM3E內(nèi)存,性能更是達(dá)到恐怖的FP16/BF16 644PFlops(64.4億億次每秒)、FP8 1.28EFlops(128億億次每秒)、FP6/FP4 2.57EFlops(257億億次每秒)。

AMD聲稱(chēng),AMD致力于在5年內(nèi)將AI計(jì)算平臺(tái)的能效提升30倍,MI350系列最終做到了38倍!

下一步,從2024年到2030年,AMD將再次把AI系統(tǒng)的能效提升20倍,屆時(shí)只需一臺(tái)機(jī)架即可完成如今275臺(tái)的工作,節(jié)省多達(dá)95%的能源。

特別值得一提的是,作為AI加速系統(tǒng)平臺(tái)的一部分,AMD此前還發(fā)布了一款超高性能網(wǎng)卡Pensando 400 AI(代號(hào)“Pollara”),首次與EPYC CPU、Instinct GPU一起組成完整的平臺(tái)方案。

這是業(yè)界第一個(gè)符合超剛剛發(fā)布的以太網(wǎng)聯(lián)盟(Ultra Ethernet)規(guī)范的網(wǎng)卡,支持PCIe 5.0,帶寬達(dá)400G(40萬(wàn)兆),完全可編程可定制,可卸載和加速AI處理。

現(xiàn)在,AMD有了新一代全部基于自家技術(shù)和產(chǎn)品的AI加速系統(tǒng)平臺(tái)級(jí)解決方案。

EPYC CPU處理器、Instinct GPU加速卡、Pensando網(wǎng)卡無(wú)縫配合,尤其是網(wǎng)卡可以卸載接手并高效處理CPU、GPU的部分工作,釋放平臺(tái)的最大性能潛力。

M350系列方案將從第三季度開(kāi)始供應(yīng)客戶(hù),可以看到各大OEM、ODM廠(chǎng)商基本都在名單之中了。

生態(tài)與應(yīng)用合作伙伴方面,AMD Instinct的朋友圈正在快速擴(kuò)大,全球十大AI企業(yè)中已經(jīng)有七家用上了Instinct,包括微軟、Meta、OpenAI、特斯拉、xAI、甲骨文等。

Meta Llama 3/4模型推理廣泛部署了MI300X,還在與AMD共同研發(fā)下一代MI450。

甲骨文率先引入MI355X,新一代AI集群正在部署多達(dá)131072塊。

微軟Azure私有和開(kāi)源模型都用上了MI300X。

還有紅帽、Mavell、Cohere、Astera Labs等等,甚至提到了華為,其正在與AMD探討共同利用AMD平臺(tái)打造開(kāi)放的、可擴(kuò)展的、高性?xún)r(jià)比的AI基礎(chǔ)設(shè)施。

最后順帶一提,最新發(fā)布的TOP500超級(jí)計(jì)算機(jī)排行榜上,AMD EPYC+I(xiàn)nstinct平臺(tái)支撐了全球最快的兩臺(tái)超算,還在各個(gè)國(guó)家的不同項(xiàng)目中得到了廣泛的部署。

位居榜首的是位于加州勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的El Capitan,采用第四代EPYC處理器、MI300A加速器的組合,擁有超過(guò)1100萬(wàn)個(gè)核心,最大性能達(dá)到1.742 EFlops(147.2億億次每秒)。

緊隨其后的是田納西州橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Frontier,第三代EPYC、MI250X的組合,最大性能1.353EFlops(135.3億億次每秒)。

這兩臺(tái)超級(jí)計(jì)算機(jī)均由美國(guó)能源部實(shí)驗(yàn)室運(yùn)營(yíng),均屬于百億億次級(jí)的超算系統(tǒng)。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: www国产91| 性派对videos18party | 国产探花在线观看 | 免费看日本 | 青草免费在线 | 日本在线小视频 | 久久99热成人精品国产 | 久久毛片免费看一区二区三区 | 亚洲香蕉综合在人在线视看 | 色一情一区二区三区四区 | 久久性综合亚洲精品电影网 | 69japanese日本100 6969精品视频在线观看 | 好湿好滑好硬好爽好深视频 | 俄罗斯毛片免费大全 | 嗯啊视频在线观看 | 九九国产在线视频 | aaa免费看 | 欧美一区二区三区精品国产 | 日本高清视频网址 | 鞋奴的视频VK | 思思久久精品在热线热 | 亚洲国产美女精品久久 | 男人与雌性宠物交啪啪小说 | 香蕉eeww99国产精选播放 | 女人国产香蕉久久精品 | 天堂樱桃bt在线www | 国产亚洲人成网站在线观看不卡 | 阿 好深 快点 老师受不了 | 亚洲欧美日韩另类精品一区二区三区 | 色噜噜国产精品视频一区二区 | 免费观看欧美一级高清 | 国产成年人视频 | 免费看片黄色 | 日本动漫打扑克动画片樱花动漫 | 贵妇的私人性俱乐部 | 成人一区二区丝袜美腿 | 日本春菜花在线中文字幕 | 免费国产网站 | 国产一区二区播放 | 亚洲天堂免费观看 | 日本人护士免费xxxx视频 |