已完结小说排行榜,欢乐颂第三季

界面新聞記者 | 李彪
界面新聞編輯 | 文姝琪

2025年是AI行業(yè)公認的“推理之年”。

在今年英偉達的GTC開發(fā)者大會上，黃仁勛演講提到，隨著OpenAI o1、DeepSeek R1等推理模型的推廣應用，市場將需要更多AI芯片作算力支撐。AI推理已代替模型訓練成為了推動了算力需求增長的主力，規(guī)模增長能“輕松超過去年估計的100倍”。

而受限于美國對華的芯片禁令限制及國產(chǎn)GPU單卡性能不足的差距，國內(nèi)廠商在算力供給上長期走集群化路線，即將多個芯片通過特定技術(shù)連接整合在成單個的“超節(jié)點”。在數(shù)據(jù)中心內(nèi)部，多個超節(jié)點形成一個集群系統(tǒng)，以滿足對大規(guī)模算力需求較高的任務。

模型推理推動算力需求百倍增長，國產(chǎn)廠商如何進行AI基建？|界面新聞 · 科技

在近日華為舉辦的鯤鵬昇騰開發(fā)者大會上，公司對外宣布，其搭建的“昇騰384超節(jié)點”已是業(yè)內(nèi)最大規(guī)模的算力集群超節(jié)點。該超節(jié)點利用華為的高速互聯(lián)總線技術(shù)，將384張昇騰AI GPU芯片連接起來，并在內(nèi)存帶寬、存儲容量、高速互聯(lián)網(wǎng)絡等技術(shù)上進行了大幅調(diào)優(yōu)。

華為云則在超節(jié)點基礎上進一步推出CloudMatrix 384。官方信息顯示，CloudMatrix 384 單集群算力已經(jīng)達到300 PFlops，總規(guī)模已與英偉達NVL72大致相當（以業(yè)內(nèi)常用的半精度浮點數(shù)F16標準衡量，NVL72是將72張B200GPU連在一起）。

據(jù)華為昇騰計算業(yè)務總裁張迪煊介紹，相比于上一代Atlas A2，基于昇騰384超節(jié)點的Atlas A3模型訓練性能提升已達3倍。同時，由于采用了新的總線高速互聯(lián)技術(shù)后，超節(jié)點通信帶寬提升了15倍、通信時延降低了10倍。

而相比于訓練，隨著推理在算力需求所占的比重越來越大，算力集群針對推理的優(yōu)化也變得越來越重要。

隨著基于強化學習的“長思考”（Deep Thinking）功能與智能體應用(AI Agent）的集中落地，AI模型需要處理的任務更復雜，“思考”過程更長，需要更長時間和復雜計算過程來得出推理結(jié)果。

模型推理推動算力需求百倍增長，國產(chǎn)廠商如何進行AI基建？|界面新聞 · 科技

國內(nèi)廠商為滿足這部分的算力需求，同時實現(xiàn)“更大吞吐量”(AI模型一次能同時處理更多任務)和“更低延遲”（一次任務所需時間更短），是行業(yè)待解決的關(guān)鍵問題。

張迪煊稱，DeepSeek在業(yè)內(nèi)帶火的MOE（混合專家）架構(gòu)目前已經(jīng)是業(yè)內(nèi)模型主流架構(gòu)，而MOE包含上百個專家網(wǎng)絡的調(diào)度，實現(xiàn)大規(guī)模專家并行是行業(yè)解決AI模型吞吐量和延遲問題的核心。

而昇騰384節(jié)點針對MOE所做的優(yōu)化設計，在業(yè)內(nèi)率先實現(xiàn)了“一卡一專家”，最終做到了15ms的低時延，單卡吞吐量是業(yè)界集群的4倍以上。

在全球范圍內(nèi)，今年的算力基建擴張有增無減。近期，在美國總統(tǒng)特朗普訪問沙特阿拉伯期間，英偉達、AMD均宣布與當?shù)毓具_成百億美元大單，將在當?shù)匚磥砦迥陜?nèi)建設人工智能數(shù)據(jù)中心工廠，涉及“數(shù)十萬張GPU卡”規(guī)模的算力集群建設。Meta、特斯拉、微軟與谷歌也在建設新的十萬卡規(guī)模數(shù)據(jù)中心。

國產(chǎn)廠商也在加快建設步伐。張迪煊在大會上表示，華為目前將多個昇騰384超節(jié)點組合在一起，已經(jīng)可以支持10萬卡集群的算力需求。

綿陽新澳和香港2025最新資料大全掛牌,2025新澳掛牌正版掛牌完整掛牌

全國報修熱線：400-186-5909

模型推理推動算力需求百倍增長，國產(chǎn)廠商如何進行AI基建？|界面新聞 · 科技

綿陽新澳和香港2025最新資料大全掛牌,2025新澳掛牌正版掛牌完整掛牌

全國報修熱線：400-186-5909

模型推理推動算力需求百倍增長，國產(chǎn)廠商如何進行AI基建？|界面新聞 · 科技

模型推理推動算力需求百倍增長，國產(chǎn)廠商如何進行AI基建？|界面新聞 · 科技