華為徐直軍:以開創的超節點互聯技術,引領AI基礎設施新范式
——徐直軍在華為全聯接大會2025上的主題演講
[中國,上海,2025年9月18日] 女士們、先生們,各位老朋友、新朋友,大家上午好!歡迎來參加2025年華為全聯接大會,時隔一年,很高興再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI年,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果,當然也給我們帶來了巨大沖擊。從春節開始,到今年4月30日,經過多團隊的協同作戰,終于使Ascend 910B/910C的推理能力達成了客戶的基本需求。

在進入今天的具體分享之前,請允許我回顧一下去年的HC,我講到了如下幾點:
第一、智能化的可持續,首先是算力的可持續;
第二、中國半導體制造工藝將在相當長時間處于落后狀態;
第三、可持續的算力只能基于實際可獲得的芯片制造工藝;
第四、人工智能成為主導性算力需求,促使計算系統正在發生結構性變化;
第五、開創計算架構,打造“超節點+集群”算力解決方案持續滿足算力需求。
但第五點沒有展開講,本來想講,但我的團隊不同意。今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答卷。我今天分享的主題是:“以開創的超節點互聯技術,引領AI基礎設施新范式”,也是回答去年HC提到的第五點:如何開創計算架構,打造 “超節點+集群”算力解決方案來持續滿足算力需求。
在展開今天主題前,回到DeepSeek對產業界、對華為的沖擊,DeepSeek開源后,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,并一直在給我們不斷地提建議。為此,經過內部的充分討論并達成共識,我們于2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定給大家匯報一下。主要有四點:
一、華為堅持昇騰硬件變現;
二、CANN 編譯器和虛擬指令集接口開放,其它軟件全開源,CANN基于Ascend 910B/C的開源開放將于2025年12月31日前完成,未來開源開放與產品上市同步;
三、Mind系列應用使能套件及工具鏈全面開源,并于2025年12月31日前完成;
四、openPangu基礎大模型全面開源。
接下來回到今天的主題。盡管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向物理AI,我們認為,算力,過去是,未來也將繼續是人工智能的關鍵,更是中國人工智能的關鍵。
算力的基礎是芯片,昇騰芯片是華為AI算力戰略的基礎。自2018年發布Ascend 310芯片,2019年發布Ascend 910芯片,到2025年,Ascend 910C芯片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和伙伴們對昇騰芯片有很多訴求,對昇騰芯片也有很多期待。面向未來,華為的芯片路標是如何規劃的?想必是大家普遍關心的話題,可能也是最關心的內容。
因此,今天,我就直入主題來介紹昇騰芯片及其路標。我很確定地告訴大家,昇騰芯片將持續演進,為中國乃至世界的AI算力構筑堅固根基。
未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆芯片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體芯片還在規劃中。下面我分別介紹快要推出的和已規劃的4顆昇騰芯片。
我們正在開發、且即將推出的芯片叫Ascend 950系列。我首先介紹一下Ascend 950系列的芯片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰芯片相比,Ascend 950 在以下幾個方面實現了根本性提升。
第一,新增支持業界標準FP8/MXFP8/MXFP4等低數值精度數據格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。并特別支持華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。
第二,大幅度提升了向量算力。這主要通過三個方面實現:其一,提升向量算力占比;其二,采用創新的新同構設計,即支持 SIMD/SIMT 雙編程模型,SIMD能夠像流水線一樣處理“大塊”向量,而SIMT便于靈活處理“碎片化”數據;其三,把內存訪問顆粒度從512字節減少到128字節,內存訪問更精細,從而更好地支持了離散且不連續的內存訪問。
第三,互聯帶寬相比Ascend 910C提升了2.5倍,達到2TB/s。
第四,結合推理不同階段對于算力、內存、訪存帶寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成芯片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。下面分別介紹。
首先是我們的第一顆芯片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段占用計算資源越來越多。其次是在電子商務、內容平臺、社交媒體等業務應用中,要求推薦算法具有更高的準確度和更低的時延,對計算能力的需求也越來越大。推理Prefill階段和推薦算法都是計算密集型,對計算并行的能力要求高,但對內存訪問帶寬的需求相對低。通過分級內存解決方案,推理Prefill階段和推薦算法對本地內存容量的需求相對也不高。Ascend 950PR 采用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。
這顆芯片將在2026年一季度推出,首先支持的產品形態是標卡和超節點服務器。
接下來這一顆是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode階段和訓練場景。由于推理Decode階段和訓練對互聯帶寬和訪存帶寬要求高,我們開發了HiZQ 2.0,使內存容量達到144GB,內存訪問帶寬達到4TB/s。同時把互聯帶寬提升到了2TB/s。其次,支持了FP8/MXFP8/MXFP4/HiF8數據格式。
Ascend 950DT 將在2026年Q4推出。
第三顆是在規劃中的芯片Ascend 960。它在算力、內存訪問帶寬、內存容量、互聯端口數等各種規格上相比Ascend 950翻倍,大幅度提升訓練、推理等場景的性能;同時還支持華為自研的HiF4數據格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,并且比業界FP4方案的推理精度更優。
Ascend 960將在2027年四季度推出。
最后一顆是在規劃中的Ascend 970,這顆芯片的一些規格還在討論中。總體方向是,在各項指標上大幅度升級,全面升級訓練和推理性能。目前的初步考慮是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互聯帶寬要全面翻倍,內存訪問帶寬至少增加1.5倍。Ascend 970計劃在2028年四季度推出。大家屆時可以期待它的驚人表現。
這是剛才介紹的昇騰芯片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多數據格式、更高帶寬等方向持續演進,持續滿足AI算力不斷增長的需求。可以看到,相比Ascend 910B/910C,從Ascend 950開始的主要變化包括:
引入SIMD/SIMT新同構,提升編程易用性;
支持更加豐富的數據格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;
支持更大的互聯帶寬,其中950系列為2TB/s,970系列提升到4TB/s;
支持更大的算力,FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;
內存容量逐漸加倍,而內存訪問帶寬將翻兩番。
有了昇騰芯片為基礎,我們就能夠打造滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向看,超節點已經成為主導性產品形態,并正在成為AI基礎設施建設的新常態。超節點事實上就是一臺能學習、思考、推理的計算機,物理上由多臺機器組成,但邏輯上以一臺機器學習、思考、推理。隨著算力需求的持續增長,超節點的規模也在持續、快速增大。
今年3月份,華為正式推出了Atlas 900超節點,滿配支持384卡。因為是超節點,這384顆Ascend 910C芯片,能夠像一臺計算機一樣工作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點。大家經常聽到的CloudMatrix384超節點,是華為云基于Atlas 900超節點構建的云服務實例。Atlas 900超節點自上市以來,已經累計部署超過300套,服務20多個客戶,涵蓋互聯網、電信、制造等多個行業。可以說,Atlas 900于2025年,開啟了華為AI超節點的征程。
今天,結合我們已經推出或正在研發中的昇騰芯片,我將為大家帶來更多超節點和集群產品。現在進入今天最激動人心的時刻,就是新產品發布環節。
今天我要發布的第一款產品,Atlas 950超節點,基于Ascend 950DT打造。
Atlas 950超節點支持8192張基于Ascend 950DT的昇騰卡,是Atlas 900超節點的20多倍,我們習慣稱呼的昇騰卡,每張卡對應一顆Ascend 950DT芯片,8192張昇騰卡等同于8192顆Ascend 950DT芯片。
Atlas 950超節點滿配包括由128個計算柜、32個互聯柜,共計160個機柜組成,占地面積1000平方米左右,柜間采用全光互聯。總算力大幅度提升,其中,FP8算力達到8E FLOPS,FP4算力達到16E FLOPS。互聯帶寬達到16PB/s,這個數字意味著,Atlas 950一個產品的總互聯帶寬,已經超過今天全球互聯網峰值帶寬的10倍有余。
Atlas 950超節點的上市時間是:2026年四季度。
我們很自豪的看到,Atlas 950超節點,至少在未來多年都將保持是全球最強算力的超節點,并且在各項主要能力上都遠超業界主要產品。其中,相比英偉達同樣將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152TB;互聯帶寬是其62倍,達到16.3PB/s。即使是與英偉達計劃2027年上市的 NVL576相比,Atlas 950超節點在各方面依然是領先的。
算力、內存容量、內存訪問速度、互聯帶寬等能力的大幅度增強,為大模型訓練性能和推理吞吐帶來顯著提升。相比華為已經推出的Atlas 900超節點,Atlas 950超節點的訓練性能提升17倍,達到4.91M TPS。通過支持FP4數據格式,Atlas 950超節點的推理性能提升達26.5倍,達到19.6M TPS。
8192卡超節點并不是我們的終點,我們還在繼續努力。我今天發布的第二款超節點產品,Atlas 960超節點。基于Ascend 960,Atlas 960超節點最大可支持15488卡。Atlas 960超節點 由176個計算柜,44個互聯柜,共220個機柜,占地面積約2200平方米。
Atlas 960超節點的上市時間是:2027年四季度。
伴隨卡的規模的再次升級,Atlas 960超節點讓我們在AI超節點的優勢再度增強。基于Ascend 960,其總算力、內存容量、互聯帶寬在Atlas 950基礎上再翻倍。其中,FP8總算力將達到30E FLOPS,而FP4總算力將達到60 EFLOPS;內存容量達到4460TB,互聯帶寬達到34PB/s。大模型訓練和推理的性能相比Atlas 950超節點,將分別提升3倍和4倍以上,達到15.9M TPS 和80.5M TPS。通過Atlas 950和Atlas 960,我們對于為人工智能的長期快速發展提供可持續且充裕算力,充滿信心。
超節點已經重新定義AI基礎設施的范式,但不僅僅局限于AI。在通用計算領域,我們同樣認為,超節點技術能夠帶來很大的價值。從需求角度考慮,金融核心業務等目前仍然有部分承載在大型機和小型機之上,相比普通服務器集群,它們對服務器的性能和可靠性有更高的訴求,通用計算超節點在這兩點上正好切合需求。從技術角度考慮,超節點同樣可以為通算領域注入全新活力。
因此,鯤鵬處理器主要圍繞支持超節點,更多核、更高性能等方向持續演進。同時,通過自研的雙線程靈犀核,使鯤鵬處理器能方便支持更多線程。
2026年Q1,我們將推出Kunpeng 950處理器,包括兩個版本,分別是:96核/192線程和192核/384線程;支持通用計算超節點;安全方面新增四層隔離,成為鯤鵬首顆實現機密計算的數據中心處理器。
2028年Q1,鯤鵬處理器將在芯片微架構、先進封裝技術等領域持續突破關鍵技術,將再次推出兩個版本,分別是高性能版本,96核/192線程,單核性能提升50%+,主要面向AI host、數據庫等場景。以及高密版本,不少于256核/512線程,主要面向虛擬化、容器、大數據、數倉等場景。
接下來是今天我發布的第三款產品:TaiShan 950超節點,基于Kunpeng 950打造,全球首個通用計算超節點,其最大支持16節點,32個處理器,最大內存48TB,同時支持內存、SSD、DPU池化。
這款產品不只是通用計算領域的一次技術升級,除了大幅提升通用計算場景下的業務性能,還能幫助金融系統破解核心難題。當前大型機、小型機替換的核心挑戰是數據庫分布式改造,而基于TaiShan 950超節點打造的 GaussDB多寫架構,無需改造,但性能提升2.9 倍,最終可平滑替代大型機、小型機上的傳統數據庫。TaiShan 950加上分布式GaussDB將成為各類大型機、小型機的終結者,徹底取代各種應用場景的大型機和小型機以及Oracle的Exadata數據庫服務器。
除了核心數據庫場景,TaiShan 950超節點在更廣泛的場景里,表現也很亮眼:比如虛擬化環境的內存利用率提升20%,在Spark大數據場景,實時數據處理時間縮短30%。
TaiShan 950超節點上市時間是:2026年一季度,敬請期待。
超節點的價值,不僅僅體現在智算和通算傳統業務領域。互聯網產業廣泛應用的推薦系統,正在從傳統推薦算法向生成式推薦系統演進。我們可以基于TaiShan 950和Atlas 950打造成混合超節點,為下一代生成式推薦系統打開全新架構方向。
一方面,通過超大帶寬、超低時延互聯以及超大內存,混合超節點構成超大共享內存池,支持PB級推薦系統嵌入表,從而支撐超高維度用戶特征;另一方面,混合超節點的超大AI算力,能夠支持超低時延推理和特征檢索。因此,混合超節點是面向下一代生成式推薦系統的解決方案的全新選擇。
大規模超節點把智算和通算的能力都推向新的高度,同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者,當然不懼挑戰。在定義和設計Atlas 950、Atlas 960兩個超節點的技術規格時,我們遭遇到了互聯技術的巨大挑戰,主要在兩個方面:
第一是如何做到長距離而且高可靠。大規模超節點機柜多,柜間聯接距離長,當前電互聯和光互聯技術都不能滿足需求。其中,當前的電互聯技術在高速時聯接距離短,最多只能支持兩柜互聯,而當前的光互聯技術雖然可以把長距離的多機柜聯接在一起,但無法滿足可靠性需求。
第二是如何做到大帶寬而且低時延。當前跨柜卡間互聯帶寬低,和超節點的需求差距達5倍;跨柜的卡間時延大,當前互聯技術最好只能做到3微秒左右,和Atlas 950/960設計需求仍然有24%的差距,當時延已經低至2~3個微秒時,已經逼近物理極限,哪怕0.1微秒的提升,挑戰都很大。
華為基于三十多年構筑的技術能力,通過系統性創新,徹底解決了當前技術存在的問題,超標達成Atlas 950/960超節點的設計需求,使萬卡超節點成為可能。
首先,為了解決長距離且高可靠問題,我們在互聯協議的物理層、數據鏈路層、網絡層、傳輸層等每一層都引入了高可靠機制;同時在光路引入了百納秒級故障檢測和保護切換,當出現光模塊閃斷或故障時,讓應用無感;并且,我們重新定義和設計了光器件、光模塊和互聯芯片。這些創新和設計讓光互聯的可靠性提升100倍,且互聯距離超過200米,實現了電的可靠和光的距離。
其次,為了解決大帶寬且低時延問題,我們突破了多端口聚合與高密封裝技術,以及平等架構和統一協議,實現了TB級的超大帶寬,2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新,我們才攻克了超節點互聯技術,滿足了高可靠、全光互聯、高帶寬、低時延的互聯要求,讓大規模超節點成為了可能。
為了達成Atlas 950/960超節點對互聯的技術要求,為了實現萬卡超節點還能是一臺計算機,華為開創了超節點架構并開創了新型的互聯協議,能夠支撐萬卡級超節點架構。基于這個互聯協議的超節點架構的核心價值主張是:萬卡超節點,一臺計算機,也就是說,通過該互聯協議,把數萬規模的計算卡,聯接成一個超節點,能夠像一臺計算機一樣工作、學習、思考、推理。
在技術上,我們總結認為,萬卡級超節點架構應該具備6大特征,分別是總線級互聯、平等協同、全量池化、協議歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協議取名“靈衢”,英文名稱:UB,UnifiedBus
今天,我們正式發布靈衢、UnifiedBus,一個面向超節點的互聯協議。
同時,我宣布,華為將開放靈衢2.0技術規范。為什么從靈衢2.0開始開放?事實上,靈衢的研究是從2019年開始的,因為眾所周知的原因,先進工藝不可獲得,我們需要從多芯片上突破,希望把更多的計算資源聯接在一起。我們取了一個名字叫UnifiedBus,簡稱UB,中文名字“靈衢”,意味著類似九省通衢,實現大規模算力的聯通。基于靈衢 1.0 的Atlas 900超節點自2025年3月開始交付,至今已商用部署300多套,靈衢1.0技術得到充分驗證。在靈衢1.0的基礎上,我們繼續豐富功能,優化性能,提升規模,進一步完善了協議,形成了靈衢2.0,前面發布的Atlas 950超節點就是基于靈衢2.0。
我們認為靈衢2.0具備了開放的條件,為了更廣泛地促進互聯技術發展和產業進步,今天華為決定開放靈衢2.0技術規范,歡迎產業界伙伴基于靈衢研發相關產品和部件,共建靈衢開放生態。
我在去年HC會上強調過,基于中國可獲得的芯片制造工藝,我們努力打造“超節點+集群”算力解決方案,來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生,是面向超節點的互聯協議,也是構建算力集群產品最優的互聯技術。
接下來為大家帶來兩個集群產品:首先是,Atlas 950 SuperCluster 50萬卡集群!
Atlas 950 SuperCluster集群由64個Atlas 950超節點互聯組成,把1萬多機柜中的52萬多片昇騰950DT組成為一個整體,FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步,即2026年Q4。
在集群組網上,我們同時支持UBoE與RoCE兩種協議,UBoE是把UB協議承載在以太網上,讓客戶能夠利用現有以太交換機。相比傳統RoCE,UBoE組網的靜態時延更低、可靠性更高,交換機和光模塊數量都更節省,所以,我們推薦UBoE。
相應的,在2027年Q4,我們還將基于Atlas 960超節點,同步推出Atlas 960 SuperCluster,集群規模進一步提升到百萬卡級,FP8總算力達到2 ZFLOPS!FP4總算力達到4 ZFLOPS。并且,它同樣也支持UBoE與RoCE兩種協議,在UBoE協議加持下,性能與可靠性同樣更優,并且,靜態時延和網絡無故障時間優勢進一步擴大,因此繼續推薦UBoE組網。通過Atlas 960 SuperCluster,我們將持續加速客戶應用創新,探索智能水平新高。
很高興今天給大家帶來一系列新產品,我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新范式;以基于靈衢的超節點和集群持續滿足算力快速增長的需求,推動人工智能持續發展,創造更大的價值,謝謝!
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
5G-A賦能機器人火炬接力:中國移動以技術革新點亮全運科技盛宴
2025年11月,第十五屆全國運動會將在粵港澳三地盛大啟幕。這場賽事不僅是體育健兒的競技場,更是前沿科技落地應用的“試驗田”。其中,11月2日的機器人火炬接力作為本次全運會的核心創新亮點..[詳細]
輕薄機型出師未捷身先死,長使業績淚滿襟
當iPhone Air宣布上市當天,隨著各路評測內容解禁,一個顯眼的標題也隨之出現,那就是“注定停產”。輕薄機型的出現一方面讓人們看到廠商正在挖掘全新市場空間,另一方面也勾起了小尺寸機型..[詳細]
智能未來:宇宙為你閃爍
未來十年,你家的電表可能再也不用換電池,自動駕駛汽車能"看到"幾公里外的路況,甚至海洋深處的傳感器都能實時傳回數據。這些不是科幻,而是剛剛在無錫物博會上發布的《2025全球..[詳細]
智能IP廣域網成為筑牢智算產業發展根基的關鍵一環
隨著國家加速推動智算產業高質量發展,網絡支撐能力已成為產業進階的核心抓手,而作為關鍵基礎設施的智能IP廣域網,正憑借其在算力調度、數據傳輸中的核心作用,成為筑牢智算產業發展根基的..[詳細]
大中華區市場失守 蘋果寄望AI驅動未來增長
蘋果公司公布的2025 財年第四季度財報呈現“冰火兩重天”態勢:全球營收1024.66億美元同比增長 8%,凈利潤274.66億美元同比激增86.4%,毛利率攀升至 47.18%。但作為第三大市場的大中華區卻成..[詳細]













