米樂m6網址:一文了解國產AI芯片和英偉達的差距有多大
作者:米樂發布時間:2025-02-08
一、英偉達AI芯片的優勢分析
從最終用戶的視角對英偉達GPU產品優勢的評價,可概況為如下5點;
好用:從芯片性能角度市場top1,不接受反駁米樂M6。易用:CUDA生態配套工具齊全,上手無壓力米樂。都在用:產品案例多、成熟度強,市場認可度高。各類場景都能用:產品布局全,各類場景都有高中低產品對應。不同規模都能用:擴展性強,支持大規模集群擴展,千卡、萬卡、十萬卡,統統不在話下。
二、國內英偉達和國產芯片的市占率情況
今年最新數據暫時沒找到,下圖是IDC公布的去年H1國內AI芯片出貨量情況,可以看到英偉達市的出貨量占據主導地位,市占率高達90%,總出貨量為51萬片,其中英偉達為46萬片,華為近4萬片,其他品牌總計在1萬片多一點, 國產芯片排名靠前的分別為HW、昆侖芯和寒武紀等。
(圖片可放大看)
三、單芯片性能層面的對比
單卡性能差距集中在芯片算力(以FP16為例)、顯存大小和顯存類型、顯存帶寬、AI芯片間互聯帶寬等,如下2個截圖有詳細展示,大家自行查看:
1、英偉達在售或者即將發售的旗艦GPU產品
2、國產在售的主流AI芯片(部分)參數情況
四、單臺八卡機整機的性能對比
除了整機計算性能差距外,雖然都是八卡整機,但是在其他規格方案也有差異,主要集中在芯片互聯和網卡配置,英偉達H100整機標配8張cx7的400G網卡,而HW的ST八卡機是8張200G網卡,摩爾僅配置2張400G;
HW ST OAM八卡機的基本配置如下:
摩爾 S4000 OAM八卡機的內存和網卡配置(截圖于其官網視頻):
五、AI芯片生態層面差距分析

芯片性能是紙面參數,生態的成熟是決定用戶能否真正用起來的關鍵,英偉達CUDA生態發展了十余年成熟度和客戶使用覆蓋度都是最優的,國內AI芯片想突破英偉達壁壘主要是兩類路線,分布式兼容或者構建自有生態,天數、摩爾線程、海光DCU以兼容Cuda為主,而寒武紀、昆侖芯、昇騰、燧原、算能等則是構建自有軟件棧,還有很長的路要走。
下圖為寒武紀的軟件棧布局(供參考)
六、大規模集群(千卡-萬卡)實際落地方面差距巨大
近2年以來,大模型訓練相關的需求激增,對應的AI服務器集群規模也越來越大。規模增大對GPU集群的真實效率和穩定性提出了更高要求。放眼全球,OpenAI、微軟、xAI 和 Meta 在內的多個頭部公司都在爭相建立超過 10 萬卡的GPU 集群,其中馬斯克宣布在短短122天內建設10萬張英偉達H100卡的Colossus集群,全球AI算力的競爭進入了全新階段。
據已公開的信息,國內最大規模以萬卡集群為主,前幾天看新聞報道,百度升級AI異構計算平臺百舸4.0,具備了10萬卡集群部署和管理能力,個人認為國內萬卡到十萬卡依然需要依賴英偉達的GPU。從國產AI芯片的角度,千卡集群不完全成熟(看不到落地實際案例,建好用不起來的除外),國產AI芯片廠商依然在宣傳千卡集群(如下截圖)。