熱點丨以色列芯片初創公司NextSilicon,單挑Nvidia和Intel

AI芯天下
10/27

·聚焦:人工智能、芯片等行業

歡迎各位客官關注、轉發

前言

這家成立於2017年、累計孖展超3億美元的公司,正試圖用一種[反傳統]的架構,同時挑戰英偉達在HPC/AI加速器領域、英特爾在CPU領域的統治地位。

它的底氣,來自一套名為智能數據流架構的創新,讓硬件不再是固定的[鐵盒子],而是能跟着軟件動態調整的自適應引擎。

作者| 方文三

圖片來源|網 絡

HPC的[中年危機],傳統架構困在枷鎖裏

高性能計算(HPC)是科技領域的[基建],從天氣預報到新藥研發,從量子模擬到AI訓練,都離不開它的支撐。

但近年來,支撐HPC的傳統CPU與GPU架構,正逐漸顯露出力不從心的疲態。

NextSilicon首席執行官Elad Raz曾尖銳地指出行業痛點:大規模代碼重寫、噩夢般的移植工程、飆升的能耗,以及微乎其微的性能增益,已成為常態。

這背後,是沿用80年的馮·諾依曼架構的固有侷限,數據必須在內存和計算單元之間來回傳輸,形成了難以突破的內存牆;

更關鍵的是,為了支持通用計算,傳統芯片把98%的硅面積都用在了分支預測、亂序執行、指令解碼等[控制開銷]上,真正用於核心計算的部分僅佔2%。

當科研人員用C++寫了一段流體力學模擬代碼,若想遷移到英偉達GPU上加速,必須用CUDA語言重寫;即便成功移植,GPU也會因為無法動態適配稀疏計算、圖結構處理等場景,導致能效比驟降。

更尷尬的是,隨着摩爾定律逼近極限,CPU/GPU的性能提升越來越慢,想要獲得2倍算力,往往需要付出2倍以上的功耗和成本,這對需要大規模集羣的HPC領域來說,無疑是不可持續的死循環。

行業急需一種新範式,既能保留通用計算的靈活性,又能擁有ASIC的高效能;既不用重寫代碼,又能動態適配不同任務。NextSilicon的Maverick2,正是衝着這個「不可能三角」來的。

從硬件適配軟件到硬件跟着軟件變

Maverick2的核心創新,集中在兩個詞上:運行時可重構與數據流架構。這兩個技術組合,徹底打破了傳統芯片的[剛性思維]。

①運行時可重構:納秒級[精準打擊]熱點代碼

傳統可重構芯片想要調整硬件邏輯,必須重啓設備,根本無法適配實時變化的工作負載。

而Maverick2的運行時可重構,能在程序執行過程中,以納秒級速度動態調整硬件結構,相當於芯片有了即時優化能力。

Maverick2的智能軟件會實時監控應用,精準識別這些熱點,然後立刻重構硬件,專門為這些關鍵代碼打造定製化計算通道。

如果把傳統GPU比作通用工廠,無論生產什麼都用一套流水線;Maverick2就是靈活工坊,發現需要生產齒輪,立刻調整機牀;

接下來要做螺絲,瞬間切換工具,全程不用停工。這樣一來,寶貴的硅面積和功耗不再浪費在極少執行的代碼上,效率自然飆升。

②數據流架構:繞開馮·諾依曼內存牆

為了徹底解決數據傳輸瓶頸,Maverick2採用了數據流架構,而非傳統的馮·諾依曼架構。

在這套架構裏,芯片的絕大部分面積都給了計算單元(ALU),遠超CPU的2%佔比,甚至比GPU的計算單元密度更高。

具體來說,數據不再是從內存到計算單元來回跑,而是像流水一樣在ALU之間流動。

當數據到達某個ALU時,計算自動觸發,結果直接流向需要它的下一個ALU;中間通過保留站(RS)暫存數據,內存入口點(MEPs)精準調度內存訪問,全程沒有多餘的數據移動。

更關鍵的是,Maverick2的編譯器能自動完成任務拆分,串行邏輯交給主機CPU,計算密集型任務則被轉化為「中間表示」,映射到可重構硬件上,還能複製到多個ALU實現並行。

比如做AI推理時,芯片先配置為執行ReLU激活函數,幾納秒後就重構成矩陣乘法單元,全程無需人工干預。

③最大驚喜:不用改代碼,直接加速

數據流架構過去一直難以普及,核心問題是編程難,必須用領域特定語言(DSL),兼容性極差。

而NextSilicon解決了這個歷史性難題:Maverick2的軟件棧支持C++、Fortran、Python、CUDA、ROCm、oneAPI,甚至主流AI框架TensorFlow、PyTorch。

也就是說,用戶手裏的舊代碼,不用改一行,就能在Maverick2上獲得加速。編譯器會自動完成代碼分割、硬件映射,運行時系統還會通過片上遙測持續優化。

如果兩個子模塊頻繁通信,硬件會自動把它們的物理位置拉近;如果出現瓶頸,就動態複製計算單元提升並行度——這些操作,開發者完全看不見。

[再強大的硬件,若無法編程,便毫無價值。]NextSilicon聯合創始人Ilan Tayari的這句話,正是Maverick2能落地的關鍵。

性能碾壓,還能處理GPU搞不定的任務

空談技術不夠,基準測試數據纔是硬實力。Maverick2基於臺積電5nm工藝製造,提供單芯和雙芯兩個版本。

單芯版集成96GB HBM3e顯存,TDP 400W(風冷);雙芯版集成192GB HBM3e,TDP 750W。在多項HPC測試中,它的表現讓傳統芯片相形見絀。

內存帶寬(STREAM測試):達到5.2 TB/s,遠超主流GPU的內存帶寬上限,意味着數據傳輸速度更快;

內存更新性能(GUPS):460W功耗下實現32.6 GUPS,比CPU快22倍,比GPU快近6倍;

真實HPC負載(HPCG):750W功耗下實現600 GFLOPS,性能對標英偉達高端GPU,但功耗僅為後者的一半;

圖算法(PageRank):吞吐量達40 gigapages/s,小規模圖性能是GPU的10倍,還能處理超過25GB的大型圖結構——而同類GPU根本無法運行這麼大的圖。

後一塊拼圖,Arbel RISC-V CPU對標巨頭

如果說Maverick2是加速引擎,那麼NextSilicon最新披露的Arbel CPU,就是讓這個引擎跑得更順的關鍵,它要補上通用計算的短板,實現CPU+加速器的垂直整合。

Arbel是一款基於RISC-V架構的高性能CPU,定位直接對標英特爾的Lion Cove(Xeon系列核心)和AMD的Zen5(Epyc系列核心)。

其核心參數相當亮眼,臺積電5nm工藝,最高主頻2.5GHz,10發射寬核設計,配備480條重排序緩衝區,還有4個128位矢量單元,支持SIMD工作負載。

在架構上,Arbel有幾個關鍵創新:

①寬指令流水線:10寬發射寬度能一次處理更多指令,核心利用率大幅提升;

②高效內存子系統:64KB L1指令緩存+64KB L1數據緩存+1MB L2緩存,解決內存延遲瓶頸;

③精準分支預測:Elite TAGE分支預測器減少錯誤預測,避免計算資源浪費。

NextSilicon做Arbel的邏輯很清晰,像英偉達用Grace CPU+Hopper GPU打造超級芯片一樣,Arbel將與下一代Maverick3加速器搭配,形成通用計算+專用加速的全棧優化方案。

商業落地與未來,從國家實驗室到AI新場景

目前,Maverick2已在數十家客戶中部署,最受關注的是與桑迪亞國家實驗室的三年合作。

桑迪亞國家實驗室曾和NextSilicon合作設計和測試了Maverick-1數據流引擎,目前桑迪亞正在構建名為Spectra的新型架構超級計算機,這臺超級計算機將使用Maverick-2數據流引擎構建。

NextSilicon的野心不止於HPC,按照規劃,2027年推出的Maverick3將增加對低精度AI計算的支持,把可重構架構的優勢拓展到AI訓練與推理場景。

屆時,Arbel CPU與Maverick3的組合,可能會在通用計算+AI+HPC的融合場景中,形成對英偉達Grace+Blackwell的直接競爭。

對行業而言,NextSilicon的意義遠不止多了一款芯片,它證明了在摩爾定律放緩的時代,打破巨頭壟斷的關鍵,不是在現有架構上堆參數,而是用軟件智能驅動硬件重構,用開放架構擺脫供應商鎖定。

尾:

從英偉達憑藉CUDA生態壟斷HPC/AI加速器市場,到英特爾、AMD長期佔據CPU領域,行業似乎已經習慣了巨頭定義規則。

但NextSilicon的出現提醒我們:計算的未來,不該只有一種聲音。

或許,NextSilicon未必能立刻顛覆英偉達、英特爾的地位,但它點亮的可重構+開放架構方向,已經為計算領域打開了一扇新門。

部分資料參考:AI科技匯:《NextSilicon發佈運行時可重構架構》,芯片大師:《成立僅8年,這家初創公司,硬剛英偉達和AMD》,半導體行業觀察:《一家芯片初創公司,單挑Nvidia和Intel》

本公衆號所刊發稿件及圖片來源於網絡,僅用於交流使用,如有侵權請聯繫回覆,我們收到信息後會在24小時內處理。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10