熱點丨以色列芯片初創公司NextSilicon，單挑Nvidia和Intel

·聚焦:人工智能、芯片等行業

歡迎各位客官關注、轉發

前言：

這家成立於2017年、累計孖展超3億美元的公司，正試圖用一種[反傳統]的架構，同時挑戰英偉達在HPC/AI加速器領域、英特爾在CPU領域的統治地位。

它的底氣，來自一套名為智能數據流架構的創新，讓硬件不再是固定的[鐵盒子]，而是能跟着軟件動態調整的自適應引擎。

作者| 方文三

圖片來源|網絡

HPC的[中年危機]，傳統架構困在枷鎖裏

高性能計算（HPC）是科技領域的[基建]，從天氣預報到新藥研發，從量子模擬到AI訓練，都離不開它的支撐。

但近年來，支撐HPC的傳統CPU與GPU架構，正逐漸顯露出力不從心的疲態。

NextSilicon首席執行官Elad Raz曾尖銳地指出行業痛點：大規模代碼重寫、噩夢般的移植工程、飆升的能耗，以及微乎其微的性能增益，已成為常態。

這背後，是沿用80年的馮·諾依曼架構的固有侷限，數據必須在內存和計算單元之間來回傳輸，形成了難以突破的內存牆；

更關鍵的是，為了支持通用計算，傳統芯片把98%的硅面積都用在了分支預測、亂序執行、指令解碼等[控制開銷]上,真正用於核心計算的部分僅佔2%。

當科研人員用C++寫了一段流體力學模擬代碼，若想遷移到英偉達GPU上加速，必須用CUDA語言重寫；即便成功移植，GPU也會因為無法動態適配稀疏計算、圖結構處理等場景，導致能效比驟降。

更尷尬的是，隨着摩爾定律逼近極限，CPU/GPU的性能提升越來越慢，想要獲得2倍算力，往往需要付出2倍以上的功耗和成本，這對需要大規模集羣的HPC領域來說，無疑是不可持續的死循環。

行業急需一種新範式，既能保留通用計算的靈活性，又能擁有ASIC的高效能；既不用重寫代碼，又能動態適配不同任務。NextSilicon的Maverick2，正是衝着這個「不可能三角」來的。

從硬件適配軟件到硬件跟着軟件變

Maverick2的核心創新，集中在兩個詞上：運行時可重構與數據流架構。這兩個技術組合，徹底打破了傳統芯片的[剛性思維]。

①運行時可重構：納秒級[精準打擊]熱點代碼

傳統可重構芯片想要調整硬件邏輯，必須重啓設備，根本無法適配實時變化的工作負載。

而Maverick2的運行時可重構，能在程序執行過程中，以納秒級速度動態調整硬件結構，相當於芯片有了即時優化能力。

Maverick2的智能軟件會實時監控應用，精準識別這些熱點，然後立刻重構硬件，專門為這些關鍵代碼打造定製化計算通道。

如果把傳統GPU比作通用工廠，無論生產什麼都用一套流水線；Maverick2就是靈活工坊，發現需要生產齒輪，立刻調整機牀；

接下來要做螺絲，瞬間切換工具，全程不用停工。這樣一來，寶貴的硅面積和功耗不再浪費在極少執行的代碼上，效率自然飆升。

②數據流架構：繞開馮·諾依曼內存牆

為了徹底解決數據傳輸瓶頸，Maverick2採用了數據流架構，而非傳統的馮·諾依曼架構。

在這套架構裏，芯片的絕大部分面積都給了計算單元（ALU），遠超CPU的2%佔比，甚至比GPU的計算單元密度更高。

具體來說，數據不再是從內存到計算單元來回跑，而是像流水一樣在ALU之間流動。

當數據到達某個ALU時，計算自動觸發，結果直接流向需要它的下一個ALU；中間通過保留站（RS）暫存數據，內存入口點（MEPs）精準調度內存訪問，全程沒有多餘的數據移動。

更關鍵的是，Maverick2的編譯器能自動完成任務拆分，串行邏輯交給主機CPU，計算密集型任務則被轉化為「中間表示」，映射到可重構硬件上，還能複製到多個ALU實現並行。

比如做AI推理時，芯片先配置為執行ReLU激活函數，幾納秒後就重構成矩陣乘法單元，全程無需人工干預。

③最大驚喜：不用改代碼，直接加速

數據流架構過去一直難以普及，核心問題是編程難，必須用領域特定語言（DSL），兼容性極差。

而NextSilicon解決了這個歷史性難題：Maverick2的軟件棧支持C++、Fortran、Python、CUDA、ROCm、oneAPI，甚至主流AI框架TensorFlow、PyTorch。

也就是說，用戶手裏的舊代碼，不用改一行，就能在Maverick2上獲得加速。編譯器會自動完成代碼分割、硬件映射，運行時系統還會通過片上遙測持續優化。

如果兩個子模塊頻繁通信，硬件會自動把它們的物理位置拉近；如果出現瓶頸，就動態複製計算單元提升並行度——這些操作，開發者完全看不見。

[再強大的硬件，若無法編程，便毫無價值。]NextSilicon聯合創始人Ilan Tayari的這句話，正是Maverick2能落地的關鍵。

性能碾壓，還能處理GPU搞不定的任務

空談技術不夠，基準測試數據纔是硬實力。Maverick2基於臺積電5nm工藝製造，提供單芯和雙芯兩個版本。

單芯版集成96GB HBM3e顯存，TDP 400W（風冷）；雙芯版集成192GB HBM3e，TDP 750W。在多項HPC測試中，它的表現讓傳統芯片相形見絀。

內存帶寬（STREAM測試）：達到5.2 TB/s，遠超主流GPU的內存帶寬上限，意味着數據傳輸速度更快；

內存更新性能（GUPS）：460W功耗下實現32.6 GUPS，比CPU快22倍，比GPU快近6倍；

真實HPC負載（HPCG）：750W功耗下實現600 GFLOPS，性能對標英偉達高端GPU，但功耗僅為後者的一半；

圖算法（PageRank）：吞吐量達40 gigapages/s，小規模圖性能是GPU的10倍，還能處理超過25GB的大型圖結構——而同類GPU根本無法運行這麼大的圖。

最後一塊拼圖，Arbel RISC-V CPU對標巨頭

如果說Maverick2是加速引擎，那麼NextSilicon最新披露的Arbel CPU，就是讓這個引擎跑得更順的關鍵，它要補上通用計算的短板，實現CPU+加速器的垂直整合。

Arbel是一款基於RISC-V架構的高性能CPU，定位直接對標英特爾的Lion Cove（Xeon系列核心）和AMD的Zen5（Epyc系列核心）。

其核心參數相當亮眼，臺積電5nm工藝，最高主頻2.5GHz，10發射寬核設計，配備480條重排序緩衝區，還有4個128位矢量單元，支持SIMD工作負載。

在架構上，Arbel有幾個關鍵創新：

①寬指令流水線：10寬發射寬度能一次處理更多指令，核心利用率大幅提升；

②高效內存子系統：64KB L1指令緩存+64KB L1數據緩存+1MB L2緩存，解決內存延遲瓶頸；

③精準分支預測：Elite TAGE分支預測器減少錯誤預測，避免計算資源浪費。

NextSilicon做Arbel的邏輯很清晰，像英偉達用Grace CPU+Hopper GPU打造超級芯片一樣，Arbel將與下一代Maverick3加速器搭配，形成通用計算+專用加速的全棧優化方案。

商業落地與未來，從國家實驗室到AI新場景

目前，Maverick2已在數十家客戶中部署，最受關注的是與桑迪亞國家實驗室的三年合作。

桑迪亞國家實驗室曾和NextSilicon合作設計和測試了Maverick-1數據流引擎,目前桑迪亞正在構建名為Spectra的新型架構超級計算機,這臺超級計算機將使用Maverick-2數據流引擎構建。

NextSilicon的野心不止於HPC，按照規劃，2027年推出的Maverick3將增加對低精度AI計算的支持，把可重構架構的優勢拓展到AI訓練與推理場景。

屆時，Arbel CPU與Maverick3的組合，可能會在通用計算+AI+HPC的融合場景中，形成對英偉達Grace+Blackwell的直接競爭。

對行業而言，NextSilicon的意義遠不止多了一款芯片，它證明了在摩爾定律放緩的時代，打破巨頭壟斷的關鍵，不是在現有架構上堆參數，而是用軟件智能驅動硬件重構，用開放架構擺脫供應商鎖定。

結尾：

從英偉達憑藉CUDA生態壟斷HPC/AI加速器市場，到英特爾、AMD長期佔據CPU領域，行業似乎已經習慣了巨頭定義規則。

但NextSilicon的出現提醒我們：計算的未來，不該只有一種聲音。

或許，NextSilicon未必能立刻顛覆英偉達、英特爾的地位，但它點亮的可重構+開放架構方向，已經為計算領域打開了一扇新門。

部分資料參考：AI科技匯：《NextSilicon發佈運行時可重構架構》，芯片大師：《成立僅8年，這家初創公司，硬剛英偉達和AMD》，半導體行業觀察：《一家芯片初創公司，單挑Nvidia和Intel》

本公衆號所刊發稿件及圖片來源於網絡，僅用於交流使用，如有侵權請聯繫回覆，我們收到信息後會在24小時內處理。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

熱點丨以色列芯片初創公司NextSilicon，單挑Nvidia和Intel

熱議股票