炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:虎嗅APP)

出品 | 虎嗅科技組
作者 | 丸都山
編輯 | 苗正卿
頭圖 | 清微智能提供
在2025年的AI芯片賽道上,隨便扔一板磚,能砸倒一片「英偉達學徒」。
但與此同時,也有一羣人認為,英偉達構建的敘事乃至GPU這個品類本身,都到了該被顛覆重構的節點。
創辦清微智能的王博,算是其中頗具代表性的一位。
「行業現在有一個絕對佔據市場份額的競品,比如英偉達或者英特爾,你是絕對不能按照它的路徑走的,那會被碾壓得渣都不剩。」
而王博的做法是,選擇了一條與英偉達截然不同的路徑——可重構芯片,一種能夠動態配置計算資源的芯片。
關於這個概念,王博用一組形象的比喻解釋了它和GPU的區別:後者更像是一條筆直的鐵軌,火車沿着既定線路高速運行;而在可重構芯片上,重構後的計算單元讓這條鐵路延伸出了多個「道岔」,切換這些計算單元,即可完成多種任務的轉換。
更進一步講,可重構芯片與傳統的GPU芯片是兩種完全截然不同的計算範式,後者屬於指令驅動+共享存儲,前者屬於無指令配置+數據流驅動。
以一個典型的工作場景為例,現在有兩枚正在做大模型訓練的GPU,其中一枚計算完數據後,需要執行指令將結果寫到HBM中,隨後再執行指令通過「PCIe——網卡——交換機」這條鏈路傳到另外一枚GPU的HBM中,以此實現相互協作。
在同樣的場景中,可重構芯片無需取指譯碼,通過無指令配置即可完成計算,並直接將數據通過自帶的通信接口傳給下一枚芯片,在多枚芯片計算完成後,再統一寫回到外部存儲器上。
圖片備註:可重構芯片架構示意圖如果對芯片架構有所了解,就會發現這已經脫離了典型的「馮諾依曼架構」。
當然,選擇這個特殊的芯片架構,並非是王博刻意地迴避英偉達的技術路線。因為在他將可重構芯片技術搬出實驗室的2017年,人們在談到英偉達或是GPU時,對他們的唯二印象就是「打遊戲」和「挖礦」。
而在那個Transformer架構尚處於論文階段的時候,王博也從未想過將可重構芯片同大模型聯繫到一起。
彼時,王博選擇做可重構芯片創業的原因非常簡單——此前他曾在一家雲廠商擔任CTO,在拓展機器視覺業務的過程中,他發現市面上幾乎沒有能匹配端側,且符合強算力、性能優的芯片。
一次偶然的機會,他了解到相識多年的清華大學尹首一教授團隊的可重構芯片技術已逐漸成熟。幾番交談下,兩人都認為隨着人工智能興起和摩爾定律放緩,現有架構的演進無法滿足算力增長需求,未來會有與AI計算更適配的架構出現。而清華團隊自2006年開始一直專注可重構計算方向研究,積累的端側、雲端的技術成果已達到可以產業化的階段。於是,兩人一拍即合,在2018年共同創辦了清微智能。
不過,此時的可重構芯片距離一款商業化產品,中間還隔着一條巨大的鴻溝。
「商品化的東西,需要考慮可靠性、可升級、可兼容等等,最重要的是考慮客戶的需求和性價比。」王博表示。
這個過程,王博和創業團隊耗費了一年半的時間。
公司成立的第二年,清微智能推出了第一枚量產的可重構芯片,那是一枚用在智能手機上的語音喚醒芯片,可好景不長,高通在下代SoC上也集成了這項功能。後續王博又帶領團隊轉做藍牙耳機芯片,還較具前瞻性地在這個芯片上加入了AI算力。
但王博很快意識到,藍牙耳機芯片的需求與團隊核心能力並不完全匹配。「做藍牙耳機的SoC芯片,我們需要花大量時間去做模擬、傳輸、充電,這些我們並不擅長,我們最擅長的AI技術在這類芯片中只佔10%,這就導致團隊又遇到了技術問題」,王博解釋道。
在消費電子領域兩次遇阻後,王博進行了深刻覆盤,最終凝練出一條感悟:
「創業,應該在擅長的領域做有挑戰的事」,而在王博看來,AI正是那個能發揮可重構技術的領域。
深思熟慮下,王博決定帶領團隊全力攻克那些「AI佔比較高」的芯片領域,先從部署在邊緣端的芯片做起,之後一步步迭代至AI算力芯片。
2022年初,基於邊緣端芯片的多年積累,用於雲端部署的TX8系列芯片正式立項。彼時,儘管ChatGPT尚未開啓公測,但王博認為,清微端側芯片產品的成功足以證明可重構芯片的核及編譯器已經趨於成熟,應該去嘗試下那些「AI佔比更高」的行業。
去年年底,清微AI算力芯片首枚產品「TX81」開始批量出貨。短短半年,即實現了在全國多地落地千卡智算中心,累計訂單超過20000枚。

在性能上,基於TX81芯片打造的REX1032訓推一體服務器單機算力達4 PFLOPS,支持萬億以上大模型部署,可實現千卡直接互聯,且無需交換機成本,成為了AI算力芯片領域兼具性能和性價比優勢的一款產品。
面對當前市場環境,王博認為,在與英偉達等頭部企業的競爭中,生態上的劣勢短期內不可能逆轉,因此未來至少要有「5倍性價比」優勢,才能在市場中站穩腳跟。
「產品‘5倍性價比’包括性能更優、成本更低,如果做不到,很難說服客戶將模型遷移到我們的產品上。」王博補充道。
據王博描述,在下一代TX8系列芯片上,清微智能還會大面積使用「3D存儲」技術,以實現更高的性能,「5倍性價比」將很快得到兌現。
不過,還是要說的是,可重構芯片這項技術還算不上是清微智能的獨家祕笈。
包括谷歌的TPU芯片、美國AI芯片新貴Groq、斯坦福系獨角獸公司SambaNova,他們的技術路線均屬於可重構數據流新架構陣營。實際上,在以英偉達主導的GPU陣營之外,新架構芯片已大有開闢第二陣營的趨勢。
而對於未來可能存在的「同派之爭」,王博的態度十分豁達:
「近兩年那些新興的美國創業公司,他們做3D堆疊、做晶圓級芯片、做數據流,幾乎沒有做GPU的,至少證明這個技術路線是沒有問題的。」
以下為虎嗅與清微智能創始人王博的對話實錄,略有刪減:
Q:站在2017年,你為什麼會看好可重構芯片?
王博:在之前的公司做機器視覺產品的時候,我們發現業內沒有專用的AI芯片,都是用高通、MTK這些CPU芯片去硬跑,效率普遍都很低。正好當時看到尹老師(清華大學集成電路學院副院長尹首一)在做AI芯片,還是一個特殊的新架構,也滿足我們當時做這種產品的需求。包括之前所在的公司也上市了,就跟尹老師出來一起成立了清微智能。
之所以看好可重構技術,一方面,2016年國內「AI四小龍」出現,國外特斯拉推出自動駕駛,人工智能應用到了新的高度,對人工智能的商業落地需求更明確,對芯片的需求也更確定。另一方面,2017年左右,清華兩顆thinker系列芯片順利回片,也驗證了可重構的技術優勢。
Q:那你做出這個判斷的核心依據是什麼?
王博:初衷特別簡單,就是我們經過研究,還是覺得人工智能處於比較早期,所以它不僅需要低功耗,還要非常強調靈活性,這一點可重構芯片能很好地滿足。那時候也有人用ASIC做加速器,但我們都覺得那個方案太短期,長期來看還是需要一個既靈活又高效的架構,所以我們就覺得可重構架構前景比較好。
Q:從定義上看,可重構芯片和FPGA有些類似,二者有什麼本質區別嗎?
王博:FPGA重構的是「門電路」,而我們重構的是「計算單元」。
計算單元有點類似於CPU裏邊的ALU(邏輯單元),你也可以把它理解成一個小的計算器,這裏有成千上萬個這樣的計算器,要把這些計算器之間的通路連起來,它就變成了一個針對某種特殊計算的ASIC。然後這些計算機之間的連接,它就像鐵路的「道岔」一樣,它變了一種連接之後,就又變成一個新的ASIC了。
而且我們這個叫動態可重構,就相當於在程序運行過程中不斷地重構。每執行一段程序或者神經網絡的幾層,就把它擦掉了,重新再配一次。然後每次配置就是十幾納秒,十幾個時鐘周期這樣的時間。所以他是在不斷地在配置重構運行這麼一個過程。
Q:從實驗室技術到商業化產品,你遇到的最大挑戰是什麼?
王博:公司要的是一個產品化的東西,它就必須要解決幾個問題:
第一就是基於可重構核心外,還要做SoC的整體設計;第二要考慮產品的性價比;第三要考慮是否符合客戶需求;第四還要考慮穩定可靠,可升級、可兼容等等。
這項技術從學校走出來後,2019年才把第一顆小芯片做出來,到去年才把第一顆大芯片做出來,這麼長的周期,都是在不斷修正和迭代這些問題。
儘管AI纔是可重構技術最擅長的領域,但作為一項從實驗室走向產業化的新興技術,還是需要一步一個腳印,先從部署要求明確、驗證周期較短的邊緣端芯片切入,逐步積累經驗,再向更高性能的AI算力芯片拓展。
Q:作為國內最早開啓可重構芯片研究的公司,相信清微智能可參考的先例較少,你是如何看待這個問題的?
王博:首先,國外像谷歌這些公司,其實他們都做了七代TPU了。還有好幾個創業公司已經接近上市了,說明他們已經拿到了較好的市場反饋。比如,美國AI芯片新貴Groq、斯坦福系獨角獸公司SambaNova、硅谷AI芯片設計公司Cerebras Systems,他們的技術路線都屬於可重構數據流新架構陣營。
另外,這個東西我覺得它是有契機的,一開始我們就相信這條路,做的過程中發現它的優勢越來越明顯。而且我們始終認為,在一個行業中如果你想超越那個佔據絕對市場份額的競品,比如說英偉達、英特爾,你是絕對不能跟它走同樣道路的,這個就叫創新者窘境。
大公司做技術創新,可以沿着原來路徑走,小公司如果也在它的路徑裏,那會被它碾壓得渣都不剩。因為,它隨便拿出一點資源,對產品的升級可能比你投入十年都大得多。所以你沿着它路徑走,差距只會越來越大。
Q:但是市場上諸如博通或者Marwell這種公司,沒有按照英偉達的路線走,但市場份額也沒有明顯提升。
王博:這個悖論就是因為定製化芯片研發成本較高,而且博通還要盈利。所以作為客戶,找博通定這個芯片,那得賣出多少的量才能把這個成本攤平?我們始終認為在芯片行業,特別是算力芯片行業,定製芯片這條路是走不通的,或者說性價比是不划算的,遠不如買英偉達或者其他的通用芯片。
Q:那同樣都是做通用芯片,你們要如何與英偉達這類巨頭競爭呢?
王博:我認為需要在產品上具備5倍性價比優勢,就是從客戶的角度來看,它的採購成本、運維成本要降低,最重要的是性能的提升和優化,要在同類產品中有優勢,這些加起來,我們需要比競品有5倍優勢,才能在市場上分得更多的蛋糕。
Q:5倍性價比,這要如何實現?
王博:首先在可重構架構下,4000卡以內的智算中心是不需要交換機的,而且我們也不需要昂貴的HBM存儲,我們可以用DDR存儲代替;再有就是在下一代產品上我們會使用「3D存儲」技術,這會進一步提升能效比。
Q:可是像英偉達做的GPGPU,也可以在封測端使用3D存儲呀。
王博:在我們看來,3D存儲這條路不太適合GPU。從芯片設計維度來說,傳統GPU的計算存儲佈局受限於二維平面思維,而可重構數據流架構從底層就具備三維擴展的天然優勢,每個計算單元上方都有對應的存儲,這種空間自由度讓它和晶圓級集成、3.5D堆疊等立體封裝技術產生天然適配。未來,可重構芯片還是有較強的性能突破潛力。
Q:那這個搭載3D存儲的下一代產品更新,我們有明確的時間線嗎?
王博:預計明年下半年,我們就能交付到用戶手中了。
Q:行業內經常會說英偉達在生態上的絕對領先優勢,有許多國內GPU廠商也是選擇主動兼容CUDA,但可重構路線從根本上就與GPU不同,在生態搭建上是否意味着需要「從零做起」?在這一過程中,清微智能做了哪些工作?
王博:我們其實是做了三層的兼容。
第一層兼容是英偉達CUDA的API兼容,像cuDNN(專為深度學習設計的庫)、cuBLAS(用於線性代數運算的庫)用戶都可以使用,同時,我們和英偉達CUDA生態的兼容也在持續完善。
第二層就是「Triton兼容」,這也是OpenAI主推的開源編譯器,行業內主流大模型廠商都在向Triton做遷移,我們也在聯合智源研究院,積極參與國內Triton生態的建設工作。
第三層就是在芯片最底層,類似英偉達PTX那一層,我們做了一個比較特殊的RISC-V兼容,用戶可以用RISC-V的指令集去做整個芯片的編程,目前RISC-V開源生態也比較繁榮,對於用戶來說更容易進行性能極致調優。
此外,像一些主流的神經網絡框架,比如PyTorch,TensorFlow等,我們也都做了完整兼容適配,保證框架上編程的用戶做到無感遷移。
總的來說,我們不需要完全「從零做起」,通過擁抱開源的Triton + RISC-V生態,同時也儘量兼容CUDA,可以為不同類型的客戶提供適配的使用方式。
Q:國外的一些公司,像Groq,包括剛纔提到的谷歌TPU,他們都在做數據流新架構的芯片,你覺得這個技術路線未來會是算力芯片的第二陣營嗎?
王博:我覺得現在就算是第二陣營了。你看近兩年那些新興的美國創業公司,他們做3D堆疊、做晶圓級芯片、做數據流,但幾乎沒有做GPU的,至少證明這個技術路線是沒有問題的。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4697234.html?f=wyxwapp