存算一體芯片,實打實的火了

半導體產業縱橫
2024/04/08

在當前數字化高速發展的時代,數據處理和存儲的需求日益增長,傳統的計算與存儲分離的模式已逐漸難以滿足高效、低能耗的需求。

因此,業界迫切需要一種新型的解決方案來應對這一挑戰。存算一體便是當下最熱門的方案之一。

01

存算一體架構的優勢

存算一體技術有助於解決傳統馮·諾依曼架構下的「存儲牆」和「功耗牆」問題。

馮·諾依曼架構要求數據在存儲器單元和處理單元之間不斷地「讀寫」,這樣數據在兩者之間來回傳輸就會消耗很多的傳輸功耗。根據英特爾的研究表明,當半導體工藝達到 7nm 時,數據搬運功耗高達 35pJ/bit,佔總功耗的63.7%。數據傳輸造成的功耗損失越來越嚴重,限制了芯片發展的速度和效率,形成了「功耗牆」問題。

「存儲牆」是指由於存儲器的性能跟不上 CPU 的性能,導致 CPU 需要花費大量的時間等待存儲器完成讀寫操作,從而降低了系統的整體性能。「存儲牆」成為了數據計算應用的一大障礙。特別是,深度學習加速的最大挑戰就是數據在計算單元和存儲單元之間頻繁的移動。

存算一體的優勢便是打破存儲牆,消除不必要的數據搬移延遲和功耗,並使用存儲單元提升算力,成百上千倍的提高計算效率,降低成本。

存算一體屬於非馮·諾伊曼架構,在特定領域可以提供更大算力(1000TOPS以上)和更高能效(超過10-100TOPS/W),明顯超越現有ASIC算力芯片。

除了用於AI計算外,存算技術也可用於感存算一體芯片和類腦芯片,代表了未來主流的大數據計算芯片架構。

02

存算一體技術分類

目前,存算一體的技術路徑尚未形成統一的分類,目前主流的劃分方法是依照計算單元與存儲單元的距離,將其大致分為近存計算(PNM)、存內處理(PIM)、存內計算(CIM)。

近存計算 是一種較為成熟的技術路徑。它利用先進的封裝技術,將計算邏輯芯片和存儲器封裝到一起,通過減少內存和處理單元之間的路徑,實現高I/O密度,進而實現高內存帶寬以及較低的訪問開銷。近存計算主要通過2.5D、3D堆疊等技術來實現,廣泛應用於各類CPU和GPU上。

存內處理 則主要側重於將計算過程儘可能地嵌入到存儲器內部。這種實現方式旨在減少處理器訪問存儲器的頻率,因為大部分計算已經在存儲器內部完成。這種設計有助於消除馮·諾依曼瓶頸帶來的問題,提高數據處理速度和效率。

存內計算 同樣是將計算和存儲合二為一的技術。它有兩種主要思路。第一種思路是通過電路革新,讓存儲器本身就具有計算能力。這通常需要對SRAM或者MRAM等存儲器進行改動,以在數據讀出的decoder等地方實現計算功能。這種方法的能效比通常較高,但計算精度可能受限。

另一種思路是在存儲器內部集成額外的計算單元,以支持高精度計算。這種思路主要針對DRAM等主處理器訪問開銷大的存儲器,但DRAM工藝對計算邏輯電路不太友好,因此集成計算單元的挑戰較大。

存內計算也就是國內大部分初創公司所說的存算一體。

值得注意的是,不同的公司在這一領域的研發與實踐中,各自選擇了不同的賽道進行押注。有的公司側重於優化存儲與計算之間的協同效率,力求在大數據處理上實現質的飛躍;而另一些公司則更注重架構的靈活性和擴展性,以適應不斷變化的市場需求。此外,存算一體依託的存儲介質也呈現多樣化,比如以SRAM、DRAM為代表的易失性存儲器、以Flash為代表的非易失性存儲器等。綜合來看,不同存儲介質各有各的優點和短板。

03

各大廠商,各有押注

從存算一體發展歷程來看,自2017年起,英偉達微軟三星等大廠提出了存算一體原型,同年國內存算一體芯片企業開始湧現。

大廠們對存算一體架構的需求是實用且落地快,而作為最接近工程落地的技術,近存計算成為大廠們的首選。諸如特斯拉、三星等擁有豐富生態的大廠以及英特爾、IBM等傳統芯片大廠都在佈局近存計算。

國際主要廠商研究進展

在存算一體的研究路徑上,三星選擇多個技術路線進行嘗試,2021年初,三星發布基於HBM的新型內存,裏面集成了AI處理器,該處理器可以實現高達1.2TFLOPS的計算能力,新型HBM-PIM芯片將AI引擎引入每個存儲庫,從而將處理操作轉移到HBM,可以減輕在內存和處理器之間搬運數據的負擔。三星表示新型HBM-PIM芯片,可以提供2倍的系統性能,同時能耗降低了70%以上。

2022年1月三星電子又帶來新研究成果,該公司在頂級學術期刊Nature上發表了全球首個基於MRAM(磁性隨機存儲器)的存內計算研究。據介紹,三星電子的研究團隊通過構建新的MRAM陣列結構,用基於28nm CMOS工藝的MRAM陣列芯片運行了手寫數字識別和人臉檢測等AI算法,準確率分別為98%和93%。

SK海力士2022年2月也宣佈開發出下一代智能內存芯片技術PIM,SK海力士還開發出了公司首款基於PIM技術的產品- GDDR6-AiM的樣本。GDDR6-AiM是將計算功能添加到數據傳輸速度為16Gbps的GDDR6內存的產品。與傳統DRAM相比,將GDDR6-AiM 與 CPU、GPU 相結合的系統可在特定計算環境中將演算速度提高至最高16倍。GDDR6-AiM有望在機器學習、高性能計算、大數據計算和存儲等領域有廣泛應用。隨後在2022年10月,SK海力士再次宣佈推出基於CXL的存算一體計算存儲器解決方案CMS(Computational Memory Solution)。

台積電也在進行存內計算的研究,該公司的研究人員在2021年初的國際固態電路會議(ISSCC 2021)上提出了一種基於數字改良的SRAM設計存內計算方案,能支持更大的神經網絡。2024年1月,台積電攜手工研院宣佈成功研發出自旋軌道轉矩磁性存儲器(SOT-MRAM)陣列芯片,標誌着在下一代 MRAM 存儲器技術領域的重大突破。這一創新產品不僅採用了先進的運算架構,而且其功耗僅為同類技術 STT-MRAM 的 1%。工研院與台積電的合作使得 SOT-MRAM 在工作速度方面達到 10ns,進一步提高了存內運算性能。

英特爾也是 MRAM 技術的主要推動者,該公司採用的是基於 FinFET 技術的 22 nm 製程。2018 年底,英特爾首次公開介紹了其 MRAM 的研究成果,推出了一款基於 22nm FinFET 製程的 STT-MRAM,當時,該公司稱,這是首款基於 FinFET 的 MRAM 產品,並表示已經具備該技術產品的量產能力。

國內主要廠商研究進展

國內初創企業則聚焦於無需考慮先進製程技術的存內計算。其中,知存科技、億鑄科技、九天睿芯等初創公司都在押注PIM、CIM等「存」與「算」更親密的存算一體技術路線。億鑄科技、千芯科技等專注於大模型計算、自動駕駛等AI大算力場景;閃易、新憶科技、蘋芯科技、知存科技等則專注於物聯網、可穿戴設備、智能家居等邊緣小算力場景。

那麼目前各家企業的研究和量產情況進展如何呢?各家的技術路線有何差異?存算一體技術未來的整體趨勢如何?

雲和邊緣大算力企業

億鑄科技

億鑄科技成立於2020年6月,致力於用存算一體架構設計AI大算力芯片,首次將憶阻器ReRAM和存算一體架構相結合,通過全數字化的芯片設計思路,在當前產業格局的基礎上,提供一條更具性價比、更高能效比、更大算力發展空間的AI大算力芯片換道發展新路徑。2023年,億鑄科技率先提出「存算一體超異構架構」這一全新的技術發展路徑,為中國AI算力芯片的進一步發展增添新動能。

目前,億鑄科技點亮了基於憶阻器ReRAM的高精度、低功耗存算一體AI大算力POC芯片,基於傳統工藝製程,能效比表現經第三方機構驗證,超出傳統架構AI芯片平均性能的10倍以上。

千芯科技

千芯科技成立於 2019 年,專注於面向人工智能和科學計算領域的大算力存算一體算力芯片與計算解決方案研發,在2019年率先提出可重構存算一體技術產品架構,在計算吞吐量方面相比傳統AI芯片能夠提升10-40倍。目前千芯科技可重構存算一體芯片(原型)已在雲計算、自動駕駛感知、圖像分類、車牌識別等領域試用或落地;其大算力存算一體芯片產品原型也已在國內率先通過互聯網大廠內測。

後摩智能

後摩智能成立於2020年,2023年5月後摩智能正式推出存算一體智駕芯片後摩鴻途H30,物理算力達到256TOPS,典型功耗達到35W。根據後摩實驗室及MLPerf公開測試結果,在ResNet50性能功耗對比上,採取12nm製程的H30相比同類芯片性能提升超2倍,功耗減少超50%。

據後摩智能聯合創始人兼研發副總裁陳亮介紹,鴻途H30 以存算一體創新架構實現了六大技術突破,即大算力、全精度、低功耗、車規級、可量產、通用性。鴻途H30 基於 SRAM 存儲介質,採用數字存算一體架構,擁有極低的訪存功耗和超高的計算密度,在 Int8 數據精度條件下,其 AI 核心IPU 能效比高達 15Tops/W,是傳統架構芯片的7 倍以上。同時,後摩智能第二代產品鴻途H50已經在全力研發中,預計將於2024年推出,支持客戶2025年的量產車型。

端和邊緣小算力企業

知存科技

知存科技的方案是重新設計存儲器,利用Flash閃存存儲單元的物理特性,對存儲陣列改造和重新設計外圍電路使其能夠容納更多的數據,同時將算子也存儲到存儲器當中,使得每個單元都能進行模擬運算並且能直接輸出運算結果,以達到存算一體的目的。

知存科技的存算一體芯片已進入多個可穿戴設備產品,年銷量預計達百萬。2020年知存科技推出了存算一體加速器WTM1001,2022年知存科技推出全球首顆大規模量產的存內計算芯片WTM2101,該芯片已被多家國際知名企業用於智能語音、AI健康監測等場景,相比傳統芯片,該芯片在算力和功耗上優勢顯著,賦能行業用戶實現端側AI能力的提升和應用的推廣。

目前,知存科技自主研發的邊緣側算力芯片WTM-8系列也即將量產,該系列芯片能夠提供至少24Tops算力,而功耗僅為市場同類方案的5%,將助力移動設備實現更高性能的圖像處理和空間計算。2025 年前後知存科技將推出 WTM-C 系列產品,可以用於邊緣服務器等。隨着集成規模、工藝等方面的技術推進, 未來幾年存內計算產品預計平均每年都有 5~10 倍算力的提升。

九天睿芯

九天睿芯專注於神經擬態感存算一體芯片研發,提供人工智能系統高效低耗運行的最新解決方案,廣泛應用於AIoT等對低功耗延時需求強烈的領域,為用戶提供面向聲音端和視覺端的AI芯片。九天睿芯基於多年在全球領先的視覺領域感存算一體研究學習和實踐積累,並和來自世界頂級圖像傳感器公司的研發合作和戰略投資,已設計出可廣泛應用於視覺領域的超高能效比(20Tops/W)基於SRAM的感存算一體架構芯片ADA20X。

04

存算一體技術已至大規模應用的前夜

當前AI算力需求的不斷增長,存算一體技術已經接近大規模量產的節點,隨着技術成熟度的提高以及大規模商用落地,其市場空間有望呈現爆炸式增長。

據QYResearch調研團隊最新報告《全球存算一體技術市場報告2023-2029》顯示,預計2029年全球存算一體技術市場規模將達到306.3億美元,未來幾年年複合增長率CAGR為154.7%。這一高增長率的背後,是存算一體技術在數據處理、人工智能、物聯網等多個領域的廣泛應用和深度融合。

隨着大數據、雲計算和人工智能等技術的快速發展,存算一體技術作為實現高效數據存儲和計算的關鍵技術,其重要性日益凸顯。面對如此巨大的市場空間和發展機遇,我們也需要清醒地認識到存算一體技術面臨的挑戰和困難。比如,存算一體技術是一門非常複雜的綜合性創新,產業還算不上成熟,在產業鏈方面仍舊存在上游支撐不足,下游應用不匹配的諸多挑戰,但諸多的挑戰同時也構成了當前存算一體創新未來可構築的綜合性壁壘。

未來,隨着技術的不斷進步和應用的不斷拓展,存算一體技術將在更多領域發揮重要作用,為全球經濟發展注入新的動力。同時,這也將對相關產業鏈產生深遠影響,推動整個科技產業的創新和升級。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10