感謝IT之家網友 不一樣的體驗 的線索投遞!
造芯片的還有高手?啱啱推出的一款最新芯片,直接衝上硅谷熱榜。峯值推理速度高達每秒17000 個 token。
什麼概念呢?當前公認最強的 Cerebras,速度約為 2000 token/s。速度直接快10 倍,同時成本驟減 20 倍、功耗降低 10 倍。這就意味着,LLM 真正來到了亞毫秒級的即時響應速度。
但這塊一夜之間刷屏硅谷的芯片,並非出自英偉達、AMD 之手,而是一家成立僅兩年、團隊僅有 24 人的初創公司 ——Taalas。
芯片代號HC1,也是公司的首款產品。不同於所有競爭對手,Taalas 選擇了迄今為止最極端的技術方案 —— 模型不再加載到內存裏,而是直接刻在硅片上。換言之,芯片即模型。
結果顯而易見,Taalas 撬動了芯片算力護城河:H100 買不到,試試 HC1 又何妨?
速度快 10 倍,功耗降至 10 分之一
HC1 目前搭載Llama 3.1 8B模型,用戶每秒最高可生成 17000 token/s,遠高於主流 GPU / ASIC。
其中,在同一模型下 Cerebras 接近每秒 2000 個 token,SambaNova 約為每秒 900 個 token,Groq 約為每秒 600 個,英偉達 Blackwell 架構的 B200 為每秒 350 個。
具體來說,HC1 採用台積電 N6 工藝,面積為 815mm²,體積小巧而且開源,單顆芯片即可滿足 8B 模型需求。
每顆芯片典型功耗僅為250W,一個服務器如果同時裝配 10 顆 HC1,功耗也才 2.5kW,可以直接使用常規空氣冷卻機架部署。
那麼是如何做到這麼大的性能飛躍的呢?
首先 HC1 借鑑了 2000 年代初期的結構化 ASIC芯片理念。結構化 ASIC 芯片採用門陣列和固化 IP,然後僅通過改變互連層就能使芯片適應特定的工作負載。
這樣下來,結構化 ASIC 芯片不僅比全定製 ASIC 更便宜,也比 FPGA 性能更優。
HC1 則採用類似思路,不改變底層電路,只通過調整兩層掩模,就能低成本快速做出專用 AI 推理芯片。
它放棄了大多數可編程功能,將模型連同權重一起通過基於掩模 ROM的調用架構存儲在芯片上,並保留一個可編程SRAM,用於保存微調後的權重(如 LoRA)和 KV 緩存。其餘則全部通過掩模 ROM 固化執行。
這一策略能在設計成本相對可控的前提下,實現模型到芯片的快速轉化,將芯片生產周期從原先的六個月縮短到兩個月。
而如此激進的量化方式勢必會影響性能,研究團隊也意識到了這一點,所以可以通過 LaRA 適配器進行重新訓練,以及可配置的上下文窗口,讓芯片的最低限度靈活性得以保留。
換句話說,就是將一個完整大模型通過物理硬連線進芯片中,省去了傳統存算分離的成本,用靈活性換取極致的速度和效率。
除了 Llama 3.1,Taalas 也嘗試將其它模型集成到 HC1 上,例如對DeepSeekR1-671B的多芯片解決方案。
將 SRAM 部分拆分到單獨的芯片上,然後可以將每片 HC1 的存儲密度提高到約 20 位參數,總計需要 30 個定製 HC1。
整體處理速度可達到每用戶每秒 12000 個 token,如果考慮到 30 顆芯片成本為每百萬 token 是 7.6 美分,那麼該方案成本也不到同等吞吐量的 GPU 方案的一半。
假設 GPU 更新周期為四年,而 HC1 每年都需要重新更換,總成本也仍然具備優勢。
AMD 前高管夢之隊
其背後的公司 Taalas成立於兩年前,由 AMD 前集成電路設計總監 Ljubiša Bajić、AMD / ATI / Altera 前技術經理和工程師 Leila Bajić、AMD 前 ASIC 設計總監 Drago Ignjatović共同創立,堪稱 AMD 前高管夢之隊。
其中,Ljubiša Bajić不僅曾在 AMD 和英偉達擔任高級職位,負責高性能 GPU 研發設計,還是Tenstorrent的創始人兼首任 CEO。
新公司致力於開發專為 AI 推理和訓練設計的全新架構,強調分層設計和晶格網絡,能夠讓芯片像大腦一樣根據任務需求動態處理數據。
在 2020 年,芯片教父Jim Keller也強勢加入 Tenstorrent,並接任 CEO 一職,而 Ljubiša Bajić轉任首席技術官 CTO,專注於產品研發。
隨後,他又創立了 Taalas,試圖通過類似硅基編譯器的方式,直接將 AI 模型轉化為硅芯片。
於是首戰告捷,一個僅有 24 名成員的團隊,產品投入僅 3000 萬美元,就創造出比通用 AI 芯片高出幾個數量級的能效比。
目前 Taalas 已籌集 2 億美元投資,預計將在春季基於 HC1 發布第二代變體,將集成一款中等規模的推理大模型。
隨後預計將在冬季部署上線 HC2,HC2 密度更高、運行速度也會更快。
不過對於 HC1,網友們的評價卻是兩極分化。
一方面,網友認為 HC1 的超低延遲將有益於推動具身智能等領域發展。
另一方面,也有網友實測過後發現,HC1 高速推理的背後,卻是糟糕的推理深度:
以及對於迭代周期相當迅速的大模型來說,HC1 的硬編碼可能會使芯片很容易過時。
這也是為什麼當前芯片廠商都在普遍推出通用型芯片的原因之一。
參考鏈接:
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed