騰訊混元開源0.3B端側模型內存佔用僅600MB

智通財經APP獲悉，2月10日，騰訊混元正式推出一款面向消費級硬件場景的「極小」模型HY-1.8B-2Bit，等效參數量僅有0.3B，內存佔用僅600MB，比常用的一些手機應用還小。通過對此前混元的小尺寸語言模型——HY-1.8B-Instruct進行 2 比特量化感知訓練(QAT)產出，這一模型對比原始精度模型等效參數量降低了6倍，並且在沿用原模型全思考能力同時，在真實端側設備上對比原始精度模型生成速度提升2—3倍，可大幅提升使用體驗。

此次騰訊混元推出HY-1.8B-2Bit模型，可以在邊緣設備上無壓力部署。這也是首個在實現2bit產業級量化的端側模型實踐。此外，HY-1.8B-2Bit模型還沿用了Hunyuan-1.8B-Instruct的全思考能力，用戶可以靈活使用，為簡單的查詢提供了簡潔的思維鏈，為複雜的任務提供了詳細長思維鏈，用戶可以根據其應用的複雜性和資源限制靈活地選擇這兩種模式。

騰訊混元還通過數據優化、彈性拉伸量化以及訓練策略創新三個方法來最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面，騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16僞量化權重，對比原始精度模型，HY-1.8B-2Bit實際模型大小直降6倍，僅有300MB，能夠靈活用於端側設備上。該模型也已在 Arm 等計算平台上完成適配，可部署於啓用 Arm SME2 技術的移動設備上，並實現高效運行。

在MacBook M4芯片上，HY-1.8B-2Bit固定了線程數為2測試了不同窗口大小下的首字時延和生成速度，模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對比，首字時延在1024輸入內能夠保持3~8倍的加速，生成速度上常用窗口下對比原始模型精度，HY-1.8B-2Bit能夠實現至少2倍穩定加速。

在天璣9500上同樣進行了測試，對比HY-1.8B-Q4格式首字時延能夠加速1.5~2倍，生成速度加速約1.5倍。

為在邊緣設備上實現大語言模型的靈活部署，HY-1.8B-2Bit採用了極低比特量化技術，在保持與INT4-PTQ方法相當模型性能的同時，實現了在端側設備上的高效穩定推理。

當前，HY-1.8B-2Bit的能力仍受限於監督微調(SFT)的訓練流程，以及基礎模型本身的性能與抗壓能力。針對這一問題，混元團隊未來將重點轉向強化學習與模型蒸餾等技術路徑，以期進一步縮小低比特量化模型與全精度模型之間的能力差距，從而為邊緣設備上的大語言模型部署開拓更廣闊的應用前景。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

騰訊混元開源0.3B端側模型內存佔用僅600MB

熱議股票

騰訊混元開源0.3B端側模型 內存佔用僅600MB

熱議股票

騰訊混元開源0.3B端側模型內存佔用僅600MB