
0.4G、離線也能跑的翻譯模型,開源了!
4月29日報道,今日,騰訊混元開源翻譯模型Hy-MT1.5-1.8B-1.25bit。該模型僅0.4G,就實現了33種語言高質量互譯,且下載後可直接在手機本地離線運行,翻譯表現優於谷歌翻譯。
這一原始模型的參數規模為1.8B,為降低用戶手機內存壓力,騰訊混元團隊通過量化壓縮推出了適配中高性能手機的2-bit、全系列手機的1.25-bit兩種方案,模型體積分別被壓縮至574MB、440MB。

開源項目主頁
此次開源,騰訊混元團隊還製作了一個實際可用的騰訊混元翻譯Demo版,並適配「後台取詞模式」。用戶在本地查看郵件、瀏覽網頁時,都能隨時調用混元翻譯,且無需網絡、訂閱,翻譯過程都在本地處理、不涉及個人信息的採集和上傳,一次下載永久免費使用。該Demo暫時只支持安卓體驗, 後續正式版會添加對IOS等平台的支持。
演示設備:高通驍龍7+gen2,16GB內存
Hy-MT1.5是騰訊混元團隊打造的專業翻譯大模型,原生支持33種語言、5種方言及1056個翻譯方向,包含中英互譯以及對法語、日語、阿拉伯語、俄語,甚至藏語、蒙古語等各種語言的翻譯。
翻譯模型演示,設備:高通驍龍865,8GB內存
騰訊混元的基準測試結果顯示,Hy-MT1.5的翻譯效果可比肩商業翻譯API和235B級大模型的翻譯效果,且翻譯質量在基準測試中超過了谷歌翻譯等主流系統。

原始1.8B模型在FP16精度下會佔用3.3GB內存,為了不佔用手機內存,研究人員進行了量化壓縮。
其將模型裏原本用16位數字(16-bit)表示的參數轉用更低位數字儲存。這就像把一幅高清照片壓縮成縮略圖,雖然文件小但還是能看清楚內容。
此外,針對不同的手機用戶,騰訊還推出了2-bit與1.25-bit兩種量化壓縮方案。其實測顯示,量化壓縮後的兩款模型表現效果遠超同體積或更大體積大模型的翻譯效果。

2-bit適用的中高端機型,模型體積壓縮至574MB。
根據官方介紹,2-bit模型採用拉伸彈性量化(SEQ),將模型參數量化至{-1.5,-0.5,0.5,1.5},並結合量化感知蒸餾,在將模型體積壓縮至574MB的同時,實現了幾乎無損翻譯質量,效果超越上百GB的大模型。在支持Arm SME2技術的移動設備上,2-bit模型能夠實現更快速、更高效的推理。
1.25-bit模型適用全系機型,模型體積為440MB。
這一模型基於Sherry(稀疏高效三值量化)技術,其核心邏輯在於「細粒度稀疏」策略:每4個模型參數,3個最重要的用1-bit儲存,1個用0儲存,平均每個參數僅需1.25-bit。

此外,其還搭載了騰訊為手機CPU設計的STQ內核,適配SIMD指令集。這使得該模型能長時間在後台停留。Sherry技術方案已經被NLP頂級學術會議ACL 2026錄用。

結語:騰訊混元拉低離線翻譯普及門檻
AI翻譯已成為手機、輸入法、瀏覽器、會議、客服工具等各種工具的標配功能,但大多工具仍是聯網調用雲端API,離線能力弱、體驗差、隱私風險高。
騰訊混元此次開源輕量化翻譯模型,用幾百MB級的體積實現了媲美雲端大模型的翻譯質量,或直接把高端離線翻譯從雲端特權拉到手機可普及的門檻。