馬斯克又雙叒叕下場讚好中國 AI 了。
昨天深夜,阿里通義千問團隊在 X 平台正式發布了 Qwen3.5 小模型系列,覆蓋 0.8B、2B、4B 和 9B 四個參數規格。甫一發布,便在海外科技圈引發強烈反響。
馬斯克也在該推文下評論稱:「Impressive intelligence density」(令人印象深刻的智能密度)。這股熱度的背後,APPSO 也好奇,為什麼這幾款小模型能夠激起如此大的波瀾?
又小又猛,憑什麼
Qwen 官方在 X 平台發帖宣佈這批模型上線,言簡意賅地將其定位為「更強的智能,更少的算力」。
官方強調,四款小模型共享同一套 Qwen3.5 基礎架構,原生支持多模態,並經過架構層面的專項改良與大規模強化學習訓練。
Qwen 團隊表示,希望這批模型能更好地支撐學術研究、實驗探索與真實工業場景的創新落地,同時也宣佈同步發布對應的 Base 基礎模型。
Qwen3.5 系列模型核心採用「門控增量網絡與稀疏混合專家」相結合的混合注意力架構,注意力層以 3:1 的比例排列,即 3 個 Gated DeltaNet 層搭配 1 個 Gated Attention 層。
這一設計的關鍵在於,模型在前向傳播時只激活對當前任務必要的網絡部分,而非全量計算,從而在極低延遲與算力開銷下實現高吞吐推理。
附上 HuggingFace 地址:https://huggingface.co/Qwen/Qwen3.5-2B
多模態這塊也有講究。Qwen3.5 採用「早期融合」訓練機制,文本、圖像、視頻在底層就一起處理,不是在文本模型上事後掛個視覺編碼器。
這個差異直接決定了小參數模型在視覺問答、OCR 文檔理解等任務上,能打出遠超同量級傳統輕量多模態模型的表現。
全系列同時支持長達 26 萬 Token 的上下文窗口,並引入「思考」與「非思考」雙模式,可在深度邏輯推理與快速響應之間靈活切換。
0.8B 與 2B 模型均為 24 層結構,隱藏維度分別為 1024 和 2048,專為物聯網設備等極端邊緣場景設計,也可直接在主流手機上原生運行。
儘管 0.8B 在語言基準 MMLU-Pro 上得分 29.7,表現平平,但受益於早期融合架構,其在視覺任務 MathVista 上達到 62.2,OCRBench 達到 74.5,展現出與參數量不相稱的視覺理解能力。2B 模型的 OCRBench 進一步提升至 84.5,表現亮眼。
上下滑動查看更多內容
4B 模型為 32 層結構,隱藏維度 2560,能夠流暢運行於消費級移動硬件。官方將其定性為「出乎意料強大的多模態輕量智能體底座」。
9B 則再進一步,同為 32 層結構,但隱藏維度提升至 4096,FFN 維度擴展至 12288,可以在 Mac 上流暢運行。
其 MMLU-Pro 得分達到 82.5,不僅超越了參數量為其三倍的上一代 Qwen3-30B,在視覺任務上更以兩位數優勢超過 GPT-5-Nano 與 Gemini 2.5 Flash Lite。
MMMU-Pro 得分高達 70.1,MathVision 達到 78.9,證明了其在複雜物理和數學圖像解析上的實力。官方將 9B 的目標明確為「縮小與前沿大模型的能力差距」,從基準數據來看,這一目標已初步實現。
海外開發者對這批模型的實際表現給出了高度正面的評價。
有開發者直言,稱其為「小模型」不過是低估了它,就好比把颶風叫做微風。
另有觀點認為,真正值得關注的指標是每十億參數所能釋放的智能密度。如今只需 3 萬美元的硬件,就能跑出一年前需要 20 萬美元 GPU 配置纔有的推理能力。
已有開發者演示了在 iPhone 17 Pro 上通過針對 Apple Silicon 優化的 MLX 框架本地運行 Qwen3.5-2B 6-bit 版本,模型可實時完成視覺理解與問答任務。
網友在本地 Vision Agents 應用中實時識別手寫內容並即時回答問題,並感嘆這在幾個月前根本無法實現。
還有用戶這樣總結道,9B 模型性能與規模達 120B 的 ChatGPT 開源模型相當,體積卻只有其十三分之一,且完全免費,可在任何筆記本電腦乃至手機上運行。
知名開源推理工具 Ollama 也迅速跟進,官宣支持 Qwen3.5 全系四個尺寸,並配套提供原生工具調用、思維鏈推理與多模態功能,只需一行命令即可拉取運行。
附上地址:https://ollama.com/library/qwen3.5
跑分是起點,AI+硬件纔是終局
在談及阿里為何堅持追求開源與發布全尺寸模型時,千問技術負責人林俊暘曾在清華 AGI-Next 峯會上轉述其師弟的觀點,給出了一個樸素的答案。
他表示,小模型起源於內部實驗需求,是為了讓資源有限的學生也能參與研究。他回憶道,7B 規模的模型已讓很多碩士博士生無力承擔實驗成本,若將 1.8B 的模型開源出去,很多同學就有機會順利畢業,「這是很好的初心」。
平心而論,Qwen 系列一路開源走下來,客觀上確實讓很多人用上了本來用不起的 AI 模型。而對於普通用戶而言,想親身體驗這批最新的小模型其實也不復雜。
目前,你可以通過 PocketPal AI 這款手機應用,直接下載並在本地運行 Qwen3.5 系列模型,無需任何 API,模型推理全程在設備端完成。如果不習慣英文界面,可以在設定 (Setting) 裏找到語言 (Language) 選項,切換成中文。
(具體教程可參考 APPSO 此前的文章:《我在 iPhone 17 Pro Max 上跑 AI 模型,體驗了一把十年前「越獄」的快樂》)。
不過有一個細節,比選哪個模型更重要:選對量化版本。
BF16 是接近原始精度的半精度權重,回答穩定性最好,推理細節與對齊效果最接近原版,但 2B 的 BF16 權重文件就要 4.45GB,運行時還需額外佔用內存用於 KV cache 和運行緩衝區,極易觸發系統殺後台或直接加載失敗。
因此手機端的選擇邏輯應該是:可用內存長期能剩 6GB 以上,優先選 IQ4_NL;可用內存常在 3GB 至 5GB 之間,優先選 Q3_K_M;可用內存更低,才考慮 Q3_K_S 等等。
說到底,一個無法獨立運行的模型,不過是一堆權重文件。真正有價值的,是與正確硬件深度綁定、以正確量化格式部署的小模型,那才能成為真正的產品。
智能手機時代本質上是「單向輸入」的範式,而即將到來的 AI 硬件浪潮,是要以更碎片化、更有粘性的方式接管人類的記憶與生活。小模型,正是給這些硬件注入靈魂的關鍵。
阿里已將 Qwen 小模型嵌入 AI 眼鏡等可穿戴硬件,實現毫秒級端側視覺解析。在真實物理場景中,向眼鏡詢問前方障礙物時哪怕延遲三秒也會失去全部意義,而這恰恰是雲端大模型無法克服的物理瓶頸。
你向眼鏡詢問前方障礙物的時候,哪怕延遲三秒也會失去全部意義,遇到需要深度推理的複雜問題,再作為路由器把請求交給雲端的大模型處理。是的,端雲協同架構,纔是接下來幾年計算平台的基本形態。
包括在 iPhone 的「視覺智能」中,當用戶把攝像頭對準餐廳或商品,端側實時完成場景解析、文本提取,甚至直接喚起購買流程,全程在設備上完成。
此外有媒體報道稱,蘋果下一步還在開發帶攝像頭的 AirPods 和智能眼鏡,這些設備會變成用戶的「第二雙眼睛和耳朵」。
工業方面,IoT 設備、工廠傳感器、醫療監測終端,這些場景裏數據隱私更敏感,本地推理同樣是硬需求。而端側小模型實時處理第一視角多模態數據,則是繞不過去的基礎設施。
就像今天沒有人會專門寫一篇文章誇手機能打電話一樣。AI 眼鏡、AI 手錶、AI 耳機等可穿戴設備,現在聽起來還有點新鮮,但在未來,它們也會變得稀鬆平常。
而讓這件事成為可能的,恰恰是一批又一批看似沒什麼存在感的小模型。它們很小,但如無意外,它們將無處不在。
附上 HuggingFace 地址:
https://huggingface.co/collections/Qwen/qwen35