編譯/前方智能
谷歌於近日宣佈爲其最新一代開源模型 Gemma 3 推出經過量化感知訓練(QAT)優化的新版本。Gemma 3 此前以其先進性能著稱,但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低內存需求,使其更易於在消費級 GPU 上運行。
儘管高端硬件上的性能對雲部署和研究至關重要,但用戶普遍希望在現有硬件上運行強大 AI 模型。這正是量化技術發揮作用的地方。量化通過降低模型參數的數值精度(例如從 16 位的 BF16 降至 4 位的 int4),顯著減小模型體積和內存佔用。爲了在減小模型體積的同時保持高質量,新模型採用了量化感知訓練(QAT)。QAT 在模型訓練過程中融入量化過程,通過模擬低精度操作,使得訓練後的模型能夠更好地進行量化,從而在縮小模型尺寸、提升速度的同時,最大限度地保持準確性。例如,將模型量化到 Q4_0 格式時,QAT 將困惑度下降幅度降低了 54%。
圖源:谷歌
採用 int4 量化帶來的顯存(VRAM)節省效果顯著。例如,Gemma 3 27B 模型所需的 VRAM 從 BF16 精度下的 54 GB 驟降至僅 14.1 GB。Gemma 3 12B 模型從 24 GB 降至 6.6 GB;Gemma 3 4B 模型從 8 GB 降至 2.6 GB;Gemma 3 1B 模型從 2 GB 降至 0.5 GB。這些顯著的內存降低解鎖了在廣泛使用的消費級硬件上運行大型強大模型的可能性。現在,經過 int4 優化的 Gemma 3 27B 模型可以輕鬆運行在單張桌面級 NVIDIA RTX 3090(擁有 24 GB VRAM)或類似顯卡上。Gemma 3 12B 模型可以在筆記本電腦的 NVIDIA RTX 4060 Laptop GPU(8 GB VRAM)等顯卡上高效運行。更小的 4B 和 1B 模型則進一步降低了門檻,適用於資源更有限的設備,包括手機。
爲了方便用戶使用,官方的 int4 和 Q4_0 未量化 QAT 模型已在 Hugging Face 和 Kaggle 上線。此外,這些模型也得到了開發者工具的集成支持,包括 Ollama、LM Studio、MLX(支持 Apple Silicon)、Gemma.cpp(高效 CPU 推理)以及 llama.cpp(支持 GGUF 格式)。社區中也有基於後訓練量化(PTQ)的多種模型變體可供探索。