谷歌推出 Gemma 3 QAT 模型，單張 RTX 3090 即可運行

Ofweek光電信息網

04-22

編譯/前方智能

谷歌於近日宣佈爲其最新一代開源模型 Gemma 3 推出經過量化感知訓練（QAT）優化的新版本。Gemma 3 此前以其先進性能著稱，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低內存需求，使其更易於在消費級 GPU 上運行。

儘管高端硬件上的性能對雲部署和研究至關重要，但用戶普遍希望在現有硬件上運行強大 AI 模型。這正是量化技術發揮作用的地方。量化通過降低模型參數的數值精度（例如從 16 位的 BF16 降至 4 位的 int4），顯著減小模型體積和內存佔用。爲了在減小模型體積的同時保持高質量，新模型採用了量化感知訓練（QAT）。QAT 在模型訓練過程中融入量化過程，通過模擬低精度操作，使得訓練後的模型能夠更好地進行量化，從而在縮小模型尺寸、提升速度的同時，最大限度地保持準確性。例如，將模型量化到 Q4_0 格式時，QAT 將困惑度下降幅度降低了 54%。

圖源：谷歌

採用 int4 量化帶來的顯存（VRAM）節省效果顯著。例如，Gemma 3 27B 模型所需的 VRAM 從 BF16 精度下的 54 GB 驟降至僅 14.1 GB。Gemma 3 12B 模型從 24 GB 降至 6.6 GB；Gemma 3 4B 模型從 8 GB 降至 2.6 GB；Gemma 3 1B 模型從 2 GB 降至 0.5 GB。這些顯著的內存降低解鎖了在廣泛使用的消費級硬件上運行大型強大模型的可能性。現在，經過 int4 優化的 Gemma 3 27B 模型可以輕鬆運行在單張桌面級 NVIDIA RTX 3090（擁有 24 GB VRAM）或類似顯卡上。Gemma 3 12B 模型可以在筆記本電腦的 NVIDIA RTX 4060 Laptop GPU（8 GB VRAM）等顯卡上高效運行。更小的 4B 和 1B 模型則進一步降低了門檻，適用於資源更有限的設備，包括手機。

爲了方便用戶使用，官方的 int4 和 Q4_0 未量化 QAT 模型已在 Hugging Face 和 Kaggle 上線。此外，這些模型也得到了開發者工具的集成支持，包括 Ollama、LM Studio、MLX（支持 Apple Silicon）、Gemma.cpp（高效 CPU 推理）以及 llama.cpp（支持 GGUF 格式）。社區中也有基於後訓練量化（PTQ）的多種模型變體可供探索。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

熱議股票

1
2
3
4
5
6
7
8
9
10

{"basename":"/hant","ssrTDKData":{"titleTemplate":"%s - 老虎證券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎證券,老虎證券開戶,老虎券商,老虎證券官網,老虎證券app,tigertrade老虎證券,股票,炒股,新加坡股票交易平臺,投資,投資理財","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hant/news/2529441703"},"companyName":"老虎證券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2529441703\",edition:\"fundamental\",,,undefined,":{"share":"https://ttm.financial/m/news/2529441703?lang=zh_TW&edition=fundamental","thumbnail":"","is_english":false,"pubTime":"2025-04-22 16:04","share_image_url":"https://static.laohu8.com/9a95c1376e76363c1401fee7d3717173","id":"2529441703","market":"us","top_or_hot":-1,"title":"谷歌推出 Gemma 3 QAT 模型，單張 RTX 3090 即可運行","media":"Ofweek光電信息網","content":"<html><body><article><p>編譯/前方智能</p><p><a href=\"https://laohu8.com/S/GOOG\">谷歌</a>於近日宣佈爲其最新一代開源模型 Gemma 3 推出經過量化感知訓練（QAT）優化的新版本。Gemma 3 此前以其先進性能著稱，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低內存需求，使其更易於在消費級 GPU 上運行。</p><p>儘管高端硬件上的性能對雲部署和研究至關重要，但用戶普遍希望在現有硬件上運行強大 AI 模型。這正是量化技術發揮作用的地方。量化通過降低模型參數的數值精度（例如從 16 位的 BF16 降至 4 位的 int4），顯著減小模型體積和內存佔用。爲了在減小模型體積的同時保持高質量，新模型採用了量化感知訓練（QAT）。QAT 在模型訓練過程中融入量化過程，通過模擬低精度操作，使得訓練後的模型能夠更好地進行量化，從而在縮小模型尺寸、提升速度的同時，最大限度地保持準確性。例如，將模型量化到 Q4_0 格式時，QAT 將困惑度下降幅度降低了 54%。</p><img src=\"https://fid-75186.picgzc.qpic.cn/20250422161443335d152wd8di5s4ze0\"/><p>圖源：谷歌</p><p>採用 int4 量化帶來的顯存（VRAM）節省效果顯著。例如，Gemma 3 27B 模型所需的 VRAM 從 BF16 精度下的 54 GB 驟降至僅 14.1 GB。Gemma 3 12B 模型從 24 GB 降至 6.6 GB；Gemma 3 4B 模型從 8 GB 降至 2.6 GB；Gemma 3 1B 模型從 2 GB 降至 0.5 GB。這些顯著的內存降低解鎖了在廣泛使用的消費級硬件上運行大型強大模型的可能性。現在，經過 int4 優化的 Gemma 3 27B 模型可以輕鬆運行在單張桌面級 NVIDIA RTX 3090（擁有 24 GB VRAM）或類似顯卡上。Gemma 3 12B 模型可以在筆記本電腦的 NVIDIA RTX 4060 Laptop GPU（8 GB VRAM）等顯卡上高效運行。更小的 4B 和 1B 模型則進一步降低了門檻，適用於資源更有限的設備，包括手機。</p><p>爲了方便用戶使用，官方的 int4 和 Q4_0 未量化 QAT 模型已在 Hugging Face 和 Kaggle 上線。此外，這些模型也得到了開發者工具的集成支持，包括 Ollama、LM Studio、MLX（支持 Apple Silicon）、Gemma.cpp（高效 CPU 推理）以及 llama.cpp（支持 GGUF 格式）。社區中也有基於後訓練量化（PTQ）的多種模型變體可供探索。</p></article></body></html>","source":"tencent","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>谷歌推出 Gemma 3 QAT 模型，單張 RTX 3090 即可運行</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 12.5px; color: #7E829C; margin: 0;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n谷歌推出 Gemma 3 QAT 模型，單張 RTX 3090 即可運行\n</h2>\n<h4 class=\"meta\">\n<p class=\"head\">\n<strong class=\"h-name small\">Ofweek光電信息網</strong><span class=\"h-time small\">2025-04-22 16:04</span>\n</p>\n</h4>\n</header>\n<article>\n<html><body><article><p>編譯/前方智能</p><p><a href=\"https://laohu8.com/S/GOOG\">谷歌</a>於近日宣佈爲其最新一代開源模型 Gemma 3 推出經過量化感知訓練（QAT）優化的新版本。Gemma 3 此前以其先進性能著稱，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低內存需求，使其更易於在消費級 GPU 上運行。</p><p>儘管高端硬件上的性能對雲部署和研究至關重要，但用戶普遍希望在現有硬件上運行強大 AI 模型。這正是量化技術發揮作用的地方。量化通過降低模型參數的數值精度（例如從 16 位的 BF16 降至 4 位的 int4），顯著減小模型體積和內存佔用。爲了在減小模型體積的同時保持高質量，新模型採用了量化感知訓練（QAT）。QAT 在模型訓練過程中融入量化過程，通過模擬低精度操作，使得訓練後的模型能夠更好地進行量化，從而在縮小模型尺寸、提升速度的同時，最大限度地保持準確性。例如，將模型量化到 Q4_0 格式時，QAT 將困惑度下降幅度降低了 54%。</p><img src=\"https://fid-75186.picgzc.qpic.cn/20250422161443335d152wd8di5s4ze0\"/><p>圖源：谷歌</p><p>採用 int4 量化帶來的顯存（VRAM）節省效果顯著。例如，Gemma 3 27B 模型所需的 VRAM 從 BF16 精度下的 54 GB 驟降至僅 14.1 GB。Gemma 3 12B 模型從 24 GB 降至 6.6 GB；Gemma 3 4B 模型從 8 GB 降至 2.6 GB；Gemma 3 1B 模型從 2 GB 降至 0.5 GB。這些顯著的內存降低解鎖了在廣泛使用的消費級硬件上運行大型強大模型的可能性。現在，經過 int4 優化的 Gemma 3 27B 模型可以輕鬆運行在單張桌面級 NVIDIA RTX 3090（擁有 24 GB VRAM）或類似顯卡上。Gemma 3 12B 模型可以在筆記本電腦的 NVIDIA RTX 4060 Laptop GPU（8 GB VRAM）等顯卡上高效運行。更小的 4B 和 1B 模型則進一步降低了門檻，適用於資源更有限的設備，包括手機。</p><p>爲了方便用戶使用，官方的 int4 和 Q4_0 未量化 QAT 模型已在 Hugging Face 和 Kaggle 上線。此外，這些模型也得到了開發者工具的集成支持，包括 Ollama、LM Studio、MLX（支持 Apple Silicon）、Gemma.cpp（高效 CPU 推理）以及 llama.cpp（支持 GGUF 格式）。社區中也有基於後訓練量化（PTQ）的多種模型變體可供探索。</p></article></body></html>\n<div class=\"bt-text\">\n\n\n<p> 來源：<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b\">Ofweek光電信息網</a></p>\n<p>為提升您的閱讀體驗，我們對本頁面進行了排版優化</p>\n\n\n</div>\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":null,"symbol_name":null,"start_time":0,"source_url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b","article_id":"2529441703","we_media_id":null,"thumbnails":[],"rights":{"source":"tencent","url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b","rn_cache_url":null,"customStyle":"body{padding-top:10px;}#news_title{font-weight:bold;#titleStyle#;}#news_description span{font-size:12px;#descriptionStyle#;}.footer-note{#statement#}","selectors":".mod-LoadTzbdNews, body","filters":".relate-stock, .hot-list, .recom-box, .wx-sou","directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2529441703","pubTimestamp":1745309040,"columns":[],"sourceInfo":{"source_id":"tencent","name":"腾讯"},"weMediaInfo":null,"summary":"編譯/前方智能谷歌於近日宣佈為其最新一代開源模型 Gemma 3 推出經過量化感知訓練優化的新版本。Gemma 3 此前以其先進性能著稱，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低內存需求，使其更易於在消費級 GPU 上運行。例如，Gemma 3 27B 模型所需的 VRAM 從 BF16 精度下的 54 GB 驟降至僅 14.1 GB。現在，經過 int4 優化的 Gemma 3 27B 模型可以輕鬆運行在單張桌面級 NVIDIA RTX 3090或類似顯卡上。Gemma 3 12B 模型可以在筆記本電腦的 NVIDIA RTX 4060 Laptop GPU等顯卡上高效運行。","collect":0,"end_time":0,"defaultTopTitle":"qq.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{},"translate_title":"Google Unveils Gemma 3 QAT Model, Running With Single RTX 3090","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"GOOG":1,"GOOGL":1,"NVDA":0.9,"QAT":1,"RTX":1,"USJW.SI":0.6},"content_text":"編譯/前方智能谷歌於近日宣佈為其最新一代開源模型 Gemma 3 推出經過量化感知訓練（QAT）優化的新版本。Gemma 3 此前以其先進性能著稱，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低內存需求，使其更易於在消費級 GPU 上運行。儘管高端硬件上的性能對雲部署和研究至關重要，但用户普遍希望在現有硬件上運行強大 AI 模型。這正是量化技術發揮作用的地方。量化通過降低模型參數的數值精度（例如從 16 位的 BF16 降至 4 位的 int4），顯著減小模型體積和內存佔用。為了在減小模型體積的同時保持高質量，新模型採用了量化感知訓練（QAT）。QAT 在模型訓練過程中融入量化過程，通過模擬低精度操作，使得訓練後的模型能夠更好地進行量化，從而在縮小模型尺寸、提升速度的同時，最大限度地保持準確性。例如，將模型量化到 Q4_0 格式時，QAT 將困惑度下降幅度降低了 54%。圖源：谷歌採用 int4 量化帶來的顯存（VRAM）節省效果顯著。例如，Gemma 3 27B 模型所需的 VRAM 從 BF16 精度下的 54 GB 驟降至僅 14.1 GB。Gemma 3 12B 模型從 24 GB 降至 6.6 GB；Gemma 3 4B 模型從 8 GB 降至 2.6 GB；Gemma 3 1B 模型從 2 GB 降至 0.5 GB。這些顯著的內存降低解鎖了在廣泛使用的消費級硬件上運行大型強大模型的可能性。現在，經過 int4 優化的 Gemma 3 27B 模型可以輕鬆運行在單張桌面級 NVIDIA RTX 3090（擁有 24 GB VRAM）或類似顯卡上。Gemma 3 12B 模型可以在筆記本電腦的 NVIDIA RTX 4060 Laptop GPU（8 GB VRAM）等顯卡上高效運行。更小的 4B 和 1B 模型則進一步降低了門檻，適用於資源更有限的設備，包括手機。為了方便用户使用，官方的 int4 和 Q4_0 未量化 QAT 模型已在 Hugging Face 和 Kaggle 上線。此外，這些模型也得到了開發者工具的集成支持，包括 Ollama、LM Studio、MLX（支持 Apple Silicon）、Gemma.cpp（高效 CPU 推理）以及 llama.cpp（支持 GGUF 格式）。社區中也有基於後訓練量化（PTQ）的多種模型變體可供探索。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":0,"code":"91000000","status":"200"}}}