智譜發布新一代開源視覺模型GLM-4.5V

華爾街見聞

2025/08/11

多模態推理被視為通向通用人工智能（AGI）的關鍵能力之一，讓 AI 能夠像人類一樣綜合感知、理解與決策。其中，視覺-語言模型（Vision-Language Model, VLM）是實現多模態推理的核心基礎。今年 7 月，我們發布並開源了全球 10B 級效果最強的 VLM——GLM-4.1V-9B-Thinking。該模型以小搏大，展現了小體積模型的極限性能潛力，上線後迅速登上 Hugging ...

網頁鏈接

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

熱議股票

{"basename":"/hant","ssrTDKData":{"titleTemplate":"%s - 老虎證券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎證券,老虎證券開戶,老虎券商,老虎證券官網,老虎證券app,tigertrade老虎證券,股票,炒股,新加坡股票交易平臺,投資,投資理財","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hant/news/2558666379"},"companyName":"老虎證券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"isCrawlerRequest":true,"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2558666379\",edition:\"fundamental\",auth_exemption:1,,,undefined,":{"share":"https://ttm.financial/m/news/2558666379?lang=zh_TW&edition=fundamental","thumbnail":"https://wpimg-wscn.awtmt.com/c1f578fd-c306-4f62-a0f1-fee307ada444.png","is_english":false,"pubTime":"2025-08-11 21:46","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2558666379","market":"us","top_or_hot":-1,"title":"智譜發布新一代開源視覺模型GLM-4.5V","media":"華爾街見聞","content":"<div>\n<p>多模態推理被視為通向通用人工智能（AGI）的關鍵能力之一，讓 AI 能夠像人類一樣綜合感知、理解與決策。其中，視覺-語言模型（Vision-Language Model, VLM）是實現多模態推理的核心基礎。\n今年 7 月，我們發布並開源了全球 10B 級效果最強的 VLM——GLM-4.1V-9B-Thinking。該模型以小搏大，展現了小體積模型的極限性能潛力，上線後迅速登上 Hugging ...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3753102\">網頁鏈接</a>\n\n</div>\n","source":"wallstreetcn_hot_news","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>智譜發布新一代開源視覺模型GLM-4.5V</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 12.5px; color: #7E829C; margin: 0;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n智譜發布新一代開源視覺模型GLM-4.5V\n</h2>\n<h4 class=\"meta\">\n<p class=\"head\">\n<strong class=\"h-name small\">華爾街見聞</strong><span class=\"h-time small\">2025-08-11 21:46</span>\n</p>\n</h4>\n</header>\n<article>\n<div>\n<p>多模態推理被視為通向通用人工智能（AGI）的關鍵能力之一，讓 AI 能夠像人類一樣綜合感知、理解與決策。其中，視覺-語言模型（Vision-Language Model, VLM）是實現多模態推理的核心基礎。\n今年 7 月，我們發布並開源了全球 10B 級效果最強的 VLM——GLM-4.1V-9B-Thinking。該模型以小搏大，展現了小體積模型的極限性能潛力，上線後迅速登上 Hugging ...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3753102\">網頁鏈接</a>\n\n</div>\n\n<div class=\"bt-text\">\n\n\n<p> 來源：<a href=\"https://wallstreetcn.com/articles/3753102\">華爾街見聞</a></p>\n<p>為提升您的閱讀體驗，我們對本頁面進行了排版優化</p>\n\n\n</div>\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0498741114.HKD","symbol_name":"FRANKLIN GOLD & PRECIOUS METALS \"A\" (HKD) ACC","start_time":0,"source_url":"https://wallstreetcn.com/articles/3753102","article_id":"2558666379","we_media_id":null,"thumbnails":["https://wpimg-wscn.awtmt.com/c1f578fd-c306-4f62-a0f1-fee307ada444.png"],"rights":{"source":"wallstreetcn_hot_news","url":"https://wallstreetcn.com/articles/3753102","rn_cache_url":null,"directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2558666379","pubTimestamp":1754919965,"columns":[],"sourceInfo":{"source_id":"wallstreetcn_hot_news","name":"华尔街见闻"},"weMediaInfo":null,"summary":"智譜表示推出全球 100B 級效果最佳的開源視覺推理模型 GLM-4.5V（總參數 106B，激活參數 12B），並同步在魔搭社區與 Hugging Face 開源。API 調用價格：低至輸入 2 元/M tokens，輸出 6 元/M tokens。 響應速度：達到 60-80 tokens/s。","collect":0,"end_time":0,"defaultTopTitle":"wallstreetcn.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0498741114.HKD":"FRANKLIN GOLD & PRECIOUS METALS \"A\" (HKD) ACC","SFT":"Shift Technologies, Inc.","LU0055631609.USD":"贝莱德世界黄金基金A2","BK4588":"碎股","LU0368265764.SGD":"Blackrock World Gold Fund A2 SGD-H","LU0496367417.USD":"富兰克林黄金和贵金属A（acc）","AGI":"Alamos Gold Inc","BK4214":"汽车零售","BK4585":"ETF&股票定投概念","LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD","LU0498741890.SGD":"FTIF - Franklin Gold and Precious Metals A (acc) SGD","BK4202":"服装、服饰与奢侈品","BK4017":"黄金","RL":"拉夫劳伦"},"translate_title":"Zhipu releases a new generation of open source visual model GLM-4. 5V","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RL":1,"AGI":1,"SFT":1},"content_text":"多模態推理被視為通向通用人工智能（AGI）的關鍵能力之一，讓 AI 能夠像人類一樣綜合感知、理解與決策。其中，視覺-語言模型（Vision-Language Model, VLM）是實現多模態推理的核心基礎。\n今年 7 月，我們發布並開源了全球 10B 級效果最強的 VLM——GLM-4.1V-9B-Thinking。該模型以小搏大，展現了小體積模型的極限性能潛力，上線後迅速登上 Hugging Face Trending 榜首，並累計獲得超過 13 萬次下載。\n今天，我們推出全球 100B 級效果最佳的開源視覺推理模型 GLM-4.5V（總參數 106B，激活參數 12B），並同步在魔搭社區與 Hugging Face 開源。這是我們在通向 AGI 道路上的又一探索性成果。\n在線體驗：\n歡迎前往 z.ai，選擇 GLM-4.5V 模型，上傳圖片或視頻，即刻體驗；或前往智譜清言APP/網頁版，上傳圖片，開啓「推理模式」進行體驗。\n此外，在保持高精度的同時，GLM-4.5V 兼顧推理速度與部署成本，為企業與開發者提供高性價比的多模態 AI 解決方案。\n\nAPI 調用價格：低至輸入 2 元/M tokens，輸出 6 元/M tokens\n響應速度：達到 60-80 tokens/s\n\nGLM-4.5V API 現已上線智譜開放平台 BigModel.cn，我們為所有新老用户準備了 2000 萬 Tokens 的免費資源包。\n開源多模態 SOTA\nGLM-4.5V 基於智譜新一代旗艦文本基座模型 GLM-4.5-Air，延續 GLM-4.1V-Thinking 技術路線，在 41 個公開視覺多模態排行榜中綜合效果達到同級別開源模型 SOTA 性能，涵蓋圖像、視頻、文檔理解以及 GUI Agent 等常見任務。\n\n在多模態排行榜之外，我們更重視模型在真實場景下的表現與可用性。GLM-4.5V 通過高效混合訓練，具備覆蓋不同種視覺內容的處理能力，實現全場景視覺推理，包括：\n\n\n圖像推理（場景理解、複雜多圖分析、位置識別）\n\n\n視頻理解（長視頻分鏡分析、事件識別）\n\n\nGUI 任務（螢幕讀取、圖標識別、桌面操作輔助）\n\n\n複雜圖表與長文檔解析（研報分析、信息提取）\n\n\nGrounding 能力（精準定位視覺元素）\n\n\n同時，模型新增「思考模式」開關，用户可靈活選擇快速響應或深度推理，平衡效率與效果。\n為幫助開發者直觀體驗 GLM-4.5V 的模型能力，打造專屬於自己的多模態應用，我們同步開源了一款桌面助手應用。\n\n該桌面應用可實時截屏、錄屏獲取螢幕信息，並依託 GLM-4.5V 處理多種視覺推理任務，日常處理如代碼輔助、視頻內容分析、遊戲解答、文檔解讀等多類視覺任務，成為一個能看着螢幕和你一起工作娛樂的夥伴。我們也希望通過模型開源和API服務，賦能更多有想法的開發者，基於多模態基座模型發揮創意和想象，把過去科幻電影中的場景變為現實。\n典型示例\n1.視覺定位：精準識別和定位目標物體，應用潛力強大\nGLM-4.5V 能夠根據用户提問，精準識別、分析、定位目標物體並輸出其座標框。該能力在現實世界擁有廣闊的應用場景，例如安全與質量檢查、高空遙感監測分析。相較於傳統的基於視覺模型的物體識別，GLM-4.5V 憑藉更豐富的世界知識與更強大的語義理解能力，能夠通過推理理解更復雜的定位指令。\n\n2.前端復刻：輸入網頁截圖或交互視頻，即可復刻網頁\nGLM-4.5V具備強大的推理與代碼生成能力，能夠對上傳的網頁截圖進行分析，並將其轉化為結構化的網頁代碼。與簡單的圖像元素識別不同，GLM-4.5V能夠深入理解並推斷元素間的邏輯關係、佈局規則和交互意圖，從而生成高度準確且功能完整的網頁代碼。\n值得注意的是，GLM-4.5V在未對視頻輸入進行專門訓練的情況下，也能結合視頻理解與代碼生成能力，通過其強大的泛化能力對網頁交互視頻進行分析，輸出相應的網頁代碼，成功復刻視頻中展示的網頁內容。\n在以下示例中，GLM-4.5V能夠通過分析用户瀏覽知乎的視頻，精準識別網頁中所有元素的內容、樣式與佈局，並還原其背後的HTML、CSS和JavaScript代碼，確保運行效果與原始視頻高度一致。同時，模型會分析視頻幀間的動態變化，建模並實現網頁交互邏輯，最終復刻出真正可交互的前端頁面。此外，用户可通過圈選標記方式向模型提出修改需求，模型據此進一步優化頁面，實現真正的視覺交互閉環。\n\n3.圖像識別與推理：視覺神探，精準識別圖像細節並推理背景信息\nGLM-4.5V具備強大的感知與推理能力。一個典型應用是：在不依賴搜索工具的情況下，模型能通過圖像中的細微線索推理出背景信息。例如，上傳任意風景或街拍圖片後，GLM-4.5V可分析植被特徵、氣候痕跡、建築風格等要素，精準推測圖片拍攝地點及大致經緯度。\n\n\n \n\n為驗證GLM-4.5V的地點識別能力，我們讓其參與\"圖尋遊戲\"全球積分賽，與國內兩萬餘名頂尖人類玩家同台競技。該遊戲要求玩家在限定時間內，根據風景街景圖片推測拍攝地的經緯度，比拼速度與精度。\n- 參賽16小時：GLM-4.5V擊敗99%的人類玩家  \n- 參賽7天：模型攀升至全球第66名  \n這一結果充分證明了GLM-4.5V在複雜視覺推理任務中的卓越表現。\n4.複雜文檔深度解讀: 不止擅長信息提取、總結和翻譯，也能表達自己的見解\nGLM-4.5V可以閲讀長達數十頁、含有大量圖表的複雜長文本，能夠對文本進行總結、翻譯、圖表提取等操作；此外，還能在給定信息的基礎上輸出自己的\"觀點\"。與傳統的OCR信息提取+文本模型解讀的方式不同，GLM-4.5V會像人類一樣，以視覺方式讀取文檔中的每一頁圖片，避免了信息提取過程中的錯誤傳遞，實現了文字與圖像的同時理解，因此對於圖表、表格等視覺化、結構化信息的保留和解讀會更加準確。\n例如，我們可以給GLM-4.5V上傳一份圖文並茂的技術報告，讓它翻譯並解讀其中的技術亮點。\n5.強大的 GUI Agent 能力，為 Agent 任務打基礎\n基於強大的視覺推理能力，GLM-4.5V 能夠識別和處理電子螢幕畫面，在 GUI 環境中進行對話問答、圖標定位等任務。同時，我們將 GUI Agent 的能力融合到基座模型，模型能夠結合當前 GUI 界面與用户指令輸出相應操作，配合相應的 Agent 軟件能夠完成複雜的 GUI Agent 任務，為廣大 Agent 項目提供可靠的基座模型支持。\n例如，我們可以給 GLM-4.5V 傳入一張陳列了數十個商品的電商頁面，讓它識別商品圖中的折扣價格與標題中的原價，並且計算出折扣比例。\n\n技術細節\n\nGLM-4.5V 由視覺編碼器、MLP 適配器和語言解碼器三部分組成，支持 64K 多模態長上下文，支持圖像與視頻輸入，並通過三維卷積提升視頻處理效率。模型採用雙三次插值機制，有效增強了模型對高分辨率及極端寬高比圖像的處理能力與穩健性；同時，引入三維旋轉位置編碼（3D-RoPE），顯著強化了模型對多模態信息的三維空間關係的感知與推理能力。\nGLM-4.5V 採用三階段策略：預訓練、監督微調（SFT）和強化學習（RL）。其中，在預訓練階段，我們結合大規模圖文交錯多模態語料和長上下文內容，強化了模型對複雜圖文及視頻的處理能力；在 SFT 階段，我們引入了顯式「思維鏈」格式訓練樣本，增強了 GLM-4.5V 的因果推理與多模態理解能力；最後，RL 階段，我們引入全領域多模態課程強化學習，通過構建多領域獎勵系統（Reward System），結合可驗證獎勵強化學習（RLVR）與基於人類反饋的強化學習（RLHF），GLM-4.5V 在 STEM 問題、多模態定位、Agent 任務等方面獲得全面優化。\n本文作者：智譜，來源：智譜，原文標題：《全球多模態推理新標杆，GLM-4.5V正式上線並開源》風險提示及免責條款\n\n            市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"}}}