智谱发布新一代开源视觉模型GLM-4.5V

华尔街见闻

2025/08/11

多模态推理被视为通向通用人工智能（AGI）的关键能力之一，让 AI 能够像人类一样综合感知、理解与决策。其中，视觉-语言模型（Vision-Language Model, VLM）是实现多模态推理的核心基础。今年 7 月，我们发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大，展现了小体积模型的极限性能潜力，上线后迅速登上 Hugging ...

网页链接

免责声明：投资有风险，本文并非投资建议，以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请，作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考，不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证，投资者应自行研究并在投资前寻求专业建议。

热议股票

{"basename":"/hans","ssrTDKData":{"titleTemplate":"%s - 老虎证券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎证券,老虎证券开户,老虎券商,老虎证券官网,老虎证券app,tigertrade老虎证券,股票,炒股,新加坡股票交易平台,投资,投资理财","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hans/news/2558666379"},"companyName":"老虎证券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"isCrawlerRequest":true,"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2558666379\",edition:\"fundamental\",auth_exemption:1,,,undefined,":{"share":"https://ttm.financial/m/news/2558666379?lang=zh_CN&edition=fundamental","thumbnail":"https://wpimg-wscn.awtmt.com/c1f578fd-c306-4f62-a0f1-fee307ada444.png","is_english":false,"pubTime":"2025-08-11 21:46","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2558666379","market":"us","top_or_hot":-1,"title":"智谱发布新一代开源视觉模型GLM-4.5V","media":"华尔街见闻","content":"<div>\n<p>多模态推理被视为通向通用人工智能（AGI）的关键能力之一，让 AI 能够像人类一样综合感知、理解与决策。其中，视觉-语言模型（Vision-Language Model, VLM）是实现多模态推理的核心基础。\n今年 7 月，我们发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大，展现了小体积模型的极限性能潜力，上线后迅速登上 Hugging ...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3753102\">网页链接</a>\n\n</div>\n","source":"wallstreetcn_hot_news","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>智谱发布新一代开源视觉模型GLM-4.5V</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n智谱发布新一代开源视觉模型GLM-4.5V\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-11 21:46 北京时间&nbsp;&nbsp;&nbsp;<a href=https://wallstreetcn.com/articles/3753102><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>多模态推理被视为通向通用人工智能（AGI）的关键能力之一，让 AI 能够像人类一样综合感知、理解与决策。其中，视觉-语言模型（Vision-Language Model, VLM）是实现多模态推理的核心基础。\n今年 7 月，我们发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大，展现了小体积模型的极限性能潜力，上线后迅速登上 Hugging ...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3753102\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0055631609.USD","symbol_name":"贝莱德世界黄金基金A2","start_time":0,"source_url":"https://wallstreetcn.com/articles/3753102","article_id":"2558666379","we_media_id":null,"thumbnails":["https://wpimg-wscn.awtmt.com/c1f578fd-c306-4f62-a0f1-fee307ada444.png"],"rights":{"source":"wallstreetcn_hot_news","url":"https://wallstreetcn.com/articles/3753102","rn_cache_url":null,"directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2558666379","pubTimestamp":1754919965,"columns":[],"sourceInfo":{"source_id":"wallstreetcn_hot_news","name":"华尔街见闻"},"weMediaInfo":null,"summary":"智谱表示推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V（总参数 106B，激活参数 12B），并同步在魔搭社区与 Hugging Face 开源。API 调用价格：低至输入 2 元/M tokens，输出 6 元/M tokens。 响应速度：达到 60-80 tokens/s。","collect":0,"end_time":0,"defaultTopTitle":"wallstreetcn.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0055631609.USD":"贝莱德世界黄金基金A2","LU0498741890.SGD":"FTIF - Franklin Gold and Precious Metals A (acc) SGD","RL":"拉夫劳伦","BK4017":"黄金","AGI":"Alamos Gold Inc","LU0496367417.USD":"富兰克林黄金和贵金属A（acc）","LU0368265764.SGD":"Blackrock World Gold Fund A2 SGD-H","BK4585":"ETF&股票定投概念","BK4202":"服装、服饰与奢侈品","BK4588":"碎股","LU0498741114.HKD":"FRANKLIN GOLD & PRECIOUS METALS \"A\" (HKD) ACC","SFT":"Shift Technologies, Inc.","BK4214":"汽车零售","LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD"},"translate_title":"Zhipu releases a new generation of open source visual model GLM-4. 5V","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RL":1,"AGI":1,"SFT":1},"content_text":"多模态推理被视为通向通用人工智能（AGI）的关键能力之一，让 AI 能够像人类一样综合感知、理解与决策。其中，视觉-语言模型（Vision-Language Model, VLM）是实现多模态推理的核心基础。\n今年 7 月，我们发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大，展现了小体积模型的极限性能潜力，上线后迅速登上 Hugging Face Trending 榜首，并累计获得超过 13 万次下载。\n今天，我们推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V（总参数 106B，激活参数 12B），并同步在魔搭社区与 Hugging Face 开源。这是我们在通向 AGI 道路上的又一探索性成果。\n在线体验：\n欢迎前往 z.ai，选择 GLM-4.5V 模型，上传图片或视频，即刻体验；或前往智谱清言APP/网页版，上传图片，开启“推理模式”进行体验。\n此外，在保持高精度的同时，GLM-4.5V 兼顾推理速度与部署成本，为企业与开发者提供高性价比的多模态 AI 解决方案。\n\nAPI 调用价格：低至输入 2 元/M tokens，输出 6 元/M tokens\n响应速度：达到 60-80 tokens/s\n\nGLM-4.5V API 现已上线智谱开放平台 BigModel.cn，我们为所有新老用户准备了 2000 万 Tokens 的免费资源包。\n开源多模态 SOTA\nGLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air，延续 GLM-4.1V-Thinking 技术路线，在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能，涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。\n\n在多模态榜单之外，我们更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练，具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括：\n\n\n图像推理（场景理解、复杂多图分析、位置识别）\n\n\n视频理解（长视频分镜分析、事件识别）\n\n\nGUI 任务（屏幕读取、图标识别、桌面操作辅助）\n\n\n复杂图表与长文档解析（研报分析、信息提取）\n\n\nGrounding 能力（精准定位视觉元素）\n\n\n同时，模型新增“思考模式”开关，用户可灵活选择快速响应或深度推理，平衡效率与效果。\n为帮助开发者直观体验 GLM-4.5V 的模型能力，打造专属于自己的多模态应用，我们同步开源了一款桌面助手应用。\n\n该桌面应用可实时截屏、录屏获取屏幕信息，并依托 GLM-4.5V 处理多种视觉推理任务，日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务，成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和API服务，赋能更多有想法的开发者，基于多模态基座模型发挥创意和想象，把过去科幻电影中的场景变为现实。\n典型示例\n1.视觉定位：精准识别和定位目标物体，应用潜力强大\nGLM-4.5V 能够根据用户提问，精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景，例如安全与质量检查、高空遥感监测分析。相较于传统的基于视觉模型的物体识别，GLM-4.5V 凭借更丰富的世界知识与更强大的语义理解能力，能够通过推理理解更复杂的定位指令。\n\n2.前端复刻：输入网页截图或交互视频，即可复刻网页\nGLM-4.5V具备强大的推理与代码生成能力，能够对上传的网页截图进行分析，并将其转化为结构化的网页代码。与简单的图像元素识别不同，GLM-4.5V能够深入理解并推断元素间的逻辑关系、布局规则和交互意图，从而生成高度准确且功能完整的网页代码。\n值得注意的是，GLM-4.5V在未对视频输入进行专门训练的情况下，也能结合视频理解与代码生成能力，通过其强大的泛化能力对网页交互视频进行分析，输出相应的网页代码，成功复刻视频中展示的网页内容。\n在以下示例中，GLM-4.5V能够通过分析用户浏览知乎的视频，精准识别网页中所有元素的内容、样式与布局，并还原其背后的HTML、CSS和JavaScript代码，确保运行效果与原始视频高度一致。同时，模型会分析视频帧间的动态变化，建模并实现网页交互逻辑，最终复刻出真正可交互的前端页面。此外，用户可通过圈选标记方式向模型提出修改需求，模型据此进一步优化页面，实现真正的视觉交互闭环。\n\n3.图像识别与推理：视觉神探，精准识别图像细节并推理背景信息\nGLM-4.5V具备强大的感知与推理能力。一个典型应用是：在不依赖搜索工具的情况下，模型能通过图像中的细微线索推理出背景信息。例如，上传任意风景或街拍图片后，GLM-4.5V可分析植被特征、气候痕迹、建筑风格等要素，精准推测图片拍摄地点及大致经纬度。\n\n\n \n\n为验证GLM-4.5V的地点识别能力，我们让其参与\"图寻游戏\"全球积分赛，与国内两万余名顶尖人类玩家同台竞技。该游戏要求玩家在限定时间内，根据风景街景图片推测拍摄地的经纬度，比拼速度与精度。\n- 参赛16小时：GLM-4.5V击败99%的人类玩家  \n- 参赛7天：模型攀升至全球第66名  \n这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。\n4.复杂文档深度解读: 不止擅长信息提取、总结和翻译，也能表达自己的见解\nGLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本，能够对文本进行总结、翻译、图表提取等操作；此外，还能在给定信息的基础上输出自己的\"观点\"。与传统的OCR信息提取+文本模型解读的方式不同，GLM-4.5V会像人类一样，以视觉方式读取文档中的每一页图片，避免了信息提取过程中的错误传递，实现了文字与图像的同时理解，因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。\n例如，我们可以给GLM-4.5V上传一份图文并茂的技术报告，让它翻译并解读其中的技术亮点。\n5.强大的 GUI Agent 能力，为 Agent 任务打基础\n基于强大的视觉推理能力，GLM-4.5V 能够识别和处理电子屏幕画面，在 GUI 环境中进行对话问答、图标定位等任务。同时，我们将 GUI Agent 的能力融合到基座模型，模型能够结合当前 GUI 界面与用户指令输出相应操作，配合相应的 Agent 软件能够完成复杂的 GUI Agent 任务，为广大 Agent 项目提供可靠的基座模型支持。\n例如，我们可以给 GLM-4.5V 传入一张陈列了数十个商品的电商页面，让它识别商品图中的折扣价格与标题中的原价，并且计算出折扣比例。\n\n技术细节\n\nGLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成，支持 64K 多模态长上下文，支持图像与视频输入，并通过三维卷积提升视频处理效率。模型采用双三次插值机制，有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性；同时，引入三维旋转位置编码（3D-RoPE），显著强化了模型对多模态信息的三维空间关系的感知与推理能力。\nGLM-4.5V 采用三阶段策略：预训练、监督微调（SFT）和强化学习（RL）。其中，在预训练阶段，我们结合大规模图文交错多模态语料和长上下文内容，强化了模型对复杂图文及视频的处理能力；在 SFT 阶段，我们引入了显式“思维链”格式训练样本，增强了 GLM-4.5V 的因果推理与多模态理解能力；最后，RL 阶段，我们引入全领域多模态课程强化学习，通过构建多领域奖励系统（Reward System），结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。\n本文作者：智谱，来源：智谱，原文标题：《全球多模态推理新标杆，GLM-4.5V正式上线并开源》风险提示及免责条款\n\n            市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"}}}