智谱再融10亿！获上海国资押注，开源视觉大模型，能解说球赛，还会玩手机

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

智东西

作者陈骏达

编辑云鹏

智东西7月2日报道，今天，智谱发布了GLM-4.1V-Thinking系列视觉推理模型，并率先开源了GLM-4.1V-9B-Thinking，后者的整体水平达到了同尺寸（10B量级）视觉语言模型的领先水平，还在多项能力上超过了尺寸更大的Qwen-2.5-VL-72B、GPT-4o等模型。

开源之外，智谱还在今天举行的智谱开放平台产业生态大会上宣布，该公司获得浦东创投集团和张江集团联合战略投资，总额10亿元。同时，智谱推出全新生态平台Agent应用空间，并开启Agents开拓者计划，投入数亿资金，全方位扶持AI Agents创业团队。

GLM-4.1V-9B-Thinking通过混合训练融合了丰富的多模态模型能力。这一模型能解析最长2小时的视频内容，或是对图像中的内容进行深入分析和解答。例如，解析球赛时，模型能理解球员的位置，看懂球员的战术特点。

▲视频解析能力展示（图源：智谱）

它还支持看图写网页、GUI Agent能力等，能识别网页、电脑屏幕、手机屏幕等交互界面元素，支持点击、滑动等指令执行能力。比如，当收到用户创建日程的要求时，它能自动找到对应应用，并准确完成操作。

▲GUI Agent能力展示（图源：智谱）

这一模型还擅长数学与科学推理、视觉锚定与实体定位（Grounding）等任务，后者可实现语言与图像区域的精准对齐，提升人机交互可控性。

GLM-4.1V-9B-Thinking在28项评测任务中获得了23项同尺寸模型最佳，在18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。这一效果得益于智谱引入的课程采样强化学习（Reinforcement Learning with Curriculum Sampling）策略。

目前，GLM-4.1V-9B-Thinking已在GitHub、魔搭、Hugging Face上开源，这一尺寸的模型较为适合本地部署。用户也可在魔搭、Hugging Face上直接体验到这一模型，体验页面支持上传图片、视频、PPT、PDF等文件。GLM-4.1V-Thinking的技术报告也一并公开。

论文链接：

https://arxiv.org/abs/2507.01006

部分开源链接：

https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

部分体验链接：

https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

一、训练架构围绕统一核心：用强化学习增强推理能力

论文提到，视觉-语言模型（VLMs）已成为现代智能系统的关键基石，使系统能够超越文本感知和理解视觉信息。在过去十年中，随着模型智能水平的显著提升，相应多模态智能任务的复杂性也相应增加。

当前，业内对模型的要求已远远超出简单的视觉内容感知，对高级推理能力的重视程度不断增加。最近，许多研究表明，长形式推理和可扩展的强化学习可以显著增强大型语言模型（LLMs）解决复杂问题的能力。

一些先前的研究尝试使用类似的范式来增强VLMs的推理能力，但它们主要集中在特定领域。目前，开源社区缺乏一种在广泛任务范围内持续超越传统同类参数规模非推理模型的多模态推理模型。

因此，智谱GLM-4.1V-Thinking的训练框架围绕一个统一目标构建：通过可扩展的强化学习全面增强模型的推理能力。

GLM-4.1V-Thinking模型架构由三个核心模块组成：视觉编码器（ViT Encoder）、多层感知机适配器（MLP Projector）以及语言解码器（Language Decoder）。

智谱选用AIMv2-Huge作为视觉编码器（这是苹果提出的通用视觉编码器），GLM作为语言解码器。

在视觉编码器部分，智谱将原始的二维卷积替换为三维卷积，尤其适用于视频理解，有效提升了处理效率。对于静态图像输入，则通过复制帧的方式以保持输入格式的一致性。

GLM-4.1V-Thinking系列模型还对任意图像分辨率和宽高比具有一定适应能力，这得益于两项关键改进：

其一，融合二维旋转位置编码（2D-RoPE），使模型能够稳定处理极端宽高比（如超过200:1）和超高分辨率（如4K以上）的图像；

其二，为保留ViT预训练模型的原有能力，智谱保留了其可学习的绝对位置嵌入，并通过双三次插值方式在训练过程中动态适配不同分辨率输入。

在语言解码器中，智谱对原始的旋转位置编码（RoPE）进行了三维扩展（3D-RoPE）。这一设计显著增强了模型在多模态输入处理中的空间理解能力，同时保持了其在文本生成方面的原始性能。

二、预训练工作分两步走，给模型“排课程”实现高效RL

GLM-4.1V-Thinking 的训练过程分为三个阶段：预训练（Pretraining）、监督微调（SFT）和强化学习（RL）。

1、预训练

在模型的预训练阶段，智谱采用了分阶段渐进式的训练策略，通过两个紧密衔接的子阶段逐步构建和提升模型的多模态理解与长上下文处理能力。

首先展开的是多模态预训练阶段，这个阶段的核心目标是打牢模型的基础能力，使其建立起对多种模态数据的通用理解。这一阶段的训练数据，既有传统的图像字幕和交错图文，也包含了更具挑战性的OCR识别、视觉定位(Grounding)以及指令响应等多样化数据。

随后进入的长上下文持续训练阶段，则着重拓展模型处理复杂长序列数据的能力。这个阶段，智谱引入了更具挑战性的训练素材，包括连续的视频帧序列以及token数量超过8K的超长图文混合内容。

通过这两个阶段的递进式训练，模型逐步获得了处理高分辨率图像、视频序列以及超长文本等复杂场景的能力。

2、监督微调

在微调阶段，智谱构建了一个高质量的CoT（思维链）训练集，用于强化模型的长篇因果推理能力。

训练语料来自多个任务场景，包括数学题解、多轮对话、代理规划与复杂指令跟随，涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力，也保持了模型在语言理解与逻辑推演方面的稳定表现。

3、课程采样强化学习

在监督微调基础上，智谱引入强化学习全面优化模型性能。强化学习让模型通过与环境的交互来学习行为策略，以最大化累计奖励，课程采样强化学习在此基础上引入课程学习的思想，通过合理安排训练样本的难度顺序，使模型能够更高效地学习。

智谱结合两种方法：基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF）。前者更加适用于有明确答案的问题，后者则更适用于需要人类评判模型完成效果的问题。

强化学习工作覆盖了多个关键领域：

（1）STEM领域问题求解（数学、物理、化学）

（2）多模态信息定位与理解（OCR、实体定位、视频分析）

（3）智能体任务（GUI交互、代理规划）

（4）文档与图表理解、逻辑推理、复杂指令执行等

通过课程采样，在这些任务上开展由易而难的动态大规模强化学习训练，模型在实用性、准确性和稳健性等方面取得了显著提升。

在基准测试中，GLM-4.1V-9B-Thinking展现出了类似尺寸模型中领先的水平，并在通用视觉问答、STEM、OCR & Chart、长文档理解、GUI Agents和多模态编码以及视频理解领域表现出色。

测试还探讨了多领域强化学习中不同模态领域之间是否能泛化和相互促进的问题。对STEM、OCR & Chart、视觉定位（Grounding)）和GUI Agent这四个代表性领域的实验表明，在大多数领域中都存在强大的跨领域泛化和相互促进现象。

例如，在STEM数据上进行强化学习不仅提高了STEM领域的特定技能，还增强了视觉定位GUI Agent交互和通用视觉QA任务的性能。跨领域联合训练在每个领域中带来了更大的改进，这可能是GLM-4.1V-9B-Thinking良好性能的基础。

三、发布Agent应用空间，可一站式接入Agent能力

智谱还在今天发布了全新生态平台Agent应用空间，这是一个面向企业客户和开发者的AI Agent能力聚合平台。

Agent应用空间提供Agent应用与模型插件（MCP）。开箱即用、灵活编排的组件服务和Agents应用，让企业无需自建大模型团队，即可低门槛接入成熟、安全、可控的Agent能力。

这一平台还提供一站式开发工具链、完整的模型调用接口与灵活的应用组合机制。

智谱是国内较早布局智能体技术的大模型厂商之一，曾提出Agentic GLM战略。今年3月，智谱曾发布AutoGLM沉思智能体，能探究开放式问题，并根据结果执行操作的自主智能体（AI Agent），可以模拟人类的思维过程，完成从数据检索、分析到生成报告。

结语：智谱开源动作持续，今年已集齐五城融资

2025年，智谱逐渐加速了其开源节奏，已经陆续推出GLM-Z1-Air、GLM-Z1-Air、GLM-Z1-Rumination等开源模型。智谱本次开源的新模型对Agent能力做了大量的针对性训练，提升了模型在Agent场景的使用价值，也顺应了当下Agentic AI的整体趋势。

4月，智谱宣布启动IPO进程，但其在一级市场的融资并未放缓。今年开年以来，智谱已经获得了北京、上海、杭州、成都、珠海等五个城市的地方国资押注，融资总额超25亿元。这也表明，对于行业头部企业而言，大模型的吸金热还远未结束。

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

智谱再融10亿！获上海国资押注，开源视觉大模型，能解说球赛，还会玩手机

Most Discussed