大模型角力视觉推理,推理AI新时代来临?

市场资讯
Jul 03

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

21世纪经济报道记者孙燕 上海报道

输入一个PPT,自动生成汇报内容、演讲稿;输入一段“苏超”视频,得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。

7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视频、文档等多模态输入,可用于复杂认知任务。

“就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推理,理解复杂的物理世界。”在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视觉理解能力有机结合在一起。

今年以来,视觉推理成为大模型竞争焦点:OpenAI推出o3和o4-mini,首次实现将图像融入推理过程;字节跳动旗下火山引擎发布豆包1.5深度思考模型,具备视觉推理能力;阿里通义发布QVQ-Max,支持图像解析、视频分析等能力。

“AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。”张鹏指出,视觉推理能力是L3中很重要的能力。

人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。

从语言推理到视觉推理

AI拥有了视觉推理能力,能够做什么?

中信建投证券研究指出,多模态模型可以直接“看到”PDF 中的图片、图表、表格布局等视觉元素并从中提取信息,同时也能理解PDF的页面布局,例如识别标题、段落、列表、表格的位置和关系,这对于结构化信息提取至关重要。

以GLM-4.1V-Thinking为例,首先可以用于图片理解,如看图买菜;也可以用于数学与科学推理,尤其是几何题这样需要图像理解、文字理解、推理等综合能力的题目,视觉推理能够支持复杂题解、多步演绎与公式理解。此外,大模型具备时序分析与事件逻辑建模能力,能够用于视频理解。

人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真正的生产力。

此前,大模型可以用于代码生成;而视觉推理能力使得AI能够“看懂”和“理解”视觉信息,比如用户界面(UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。

“视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户操作界面,形成精准的操作逻辑。”据张鹏介绍,GLM-4.1V-Thinking能够用于GUI与网页智能体任务,实现交互操作;还可以用于视觉锚定与实体定位(Grounding),通过语言与图像区域精准对齐,提升人机交互可控性。

国盛证券研究指出,视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户提供多模态Agent体验。

可以看到,视觉推理能够用于长视频理解、图像问答、学科解题、文字识别、文档解读、视觉锚定与实体定位(Grounding)、GUI Agent和代码生成。中信建投证券也指出,其缺点在于处理信息过多时容易出现幻觉,对模型能力要求较高。

商业化落地

视觉推理带动大模型向通用多模态推理迈进一步,大模型企业也在谋求将这一能力转化为数字化生产力,寻求商业化落地。

面对B端客户,大模型企业一方面提供Agent,打通“最后一公里”。如智谱面向企业客户和开发者,推出了Agent应用空间,企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的Agent能力。

如果说大模型是发动机,Agent则是由发动机提供动力的汽车、飞机、军舰,包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。

“智能体到底是偏向白领的创意型工作,还是蓝领的体力工作,抑或是偏向顶尖研究人员的创意和研究探索型任务更合适?对于这些问题,业界仍然在不断探索。”张鹏认为,但只有让AI工人实现了代替人的一部分基础性、重复性工作,才能够实现真正的降本增效,这是智能体能力的关键点。

长江证券研究指出,视觉推理+工具调用的深度融合下,教育、医疗、企服等垂直场景的 Agent落地周期有望提前,看好Agent商业化元年及投资机遇。

毕马威中国技术和新经济管理咨询服务主管合伙人高人伯告诉记者,随着生成式AI向“自主智能体”演进,AI将不再仅仅是执行指令的工具,而是能够主动规划、协同并完成复杂任务的智能伙伴,这可能会催生全新的商业模式。

另一方面,大模型企业也在探索将AI能力落地于智能硬件。

这也经历了技术演进:早期模型很大,只能在云上推理,手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决,端侧也可以部署一定的智能能力,如在汽车、AI眼镜、AI玩具上可以实现端云结合。

“未来不管是机器人,还是汽车、眼镜、胸针,都会接入AI的能力。”张鹏认为。

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10