腾讯首个全模态模型混元O将发布,正面硬刚DeepSeek和字节豆包|AGI独家

钛媒体
25 May

腾讯不止“关爱”DeepSeek,其自研大模型“混元”似乎也要发力,不仅瞄准豆包,而且要发力“全模态”,利用更多资源投向通用人工智能(AGI)。

5月25日消息,笔者独家获悉,基于腾讯自研大模型混元的首个端到端语音通话模型Hunyuan-Voice,最快今年6月上线腾讯元宝App,从而与豆包AI视频通话功能对抗。而且,腾讯已规划多模态和全模态路线,最快今年将推出全球首个“全模态模型”,代号为混元-O,瞄向“世界模型”。

隶属于腾讯TEG(技术工程)事业群的腾讯混元科研人员透露,面向AGI,混元将以语言模型为核心,探索多种模态融合,并将向深度、广度两方面持续推进探索。一方面,混元从大语言模型向多模态模型发展,理解和模拟物理世界;同时,混元还将瞄准更智能的推理、规划、智能体,以及探索知识边界,自我启发、自我迭代、自我发现,最终与具身智能等技术结合,向环境中自主行动和学习的世界模型方向进行探索。

这是首个披露腾讯混元最新规划的消息,在此之前,腾讯没有对外披露过混元-O全模态模型技术。

后发混元大模型,马化腾直夸DeepSeek

随着2022年底ChatGPT风靡全球,2023年2月,腾讯混元大模型项目正式启动,并部署AI大模型技术研发工作,以语言模型为基础,逐步打造涵盖各种模态的模型矩阵。

2023年9月,腾讯在全球数字生态大会上正式发布混元大模型 ,并宣布通过腾讯云对外开放。该模型是腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超2万亿tokens;9月中旬,混元大模型首批通过《生成式人工智能服务管理暂行办法》备案。

2024年,腾讯混元大模型加速迭代,1月发布高性能MoE模型,5月开源业界首个中文DIT文生图模型,随后发布混元多模态理解模型;9月,混元Turbo发布;11月,腾讯混元开源大语言模型Hunyuan-large。

事实上,腾讯很早就布局AI技术,2021年腾讯就推出千亿和万亿参数的NLP稀疏大模型,但是在混元问题上,截至2024年底,腾讯混元一直落后于OpenAI,并且未与豆包、阿里通义、DeepSeek等模型拉开差距,腾讯AI应用元宝也未与kimi等产品形成头部效应。

2023年股东大会上,腾讯集团董事长兼CEO马化腾表示,AI是全行业甚至全世界的重点,腾讯总算能跟上第一阵列,不能算最领先,但是至少没有太落后。

“我们最开始以为这是互联网十年不遇的机会,但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇。互联网企业都有很多的积累,都在做,我们也一样在埋头研发,但是并不急于早早做完,把半成品拿出来展示。”马化腾称。

马化腾强调,后面还要结合场景发展,把AI混元大模型应用到各个场景中,“短期内一两年内我感觉不会有一个纯原生AI大的应用,应该还是要结合到我们的所有产品里面效率提升等,我觉得这个是一个很大的机会。”

到了2025年,中国开源AI模型DeepSeek风靡全球,腾讯突然加速AI应用落地部署,旗下元宝、浏览器、微信、ima、腾讯文档、QQ浏览器、QQ音乐等多款腾讯产品,在接入混元大模型的同时,接入DeepSeek-R1模型。在外界看来,这让混元AI大模型处境略显尴尬,似乎成为“备胎”。

DeepSeek-R1虽弥补了混元大模型在推理速度和响应效率上的不足,却使得用户更倾向于使用有DeepSeek加持的功能。

今年3月腾讯年报沟通会中,马化腾谈及DeepSeek时表示,深度思考模型出来后,AI智能化比以前有大幅提升,而且DeepSeek出现后,开源和中国工程师在关注成本和效率方面的优势较为明显。AI的智能化程度相比往年有大幅度提升,对于腾讯来说经过慎重思考,云业务和元宝都在拥抱AI。未来应用大发展的机会已经到来,各家都在采用AI落地,也看到AI Agent(智能体)的发展,背后有很多AI相关工具的想象空间。目前AI生态还在早期,各行各业都会受益于AI普及,相信每个行业都会拥抱这个机会。

“我们业界和梁文锋都有交流,很敬佩市场上出现独立、开源的产品,我们非常尊重。”马化腾表示。

与此同时,腾讯集团CSIG旗下腾讯云针对DeepSeek开源的DeepEP通信框架进行深度优化,使其在多种网络环境下均实现显著性能提升。相关技术方案也获得了DeepSeek公开致谢,称这是一次“huge speedup”代码贡献。

“使用GPU进行大语言模型训练。去年有一段时间,人们认为每一代大型语言模型都需要数量级更大的GPU,但 DeepSeek 的突破性进展结束了这一时期。现在,业界以及我们业内人士都能够利用现有GPU大幅提高大型语言模型训练的生产力,而无需像之前预期的那样额外添加GPU。”腾讯此前在财报会上表示。

据界面,一位负责互联网大厂投流的营销供应商表示,腾讯在元宝上的投流打法复制了去年字节跳动豆包“大力出奇迹”的推广模式,通过自家产品生态自带的流量中心优势(字节主要依赖抖音、今日头条,腾讯依赖微信),再加上大规模广告投放引流。唯一的区别是,字节跳动投流的宣传对象主要是自家的“豆包”AI模型,腾讯则几乎为每一条元宝广告都贴上了“DeepSeek”标签,自家混元模型反而没有太多曝光。

不过,腾讯似乎依然不想放弃自研大模型产品。随着全球AI产业全面形成“重资源”投入趋势,腾讯希望利用“自研+开源”多模型策略,加速全域产品AI渗透。

目前混元是由腾讯TEG(技术工程)进行主导研发,随着姚星、蒋杰等人陆续离职,目前腾讯混元负责人是腾讯首席科学家、腾讯机器人X实验室主任、视觉计算机领域专家张正友,他向腾讯集团高级执行副总裁、技术工程事业群总裁卢山汇报;而元宝、腾讯云等隶属于CSIG事业群,由腾讯集团高级执行副总裁、云与智慧产业事业群总裁汤道生领导。

这两大事业群主导腾讯AI业务研发和落地。

2025年2月,混元深度思考推理模型T1预览版上线腾讯元宝;3月,混元 Turbos通用模型发布;4月,新一代旗舰混元多模态模型发布;5月,多模态慢思考深度推理模型混元T1-Vision发布,端到端语音通话模型也在5月底发布,并将上线腾讯元宝。

目前,混元 TurboS 在权威评测平台Chatbot Arena中已跻身全球前八,低于OpenAI O3、Gemini、DeepSeek-R1等模型,在代码与数学等理科能力上跻身全球前十。最新一轮升级中,TurboS 在理科推理、代码能力和竞赛数学三项指标上分别提升了超10%、24%与39%。

笔者了解到,混元团队正在规划多模态和全模态模型。

“多模态认知系统应该怎么去构建?一个核心观点,应该以语言模型为核心。语言的边界可能也是世界的边界,这个意思就是说语言跟认知可能是等价的,所以这个是从任务角度来说是这样的。因此,我们就基于它去做了视觉模型、语音模型,同时我们也在规划全模态模型,它都是以语言模型为核心,再进行知识推理链,这样的话我们能够利用好语言模型强大能力,同时它也是一个混合弹性的结构。”混元团队称。

下一步,面向通用AI,腾讯混元尝试用深度、广度两个方面推进,最后目标是希望创造一个类似于贾维斯这样的一个机器人,它能够自主去在比较复杂的世界里面探索。

谈到具身智能,5月24日首届国际通用人工智能大会上,张正友表示,目前机器人本体能力、机械能力和身体部分能力距离人类还差很远,具身智能的机器人大脑和身体是不协调的,所以真正的具身智能,是要能够身体和智能融合,并且能够自主学习处理问题,环境变化不确定下能够自动调整和规划系统。因此,复杂的感知能力、执行能力、学习能力、规划模型的集中智能等能力都需不断提升。

张正友强调,要探索一个最佳机器人本体形态,人形机器人当然是其中一个,但双足、人形机器人不一定是最佳的形态。

“具身智能现在正在往上发展,但到一定程度以后,不一定是寒冬,至少资本上面会有一个缩减的过程,最后会继续往前发展。所以从我们角度来讲,我们要继续提升具身智能的能力,寒冬过后能够有更好的发展。”张正友称。

7年投入超3900亿,腾讯要与阿里、字节激战AI

“这些‘大模型六虎’正在以三倍速,走当年我们‘AI四小龙’(依图、旷视、云从、商汤)2017-2019年的老路。”依图科技联合创始人林晨曦曾对笔者表示,如果 AI 创业公司想在国内 C 端产品中获得商业化,能力和最终结果远不及字节等互联网大厂,后者有大量的投入、人力资源、流量与用户规模,这是创业公司无法做到的。

如今,腾讯决定向 AI 技术领域加大研发投入。

2024年,腾讯研发投入达706.86亿元,过去7年累计投入达3912亿元;年度资本开支更突破767亿元,同比增长221%,创历史新高。其中,AI项目发展所涉及的资本开支就达390亿元。

刘炽平表示,腾讯计划2025年进一步加大资本开支,预计会占2025年总收入的“低两位数百分比”。这意味着,2025年腾讯的资本开支可能接近1000亿元的水平。

除了腾讯,阿里、字节都在加大AI研发投入力度。阿里巴巴集团CEO吴泳铭已经宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年总和。这也创下中国民营企业在云和AI硬件基础设施建设领域有史以来最大规模投资纪录。

落地层面,腾讯主要在B端、C端两部分落地。

其中,C端方面,腾讯元宝接入“满血版”DeepSeek- R1模型,并能读懂图片后,今年2月、3月曾多次登上苹果AppStore中国区免费榜前列,3月3日晚成为下载排行榜第一名。

B端层面,截至目前,腾讯内部超过700个业务场景获得混元大模型底座支持,大概每个月接入超百个场景,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户通过腾讯云调用腾讯混元大模型API。

腾讯总裁刘炽平在此前财报会上表示,“微信搜索的查询量和收入持续快速增长。我们整合了腾讯混元和DeepSeek大型语言模型能力,提升了微信搜索结果的相关性和质量。目前,腾讯自有模型支持的搜索结果已覆盖超过90%的问答式搜索。”

最新财报显示,2025财年第一财季,腾讯实现总收入1800亿元,同比增长13%。其中,To B业务(金融科技及企业服务)实现营收549亿元。

展望未来,AI 是一个资本型、学术交叉型复杂技术,需要超强的算力、优秀的人才、高超的技术研发实力等,因此,新的 AI 大模型的“下半场”一定是巨头之间的较量,而作为BAT三大中国互联网头部公司之一,腾讯混元将与阿里通义、字节豆包激战AI智能体和商业化落地,尤其在“AI+云”平台层面。

清华大学计算机系副教授刘知远表示,“AGI新技术还在加速演进,未来发展路径尚不明确。我们仍处于追赶阶段,已经不是望尘莫及,但也只能说是望其项背。在别人已经探索出来的路上跟随快跑是相对容易的,接下来我们要面对一团未来迷雾。”

汤道生最近表示,AI行业还处于早期阶段。大家都在跑马圈地,尝试着不同的商业模式。有的在追Scaling Law,有的在打造To C市场新入口,有的在做产业落地,非常热闹。

“AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。”汤道生说。

汤道生5月21日强调,模型深度思考的突破,推动生成式AI的可用性从“量变”发展到“质变”,腾讯持续加大AI投入力度,各项业务全面拥抱AI。同时也以大模型、智能体、知识库和基础设施“四个加速”,打造“好用的AI”。

(本文首发于钛媒体App,作者|林志佳)

责任编辑:栎树

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10