DeepSeek-V4未至,姚顺雨交出腾讯混元重建后首份模型答卷

蓝鲸财经
Apr 23

图片来源:视觉中国

蓝鲸新闻4月23日讯(记者 朱俊熹)传闻中的DeepSeek-V4模型还未露面,前OpenAI研究员姚顺雨已率先交出加盟腾讯后的首份答卷——Hy3 preview。

4月23日,腾讯混元正式发布并开源了新一代语言模型Hy3 preview。作为混元团队重组后训练的第一个模型,官方将其称为混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体能力以及推理性能上均实现了大幅提升。

模型结构方面,Hy3 preview是一个快慢思考融合的混合专家模型。其总参数规模为295B,激活参数21B,最大支持256K上下文长度。从具体性能表现来看,腾讯混元表示,代码和智能体是Hy3 preview提升最为显著的方向。

不过,在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准中,Hy3 preview的表现并未超过Anthropic的Claude-Opus-4.5、智谱GLM-5等国内外主流模型。

除了公开榜单体系,腾讯混元还构建了多个内部评测集,用以评估模型在真实开发场景中的表现。例如,在后端工程任务集Hy-Backend、贴近真实用户交互的Hy-Vibe Bench,以及高难度软件工程任务集Hy-SWE Max等内部测试中,Hy3 preview综合表现优于Kimi-K2.5,但仍未达到Claude-Opus-4.6的水平。

混元团队此前还联合复旦大学发布CL-bench和 CL-bench-Life基准测试,基于腾讯业务场景的灵感,用于评估模型的上下文学习能力。在这一评测体系中,Hy3 preview的表现要高于Kimi-K2.5、GLM-5,但仍落后于OpenAI的GPT-5.4 xhigh。

腾讯将Hy3 preview定位为混元快速探索实用性大模型、解决真实世界问题的开端。腾讯首席AI科学家姚顺雨表示,这是混元大模型重建的第一步。希望通过此次开源与发布,获得来自开源社区和用户的真实反馈,帮助提升Hy3正式版的实用性。同时,公司仍在持续扩大预训练与强化学习规模,提升模型的智能上限。并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,开始探索特色模型能力。

过去一年,腾讯混元大模型经历了“深度重构”。去年12月,姚顺雨官宣加入腾讯,出任“CEO/总裁办公室”首席AI科学家,向腾讯总裁刘炽平汇报;同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报。架构升级后,AI Infra部负责大模型训练和推理平台技术能力建设,AI Data部、数据计算平台部则分别负责大模型数据及评测体系建设、大数据和机器学习的数据智能融合平台建设工作。

腾讯公司董事会主席兼首席执行官马化腾在1月的员工大会上表示,姚顺雨加入之后,公司加快吸引人才的力度,重构研发团队,以及在内部加快了Co-design设计,强化混元大模型和元宝的协同。腾讯混元也在人才吸引、组织结构等方面“做了很大的改变”,吸引更多的原生AI人才。

进入今年2月,腾讯混元进一步明确了技术路线,对预训练和强化学习的基础设施进行重建,并提出模型追求实用性的三个原则。一是能力体系化,不推崇“偏科”,推动推理、长文、指令、代码、工具等多能力的协同。二是评测真实性,主动跳出易被“刷榜”的公开榜单,通过自建题目、人工评测等多种方式评估和改进模型表现。三是性价比追求,大幅降低任务成本,让智能用得起、用得好。

在成本方面,Hy3 preview的成本相比上一代模型大幅下降,整体推理效率提升40%。腾讯将其归功于模型与推理框架的深度协同,以及算子性能与量化算法等方面的优化。在腾讯云大模型服务平台TokenHub上,其输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。腾讯云还推出定制的Hy3 preview Token Plan套餐,个人版最低28元/月。

作为参考,月之暗面本周上线的Kimi K2.6模型定价为:每百万tokens 1.1元(命中缓存)、6.5元(未命中缓存),输出价格27元/百万tokens。为庆祝K2.6模型API上线,Kimi开放平台还同步开启了最高30%的限时充赠活动。

在3月18日举行的最新财报电话会上,腾讯总裁刘炽平指出,AI是多重并行的竞赛世界,当前行业仍处于高度动态变化之中。腾讯的策略是依托现有资源、人才和团队,在各个层面都进行投入和布局。他强调,当进入到应用层时,并不完全依赖底层模型能力,更多体现在产品能力、编排能力、连接能力等方面的积累,这正是腾讯的强项所在。

“我并不担心‘后来者’的问题,更担心的是如果我们不够创新、不够快速该怎么办?”刘炽平称,“随着我们重组混元团队,激活所有产品团队去开展产品创新,我认为这一切正朝着非常令人兴奋的方式推进。”

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10