大语言模型2025这一年

中国经营报
Dec 30, 2025

  回望2025年,大语言模型行业取得了一些发展,但同时也面临着一定的挑战。DeepSeek凭借开源策略和推理功能成为黑马,用户增长很快。国内外头部厂商如OpenAI、谷歌腾讯阿里巴巴、字节跳动,以及智谱、月之暗面这些专业大模型公司,在技术、应用和生态上持续竞争。

  财经专栏作者马继鹏接受《中国经营报》记者采访时表示,目前来看,整个行业还处于朝气蓬勃发展的一种状态,很明显的就是,这些互联网巨头研发的这些大语言模型,后劲还是比较足的,比如字节跳动的豆包、阿里巴巴的千问、百度的文心一言、腾讯的元宝。目前来看,各家的水平可能都差不多,但是互联网巨头在大模型应用方面,和专门做大模型的公司如Kimi、DeepSeek相比,有一些天然的优势,其更懂得怎么大规模地获取用户,怎么解决用户的实际问题。

  2025这一年

  综合2025年多个关键时间点的公开信息,腾讯混元大模型在这一年的发展可以概括为年初的技术攻坚与能力突破,到年中生态与应用的全面铺开,再到年底在“世界模型”上的战略卡位,体现了从技术追赶到场景落地的清晰路径。

  比如,混元在模型能力升级方面,快慢思考结合,推出TurboS(快思考)与T1(慢思考)组合,增强推理与响应能力。

  DeepSeek这一年的发展确实亮眼,从模型架构到应用场景都有不少突破。DeepSeek-V3(2024年12月发布)是当前的开源标杆,采用MLA(多头潜在注意力)和DeepSeek MoE架构,总参数达6710亿,每个token可激活370亿参数。它在数学推理(如MATH-500测试)和代码生成(如LiveCodeBench竞赛)中表现突出,甚至能与GPT-4o、Claude-3.5-Sonnet等闭源模型竞争。

  DeepSeek-R1(2025年1月发布)则聚焦推理能力,性能与OpenAI o1正式版相当,支持上网搜索和PDF阅读,还开放了数据蒸馏和商业化使用。

  如今,DeepSeek又推出了DeepSeek-V3.2和DeepSeek-V3.2-Speciale,DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景。DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。

  而豆包大模型在技术、应用和生态上都实现了显著突破,已成为国内AI领域的头部玩家,日均token使用量突破50万亿,稳居中国第一、全球第三。

  比如,在技术架构方面,推出混合专家模型(MoE)架构,通过动态稀疏激活技术,将万亿参数模型的推理成本降至行业平均水平的60%,性能杠杆提升至7倍。多模态交互,推出“视觉—语言—控制”三模态融合方案,在汽车工厂实践中实现缺陷检测响应时间从分钟级缩短至秒级。实时语音模型,采用Speech2Speech端到端框架,实现语音对话中真正意义上的语音理解生成端到端,具备高表现力与高情绪承接能力。

  统一架构方面,Qwen2.5-VL-32B-Instruct采用统一的Transformer架构和共享向量空间,实现“万物皆可token化”;跨模态对齐,通过共享“语义中间层”统一表征,跨模态生成准确性提升40%以上;基准测试方面,在MMMU(多模态理解)测试中得分超过70分,MathVista(数学视觉推理)和DocVQA(文档视觉问答)测试中达到业界领先水平。

  目前,“大模型四小龙”智谱AI、月之暗面、百川智能和MiniMax这四家公司都推出了各自特色的大模型产品。比如智谱AI在技术能力上,实现了参数规模从5万亿到10万亿级的翻倍增长,推理精度也提升到98.5%,接近国际领先水平。新发布的GLM-4.7在编程能力上表现突出,在Vals Index榜单中拿下开源模型第一,Design Arena胜率和Elo评分也紧追谷歌Gemini。

  记者采访腾讯、小米等方面关于其大语言模型的发展,截至发稿前,对方尚未回复。

  在马继鹏看来,他还是更看重有实际应用场景的,就是它在大模型基础上,开发了很多智能体应用,应用在不同行业,比如医疗行业、图文生成等,可能以后其市场前景会更好。

  展望未来

  大语言模型(LLM)的未来发展,可以用“更聪明、更垂直、更贴近生活”来概括。它正从技术突破走向深度应用,在多个领域带来实实在在的改变。

  在业内看来,在技术突破方面,从“模仿”到“自主思考”。可验证奖励强化学习(RLVR)成为核心,让AI能拆解复杂问题、生成推理轨迹,自主探索解决方案。比如OpenAI的o3模型,在数学、代码等可验证任务中表现突出。多模态能力持续增强,像GPT-4o已能处理文本、图像和音频,成本更低、响应更快。

  在应用升级方面,垂直领域专业化。整合编排成为新趋势,比如Cursor这类应用通过优化提示词、编排模型调用,将通用模型改造成垂直领域的“专业团队”。个性化体验和对话式AI会大幅提升,企业能用LLM提供定制化服务,增强用户黏性。

  智能体方面,本地化智能体如Anthropic的Claude Code(CC)直接部署在用户设备中,可访问本地数据,实现低延迟交互,实用价值远超云端集群。编程方面,门槛降低。氛围编程兴起,普通人用自然语言就能构建复杂程序,专业开发者也能突破技术限制,实现轻量化开发;语言翻译和本地化将显著进步,LLM能提供更自然、符合语境的翻译,助力跨语言沟通。交互革新,告别纯文本。业内人士指出,可视化交互成为新趋势,LLM将告别纯文本,进入更直观、更丰富的交互时代。隐私保护技术方面,将建立用户信任,确保LLM应用符合伦理标准。

  展望未来,挑战与机遇并存。业内人士认为,数据多样性与质量是主要瓶颈,需提升数据来源和标注质量。模型可解释性和透明度不足,需加强监管和防范措施。技术标准与规范缺乏,需制定统一标准,提升开发效率。

  马继鹏认为,大模型企业未来的发展方向,无非就是两个:第一,就是像DeepSeek这类,在基础能力、技术能力方面,其会走得越来越强,代表中国和OpenAI在技术方面竞争。第二,就是在应用方面可能会更厉害。在应用方面,可能有两个重要的方向:一是比较虚拟的,比如图文生成、视频生成,它本质上是结合目前互联网上的大数据给用户提供一些比较可靠的答案;还有一个应用方向,就是在具身智能领域的应用,具身智能其实是一个物理的人工智能,但是其大脑还是需要大模型的,这是一个非常好的应用方向,而且具身智能也是未来几年国家鼓励发展的一个方向。

(文章来源:中国经营报)

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10