DeepSeek融资500亿,梁文锋难逃资本局

蓝鲸财经
May 14

文|光锥智能 白鸽

出身量化圈,梁文锋却对资本一直非常不感冒。

也正因此,5月的科技圈,没有任何消息比DeepSeek的融资更具冲击力。

据The Information援引多位知情人士透露,DeepSeek正在寻求完成一轮规模超过500亿元人民币(约73.5亿美元)的融资,其中创始人梁文锋计划在本轮融资中个人出资200亿元,占募资总额的40%。腾讯拟出资60亿元获得约2%股权,而国家集成电路产业投资基金(大基金)正在洽谈领投。

如果顺利落地,这将刷新中国AI公司单轮融资纪录,投后估值有望突破3500亿元(约515亿美元)。

21天前,也就是4月初,市场对DeepSeek的估值还停留在100亿美元,初始融资计划仅为3亿美元,用于期权定价。21天后,估值暴涨超4倍,融资规模翻了24倍。

对于熟悉梁文锋的人来说,这个消息无异于一场“核爆”。这位曾多次宣称“暂不融资”、婉拒腾讯和阿里入股邀约的技术理想主义者,为何突然改变立场,而且是以如此惊人的规模?

事实上,近期从国内到海外市场,包括OpenAI、智谱AI、月之暗面等几家头部AI大模型公司都在进行大规模融资,我们在大模型爆火之初就说过,这是一个“神仙打架”的市场。

在这其中,DeepSeek不是正规的天庭大军,可能是独树一帜的“镇元子”。

而故事的主角梁文锋,1985年生于广东湛江,浙大本硕毕业,从量化私募巨头幻方量化的掌舵人,到DeepSeek的创始人,他也始终是科技圈最“特立独行”的存在。

现如今,世道变了,以往是公司求着融资而不得,DeepSeek却被裹挟着进入AI化的资本浪潮。

从幻方量化到DeepSeek的“技术洁癖”

要读懂这次融资,必须先读懂梁文锋和他一手打造的“DeepSeek式理想国”。

梁文锋的起点,是金融圈。

2008年,刚毕业的梁文锋带着7人团队,用机器学习模型做量化交易,三个月实现500%收益。2015年,幻方量化正式成立,凭借AI驱动的量化策略,迅速崛起为行业头部玩家。

2021年,幻方量化资产管理规模突破千亿,2025年平均收益率达56.6%,仅当年就为梁文锋带来超7亿美元收入。DeepSeek的“不差钱”,从来不是一句空话。

但梁文锋的野心,从来不止于金融。

早在2020年甚至更早,梁文锋及其团队就坚信,人工智能是未来核心驱动力,而算力是基础命脉。因此,当业内多数机构聚焦于策略和规模时,幻方做出了一个在当时看来极为超前且重资产的战略决策,即将大量利润持续投入,自建超大规模GPU计算集群。

2020年3月,其投资上亿元、搭载上千张高端GPU的“萤火一号”超级计算机正式投入运行。这一远超当时行业常规做法的投入,为其AI量化研究奠定了坚实基础,也为其后布局通用人工智能(如孵化DeepSeek)埋下了伏笔。

2023年4月,幻方量化宣布成立大模型公司DeepSeek,正式进军AI领域;7月,杭州深度求索人工智能基础技术研究有限公司注册成立,梁文锋亲自领衔,从金融科技跨界AGI赛道。

彼时的DeepSeek,是AI圈最“佛系”的异类。

成立初期,梁文锋给DeepSeek立下三条铁律:不融资、不上市、不商业化。在资本疯狂涌入AI赛道的2023-2024年,这是一个近乎“叛逆”的选择。

当字节、阿里、百度等互联网巨头,一边砸钱做模型,一边快速落地ToB、ToC业务时,当智谱AI、百川智能、月之暗面等创业公司,成立不久就启动多轮融资,靠资本输血快速扩张时,DeepSeek靠着幻方量化的“无限供血”,闭门研发,不路演、不宣传、不接商业订单。

梁文锋的理由很简单:技术理想主义,不能被资本和商业化绑架。

他曾公开表示:“DeepSeek的目标是做世界顶级的通用大模型,不是为了赚钱,也不是为了上市。资本会追求短期回报,商业化会妥协技术路线,这些都会干扰我们的核心目标。”

这份纯粹,让DeepSeek迅速跻身国产大模型第一梯队。

2024年5月,DeepSeek-V2发布,创新的模型架构和极致性价比引发热议;2024年12月,DeepSeek-V3开源,公布53页技术细节。

2025年1月,DeepSeek-R1发布,在数学、代码、推理等任务上,性能比肩OpenAI o1正式版。据其团队在英国《自然》杂志发表论文披露,DeepSeek-R1模型的训练成本仅为29.4万美元,构建基础大语言模型也只花费了约600万美元,这一成本已远远低于美国同行透露的数字。

技术上的成功,让DeepSeek成为国产大模型的技术标杆,也让梁文锋的“三不铁律”一度成为行业美谈——原来,不靠资本,不靠商业化,也能做出世界一流的大模型。

但理想很丰满,现实的暗流早已涌动。

三重压力下DeepSeek的理想被现实撞碎

梁文锋一再坚持的远离资本圈的立场,在2026年4月发生了策略性调整。

量化对冲基金出身的人不会做冲动决定。梁文锋转向资本,一定经过了冷静地测算。测算的背景,是DeepSeek面临的竞争格局正在发生质变。

从当前公开媒体报道的信息来看,引发其做出这一决定的关键因素之一,是人才问题。

DeepSeek一直被视为中国大模型行业里最特殊的一家公司——团队规模小、人才密度极高、几乎不社招,以应届生和实习生留任为主。

但正是这种小团队的精锐模式,使得每一个核心研究员的权重都被放大到了极致。

过去一年,DeepSeek多位技术骨干被高薪挖角,AI才女罗福莉被雷军挖到了小米,研究员郭达雅也已加入字节跳动,担任Agent负责人之一。公开信息显示,自2025年下半年以来,公司至少5名核心研发人员相继离职,知名科技企业都在不计成本挖人。

也正因此,行业有说法称,梁文锋最近寻求融资,正是在给员工做期权定价,以留住人才。

如果说人才流失就是“近忧”,那么资金压力是“远虑”,尤其是算力成本。

业内皆知,AI大模型的研发,是典型的“重资产、高投入、长周期”生意。如果说两年前大模型的竞赛还可以靠算法巧思“四两拨千斤”,那么如今则是赤裸裸的算力消耗战。

V4.1定档2026年6月发布,将重点优化推理、多模态与稳定性,而这背后,从训练到推理,从英伟达到升腾,从千卡集群到万卡集群——每一步都需要天文数字的投入。

幻方量化再有钱,也撑不住一场与全球巨头正面交锋的算力军备竞赛。更关键的是,AI行业的竞争是“不进则退”,一旦资金链跟不上,技术迭代就会停滞,很快就会被对手超越。

最重要的是,当前AI行业竞争本身发生质变,同时整体资本市场对AI大模型公司的估值逻辑也变了。

在国内,字节跳动、阿里巴巴携巨额资金加码AI,月之暗面刚完成20亿美元融资,投后估值突破200亿美元,年度经常性收入在4月已超2亿美元。MiniMax、阶跃星辰等也在密集融资。

另外,智谱AI和MiniMax上市后的疯涨,也给整个行业估值树立了一个标杆。这也就意味着,如果行业中其他创企不能够趁现在的窗口期完成定价,其在一级市场的估值可能就会被瞬间击穿。

据悉,目前阶跃星辰也正在积极筹备上市工作。

整体来看,综合多重因素影响,这也就解释了,为什么梁文锋要开始融资,而且必须是现在。

但显然,他的入局方式,再次颠覆了行业认知:不稀释控制权,不引入短期资本,自己掏200亿领投,把资本主动权牢牢握在自己手里。

资本局的博弈梁文锋的控制权保卫战

DeepSeek的500亿融资,或许从来不是“缺钱找投资”这么简单。

显然,这是一场精心设计的资本博弈,梁文锋的核心目标只有一个:在引入资本的同时,牢牢掌握公司控制权,不让资本左右技术路线。

据天眼查工商信息显示,2026年4月27日,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)注册资本由1000万元增至1500万元,创始人梁文锋通过直接增资将持股比例从1%提升至34%,原大股东宁波程恩企业管理咨询合伙企业持股比例稀释至66%。

通过直接与间接持股,梁文锋合计控制公司约84.29%的股权。可以看到,此次增资是公司内部股权结构调整,梁文锋个人出资500万元增资,没有引入任何外部新增股东。

这表明,在正式启动大规模外部融资前,DeepSeek已率先完成内部股权架构优化。这也意味着,在引入国家大基金、腾讯等巨头资本前,梁文锋通过股权调整巩固了自己的控制地位。

而对于此次融资,DeepSeek与其他AI大模型创业公司的融资存在两个最大的不同点:

其一,公开信息显示,本轮融资最震撼的细节,不是500亿的规模,而是梁文锋个人出资200亿,占融资总额的40%,成为最大投资方。

这种“创始人大额领投”的模式,在全球AI史上都极为罕见。本质上,这是梁文锋的“控制权保卫战”:我可以接受资本的钱,但绝不接受资本的控制。

其二,从目前消息来看,DeepSeek的投资方也同样精挑细选,只留两种钱:国家队资本、实体产业资本,传统财务VC(如红杉、高瓴)全部被拒之门外。

据上海证券报援引渠道人士消息,国家集成电路产业投资基金与深度求索洽谈主导其首轮融资,双方洽谈属实,但最终估值尚未敲定,参与融资谈判的投资方除国家大基金外,还包括多家互联网巨头与其他国资背景基金。

后续消息进一步确认,DeepSeek这轮融资中,梁文锋个人计划出资200亿元,占募资总额的40%,腾讯拟出资60亿元获得约2%股权,国家大基金预计将成为本轮融资的第二大出资方。另有消息称,阿里巴巴已与DeepSeek谈崩,双方未能在融资具体条款上达成一致。

这种投资方结构,背后是梁文锋的深层考量:拒绝财务VC,毕竟传统VC追求3-5年退出,会强迫公司快速商业化、快速上市,与DeepSeek“长期主义做技术”的理念相悖。

与之相对的,国家队+产业资本则更看重长期战略价值,而非短期回报,不会干预技术路线,还能提供政策、算力、场景等核心资源。

而梁文锋自掏腰包的200亿,买下的是在这个估值区间主导对话的权利。如果他在这一轮融资里只是小额跟投,甚至不参与出资,外部投资人对公司的定价权就会更大,公司的战略方向也会受到更多牵制。

200亿的自掏,则代表着一个清晰的立场:我对这家公司的判断,比任何一个外部投资人都更有把握。你们可以参与,但话语权受到我的天然制约。

无疑,这是一种非常高明的创始人博弈策略。

也正因此,可以看到,DeepSeek的融资也体现了“国家战略+创始人决心+生态构建+人才保卫”的多重逻辑组合,而其他公司更多是“技术扩张+商业化推进+市场份额争夺”的路径。

这种差异也反映了DeepSeek在中国AI产业中的特殊定位:不仅是商业公司,更是国家级技术资产和自主可控战略的关键棋子。

一脚踏入资本局的代价与风险

21天估值暴涨超4倍,从100亿美元到515亿美元,很多人质疑,这是不是资本泡沫?DeepSeek值这么多钱吗?

我们先简单来看个对比:

统计时间截止至 2026 年 5 月12日

在国内市场中,DeepSeek的450-515亿美元估值,使其成为仅次于智谱AI(484.83亿美元)的国内第二大估值大模型公司,超过了MiniMax(280亿美元)和Kimi(200亿美元)。

虽然智谱AI和MiniMax在二级市场都登上了千亿港币市值(智谱超3700亿港元,MiniMax超2100亿港元),但DeepSeek作为未上市公司,其一级市场估值已经接近甚至超过了这些上市公司的市值水平。

更为重要的是,DeepSeek的估值在短短一个月内从100亿美元飙升至515亿美元,增长了5倍,这种增长速度在创投史上极为罕见。

无疑,在中国市场中,DeepSeek在估值和融资规模上,都属于第一梯队。但相比海外市场巨头,DeepSeek的差距却并不是一点半点。

融资规模上,OpenAI的1220亿美元融资是DeepSeek计划融资73.5亿美元的16.6倍,Anthropic的300亿美元融资是DeepSeek的4.1倍,即使DeepSeek完成500亿元融资,其规模仍不及海外巨头的零头。

从估值来看,OpenAI估值8520亿美元是DeepSeek估值(按500亿美元计)的17倍,Anthropic目标估值9000亿美元是DeepSeek的18倍,DeepSeek的估值仅相当于OpenAI的5.9%,Anthropic的5.6%。

可以看到,DeepSeek作为中国大模型领域的领军企业,其500亿元融资创下了国内纪录,450-515亿美元的估值也使其成为国内估值第二的大模型公司。然而,与OpenAI、Anthropic等海外巨头相比,DeepSeek在融资规模和估值水平上仍存在数量级差距。

这种差距反映了全球AI产业的两个现实:

一方面是全球AI资本正向极少数头部企业高度集中,另一个则是中美AI生态差异,即美国企业享受全球资本红利,中国企业则更多依赖国内市场和战略资本。

不过,此轮DeepSeek融资的价值,不仅体现在商业估值上,更体现在其作为“国家级技术资产”的战略地位。随着国家大基金的入局,DeepSeek有望在国产AI芯片生态建设和大模型自主可控方面发挥关键作用,这可能是其与海外巨头竞争的重要差异化优势。

但是,500亿元融资和515亿美元估值并非没有风险。

DeepSeek目前的商业化模式相对单一,主要依靠API调用收费。开源策略固然构建了广泛的开发者生态,V4-Flash缓存命中价格低至0.02元/百万token,V4-Pro 0.025元,堪称全球底价,但也有大量企业客户选择自行部署,分流了付费API收入。按行业惯常的估值逻辑,515亿美元的估值能否得到对应的年收入规模支撑,仍是最大的不确定性。

更微妙的是控制权的博弈。梁文锋通过宁波程恩、宁波程信、宁波程普等多层有限合伙架构,目前掌握约84%的股权和近100%的表决权。但引入大基金、腾讯等外部股东后,这种绝对控制能否持续?

此外,人才流失的压力或许并未因融资而消失。Meta曾开出4年2亿至3亿美元的天价合同包挖角顶尖研究员,总包薪酬甚至高过全球身价最高的足球明星。

在AI人才可以被精准定价的时代,期权和薪资只是留住人的一部分,技术理想、研究氛围、成长空间同样是关键。DeepSeek能否在资本化之后,依然保持那种"不诱于誉,不恐于诽"的纯粹气质?

从拒绝融资到自投200亿,梁文锋的转变看似突然,实则是行业大势下的必然选择。

2026年的AI竞争,已经从模型技术之争,演进为算力、人才、产品与生态的全面战争。在这场战争面前,任何试图独善其身的“技术乌托邦”,都走进了围城之中。

按照计划,DeepSeek将于6月发布新模型V4.1,而这距离4月24日V4正式发布仅隔不到两个月。

尽管未到正式亮相时刻,但透露的信息也非常让人期待:它将原生支持图像、音频信息理解,虽输出为文本,但能直接处理多模态输入,大幅降低企业数据接入门槛;同时,模型将强化MCP协议适配,提供更丰富的企业级工具,适配办公自动化、智能客服、代码生成等场景。

技术底层延续V4混合注意力架构(CSA+HCA),百万token上下文成为标配,推理成本较前代再降,显存占用仅为传统模型2%左右。

显然,这样的技术迭代速度,需要持续的资金支持。而在这场资本局中,没有赢家通吃,只有适者生存。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10