DeepSeek V4下周登场,美股再次颤抖!“跳过”英伟达,便宜50倍

科技全掌控
Mar 01

编辑:犀牛

【新智元导读】DeepSeek V4下周登场:原生多模态,绕过英伟达,针对国产芯片深度优化。华尔街最怕的那条逻辑可能又要重演:算力霸权松动,美股先颤抖。

朋友们,见证历史的时刻又要到了!

《金融时报》报道,DeepSeek V4,下周正式登场!

距离上一次DeepSeek发布重大模型R1,已经过去了整整一年多。

这一年里,AI行业风起云涌,OpenAI连推数代GPT,Anthropic的Claude杀入顶级阵营,谷歌Gemini疯狂迭代。

整个硅谷都在用数百亿美元甚至数千亿美元疯狂“烧钱”。

而DeepSeek呢?

它安安静静地待在杭州,没有发布会,不路演,不炒作。

只做一件事:磨刀。

预计下周发布的V4将是一款支持图片、视频和文本生成的原生多模态大模型

更炸裂的是,V4并没有选择跟英伟达做优化适配,而是优先与国产芯片厂商合作,针对国产AI芯片进行了深度调优。

这意味着,DeepSeek V4将不只是一次模型升级,也是一次底层架构的战略转向。

是中国AI从“用别人的芯片跑自己的模型”走向“用自己的芯片跑自己的模型”的历史性一步。

DeepSeek选择国内重磅会议前夕发布V4,无疑发出了一个信号:中国AI,不只是在追赶,还在定义新的游戏规则。

网友称,“V4 将对 OpenAI 和 Google 形成巨大压力。中国没有放缓,而是在加速。”

“人工智能竞赛又提升了一个档次。”

有网友爆料,DeepSeek V4的API成本将比对手便宜50多倍。

更有网友豪言,美股已经瑟瑟发抖。

V4强在哪?

第一个关键词:多模态。

过去的DeepSeek模型主要是“文字选手”——写代码一流,做推理一绝,但图像和视频能力一直是短板。

V4彻底补齐了这块拼图。

据目前泄露的信息,V4是一个原生多模态模型,能够同时理解和生成图片、视频和文本。

而且,V4 Lite已经在至少一家推理服务商处进行内测,据称拥有高达100万token的上下文窗口,表现远超网页版和应用版模型。

目前已经在外网疯传的一张对比图显示,DeepSeek V4 Lite(代号“Sealion-lite”)在不开启思考模式的情况下,生成的SVG图像质量已经明显超越了当前的DeepSeek V3.2思考模型。

有大V发帖称,V4的编码性能甚至比当前的GPT和Claude更强。

第二个关键词:国产芯片适配。

这是V4最具战略意义的突破。

据路透社和《金融时报》报道,DeepSeek这次绕开了英伟达,没有向这家美国芯片巨头提供V4的早期接入权限。

这打破了AI行业长期以来的惯例——过去,任何一个顶级大模型发布前,都会先跟英伟达做性能优化。

这一次,DeepSeek选择了“反向操作”。

DeepSeek用V4告诉全世界:我们不挑芯片,也能跑出世界一流的模型。

当然,客观地说,英伟达在训练阶段的芯片上依然占据主导地位,尤其是在计算密集型的预训练环节。

但在推理阶段,V4可能已经实现了国产芯片的全面适配。

推理环节是大模型商业化落地最核心的一环,这一步的突破意义不可估量。

第三个关键词:开源。

据知情人士透露,DeepSeek将在V4发布时同步放出一份简短的技术说明,并在大约一个月后发布一份更全面的技术报告。

这延续了DeepSeek一贯的“开放精神”。

去年R1发布时附带的那份详尽技术报告,曾让全球AI研究者受益匪浅,被视为推理模型领域最重要的开源贡献之一。

回顾R1

那一天,硅谷真的慌了

要理解V4的分量,必须先回看去年DeepSeek R1发布时的那场“地震”。

2025年1月20日,DeepSeek悄然上线了R1推理模型。

没有发布会,没有媒体吹风会,没有CEO站在台上挥手致意——就是简简单单地把模型放了出来,附带一份技术报告。

然后,全世界炸了。

R1在多项基准测试上达到了与OpenAI最强模型o1相当甚至超越的水平,而DeepSeek声称其训练成本仅为约560万美元——这个数字不到GPT-4训练成本的十分之一。

更要命的是,R1是开源的!

2025年1月27日——这是一个将被载入AI史册的日子,DeepSeek的手机App超越ChatGPT,成为苹果App Store下载量第一的免费应用。

同一天,英伟达股价暴跌近17%,单日市值蒸发约5890亿美元,创下美国股市单家公司历史最大单日跌幅纪录。

博通下跌超过17%,微软下跌2.1%,整个纳斯达克血流成河。

知名风投家马克·安德森称DeepSeek为“我见过的最令人惊叹和印象深刻的突破之一”。

多位美国科技界人士将其比作“斯普特尼克时刻”——1957年苏联先于美国将卫星送入太空的那一刻,象征着中国AI实力的强势崛起。

而华尔街投资人最恐惧的问题浮出水面:如果一家中国公司用十分之一的成本就能做出同等水平的模型,那美国科技巨头每年砸下的数百亿美元基础设施投资,还值得吗?

英伟达的高端GPU还会有那么大的需求吗?

蛰伏一年,DeepSeek都干了什么?

R1之后,DeepSeek进入了长达一年多的“静默模式”。

没有新的旗舰模型,只有渐进式更新。

但这并不意味着他们无所作为——恰恰相反,DeepSeek一直在为V4铺路。

来看看这份更新时间线:

2025年3月:DeepSeek-V3-0324发布。这是V3的一次重要升级,通过吸收R1的强化学习技术改进了后训练流程,在数学和编程评测上甚至超过了GPT-4.5。

2025年5月:DeepSeek-R1-0528发布。R1的大幅升级版,推理能力显著增强,代码生成质量提升,被认为是开源推理模型的新标杆。

2025年8月:DeepSeek-V3.1发布。这是一个里程碑式的更新——V3.1首次将V3和R1的能力融合到一个模型中,支持“思考模式”和“非思考模式”的自由切换,在SWE-bench等基准上比前代提升超40%。此后更新至V3.1-Terminus版本,进一步修复了多语言混合、Agent能力等问题。

2025年9月:DeepSeek-V3.2-Exp发布。引入了全新的稀疏注意力机制(DeepSeek Sparse Attention),为更长上下文和更高效率的推理奠定了架构基础。

2025年11月:DeepSeekMath V2发布,基于V3.2-Exp-Base构建,在多项数学竞赛中达到金牌水平,并验证了自验证(self-verification)技术的有效性。

2025年12月:DeepSeek-V3.2正式发布。V3.2-Speciale版本在2025年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中取得金牌级表现,首次将思考能力整合到工具调用中。

2026年1月:DeepSeek先后发布了关于Manifold-Constrained Hyper-Connections(mHC)和Engram条件记忆技术的研究论文,被业界普遍视为V4的架构基石。mHC改变了信息在模型层间的流动方式,Engram则让模型能够选择性地记忆和调用上下文信息,支持超过100万token的上下文处理。

每一步,都在为V4的最终亮相做准备。

一场精心策划的舆论战?

就在V4即将发布的节骨眼上,美国那边也没闲着。

2月24日,Anthropic在X上高调发帖,指控DeepSeek等3家对其Claude模型发动了“工业级蒸馏攻击”,声称这三家中国实验室创与Claude进行了超过1600万次对话,以此提取能力来训练自己的模型。

但讽刺的一幕紧随其后。

就在Anthropic高调指责“蒸馏”的同一周,网友发现了一个令人瞠目的bug:当你用中文问Claude“你是什么模型”时,它竟然回复:“我是DeepSeek V3。”

甚至通过Anthropic官方API测试,结果还是一样。

用法语提问时,Claude则回答“我是ChatGPT”。

这一幕的戏剧性实在太强了。

你刚指控别人“蒸馏你”,转头自己的模型就在中文环境下认了别人当“爹”。

Anthropic那条推文下面6000多条评论,超过70%都在嘲讽。

Reddit上的讨论更加一针见血。

有用户总结道:这是一场有组织的FUD(恐惧、不确定性和怀疑)营销。

目的很明确——在V4发布前抢占叙事高地,预先埋下“他们只会作弊抄袭”的框架,无论V4表现多惊艳,公众的第一反应都会被引导到负面解读上。

同时通过舆论手段稀释V4发布的媒体关注度,防止美国科技股再次出现去年R1发布时那样的两位数暴跌。

美股再次颤抖?

去年R1发布时,英伟达单日跌去17%,5890亿美元灰飞烟灭。

如今V4不仅在模型能力上更进一步(多模态、百万上下文、原生国产芯片适配),更在战略层面发出了优先适配国产芯片的明确信号。

如果V4发布后的基准测试再次验证了DeepSeek的效率优势——用更少的计算资源达到世界一流水平——那华尔街的投资者势必要再次面对那个令人不安的问题:AI基础设施的天量投资,真的有必要吗?

更值得关注的是,即便是竞争对手阵营的研究人员也在私下承认,DeepSeek V4不可小视。

“可能发布就登顶开源第一”。

DeepSeek V4的发布,不会是一个平静的事件。

从蛮力到结构

中国AI的进化之路

2023年7月成立,2024年12月发布V3,2025年1月R1震撼全球,一整年持续迭代打磨。

2026年3月V4携多模态能力与国产芯片适配强势回归。

这条路径揭示了一个深刻的趋势:中国AI正在从依赖硬件蛮力走向依靠架构创新和工程效率的道路。

美国的出口管制试图用“卡脖子”的方式遏制中国AI的发展,但DeepSeek的存在本身就是对这种策略最有力的回应。

当你无法获得最顶级的芯片时,被迫去思考更聪明的方法——更高效的训练策略、更精妙的架构设计、更极致的资源优化。

而这些创新一旦形成,价值远超任何一款芯片。

下周,我们拭目以待。

全世界都在看。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10