文|象先志
百度的一只脚,踏进了开源这条河
百度给自己定的使命,是用科技让复杂的事情简单化。
Hugging Face的主页上,百度在这句话后面又加了句:我们坚定地认为,真正的简单源于开源。
你看,这个描述很直接,体现了一家技术公司,对用科技推动世界进步的责任感和美好愿望,以及坚定拥抱开源社区的理想图景。
当然,有关Mission的这两句话是最近几天新加的。主要之前如果这么写,好像也不合适。因为在这轮文心大模型4.5系列模型开源之前,百度在Hugging Face上并没有开源过任何自己的私有模型。
百度在开闭源问题上的态度转变,是突如其来的,也是自上而下的。因为只有自上而下的指令传递,只有李彦宏本人的高度重视和全面部署,百度的AI团队才能在短时间内开创出开源工作的大好局面。
从规模上看,百度的这次开源很有诚意。一次性放出了10款模型,参数量从最大的424B到最小的0.3B都有,全面覆盖多模态和文本,工作量非常饱和。
官方给出的相关基准测试数据显示,这系列模型性能优于DeepSeek-V3等产品,并在多个方面相较于SOTA有显著提升。
从二月份宣布消息,到今天如期发布,承诺终于兑现。
MEG 30号当天搞了个金点子夜市,Robin被人拍到现身百度科技园,心情大概还是比较奈斯。
只不过即便模型跑分跟实际表现相符,也算不上是个大新闻,远到不了DeepSeek当时放卫星的程度。
我有个本科同学CVPR2025中了三篇,前不久刚从Nashville回来。我微信上问他对文心开源这事怎么看,他谦虚说自己不够格评价。后面又补了两句,“但百度应该没人用吧”,“现在讨论大模型基本不考虑文心了”。
1. 文心大模型来的晚了一些
首先我们先看下文心这次开源的模型水平。
文心网站上,有公布性能和基准测试结果。
官方的技术报告里,旗舰模型300B-A47B在大部分测试类别中,都实现了比Qwen3、DeepSeek-V3和GPT-4.1更好的表现。
但众所周知,由于Meta在Llama 4发布的时候拉了坨大的,现在对于官方公布的跑分结果通常直接搞有罪推定。
从大模型观测员等第三方评测结果看,这次的文心大模型4.5系列,跟现有的旗舰开源模型如DeepSeek R1、Qwen 3等相比仍有差距。
该账号主理人toyama nao在知乎上说,初版短评写的“推开开源大门”,后面觉得还是用“轻敲”更合适。显然,中规中矩、没有惊喜是对这系列文心模型较为合适的客观评价。
但一个中规中矩、没有惊喜的模型,在当下的开源环境中,能给百度带来的助益必然相当有限。
大模型领域跟传统的互联网行业一样,也是趋向于赢家通吃的寡头格局。
作为用户,你不会想用一个技术上落后的产品,因为你可以很容易地切换到更好更优秀的模型,而且不会有任何其他方面体验上的损失。
如果进一步将考虑范围缩小到开源社区,一个普通的中规中矩的模型所拥有的空间会更加逼仄。
对于开发者或者企业而言,免费的比你好的选择那么多,为啥要选择一个差强人意的?
开源社区的空间很大,但不可能容得下每个企业。
开源大模型领域的发展大致可以分成三个阶段。
阶段一:ChatGPT刚刚发布,没有任何竞品,开源社区零基础。
阶段二:Meta发布Llama,实现了开源模型的从无到有,但这个时候开源跟闭源仍然差距巨大。
阶段三:DeepSeek发布R1,开源闭源模型差距大大缩小,形成了开源紧追闭源的心理预期。
事实上,当我们从阶段二跨越到阶段三这个阶段后,随着开源社区模型选择的多样化,行业的主要矛盾也从“无模可用”到“无先进模型可用”的阶段。
在这个阶段,你发一些中等水平的模型,已经不具有太大的意义,因为没人在意。
只能说文心系列模型的开源来得晚了一些。如果百度去年这个时候做这事,估计还能掀起点浪花。
只不过去年这个时候,李彦宏还在继续输出“暴论”,批判开源模型是智商税。
李彦宏选择开源,背后的考量是很清楚的。
百度之所以最初开始选择闭源,是预期自己能想OpenAI那样,建立技术实力上的势能差。
我可能打不过OpenAI,但OpenAI在国外,对国内的市场格局影响不大。
我只要做到比国内的竞争对手优秀就行,类似于当初做搜索的逻辑。
但做着做着,李彦宏发现百度不只是做不过国外的竞对,连国内同行都一个二个在超越自己,情况属实是有些危急了。
所以哪怕被打脸,也还是决定转向开源。
开源一方面可以赚吆喝,就像DeepSeek和阿里云那样,让别人认可你的技术实力,科技企业嘛,还是需要搞点技术增光添彩的。
其次是可以赚银子,像文心大模型肯定在百度自己的基础设施上跑出来的效果最好,通义系列肯定上阿里云更方便更有效率,通过建立生态提供服务的方式赚钱。
最后,开源还有个好处,就是可以相对客观地获得有关自身模型的技术反馈,这样可以倒逼企业提高研发水平,拿出更有力度的产品。
由于前两个因素都需要有技术领先作为基础,目前来看百度这次的发布最多只能在第三点上有点效果。
2. 开源闭源不只是个技术问题
业内关于开源和闭源两条路线的争论很多,两边都有各自的道理。
从用户的角度说,当然是希望开源模型的数量越多越好、性能指标越高越好。开源模型可以给社区提供技术养分,同时也能借助社区力量加速迭代进步,实现技术反哺,构成良性循环。
当然最重要的,大语言模型已经并且正在成为数字性基础设施,开源模型可以保证所有人对这项技术的可获得性。
OpenAI和Anthropic封的号比PUBG还多,就是个很好的提醒。
但对于企业来说,大模型的研发和训练需要投入巨量的成本,这些成本需要有渠道能cover,才能实现长期的可持续性。以闭源的形式,提供排他性的产品服务,然后从中获取营收是个更合适的路子。
虽然到目前为止,即便是OpenAI也还没能证明这条道路在财务指标上的可行性,去年一年其亏损额达到50亿美元。
因此,开源闭源不只是个技术问题。
然而,就百度来说,这个问题还因为牵涉到李彦宏本人而更加复杂化了。
在国内这么多家互联网公司创始人里,李彦宏是外界普遍认知里最技术范的。
这跟百度的历史有关。搜索引擎是个技术含量很高的领域,而李彦宏本人就是“超链分析技术”专利的持有者。当然,除开创立百度早期,李彦宏后面十几年里作为CEO应该基本没再深度参与百度的技术研发了。
但李彦宏仍然是百度的技术图腾,这在大模型到来后尤为明显。
其他公司会有技术相关的负责人抛头露面,但百度这边几乎所有重磅的模型或者产品都是李彦宏本人站台。开源和闭源的战略调整,也被认为是李彦宏基于自身的技术认知和品味,在做技术路线上的关键选择。
当我们回顾百度在开源闭源上的态度变化时,实际就是在看李彦宏本人的合订本。
2024年4月16日,李彦宏:开源模型会越来越落后。
2024年7月5日,李彦宏:开源模型是智商税。
2025年2月8日,百度文小言宣布接入deepseek。
2025年2月14日,定了,文心下一代模型开源!
作为公司最高决策者,你当然可以随时做出开源或者闭源的决定,然后让下面的人去执行。但执行的结果和下面的人对你的判断,你是没办法控制的。
作为技术型CEO,你没做好战略管理,没能精确地锁定某个新兴行业并拿下市场份额,这虽然面子上有点挂不住,但在公众和员工那里是有谅解理由的。
做技术的嘛,在其他方面眼光不够敏锐,还是情有可原的,本来寻找第二曲线这事就不容易。更何况公司在正常运营,百度的现金流还稳稳的,没有大规模的裁员或者降薪,日子正常在过。
但在技术问题上,你前期信誓旦旦红口白牙语出惊人,后面又来360度大反转,-1-2夸你有决断敢拍板不怕打脸,但员工真实心理会怎么想呢?
他们只会觉得你的技术品味和方向判断能力有很大问题。外部的人最多只是嘲笑调侃聊作谈资,但内部的研发团队士气会受到实打实的打击。
说到底,开源闭源是技术路线的选择,但绝不只是个技术问题。
终
今天中午有个新消息,百度创始人李彦宏发布内部信,宣布了新一轮组织调整:
何海建(Henry)正式加盟百度,担任集团公司首席财务官(CFO),负责百度财务体系管理工作。集团资深副总裁何俊杰(Jackson)不再担任代理CFO职务,轮岗负责集团人力资源及行政管理。
轮岗是个很有百度特色的制度,后面有机会可以专门写一篇。
轮岗这事不罕见,很多企业都有,但一般都是中基层岗位,比如银行管培生都需要在不同部门实习跑一圈,熟悉下业务。百度不一样,百度轮岗轮的是最高管理层那批人。
官方语境里,轮岗是为了激发组织的创新与活力。
轮岗到底有没有激发百度的组织活力我不知道,起码目前来说,效果不是很明显。但轮岗在事实上造成了一个结果:强化了李彦宏和百度之间的同一性。(后续会针对百度组织架构进行拆解)
这只会加剧我们上面所说的那个问题。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.