灵魂拷问:如果AI真能造出10x工程师,那“软件洪水”在哪儿呢?

36氪
Oct 08

编者按:满世界都在谈AI提效,但全球软件发布量为何毫无波澜?文章来自编译。

我快气炸了,愤怒到想推倒别人的沙堡,朝丹尼尔·拉鲁索脸上来一拳,还要当着他女朋友的面狠狠羞辱他!

我通常不怎么生气,但我实在受不了所在行业正在发生的那些破事。

我从事软件开发已经25年了,如果算上早年在那琥珀色单色屏幕上做市场调研制表的日子,甚至可能接近28年。没错,我算是老了——一个人到中年的编程书呆子。不管好坏,我的人生与个人身份早已和“编程”紧紧绑定。我靠着发布出色产品时那股多巴胺的冲击而活着。

我曾经是AI编程的早期采用者,也是它的忠实粉丝,直到大约两个月前,我读到METR的那份研究报告,突然产生了强烈的怀疑。研究中指出,开发者对自己生产效率的感知其实并不可靠:他们自以为AI帮自己提速了20%,但实际上却慢了19%。这个结果让我大吃一惊——因为就在一周之前,我还跟别人说,感觉AI只让我快了25%左右,甚至还在为这个数字不够高而有点沮丧。而我的误估,与那些开发者的实际误差只相差5%。

这事儿让我感到不安。我无法不质疑自己对经历的叙述是否可靠。我是否被屏幕上飞速闪过,以至于无法量化的代码所蒙蔽了:阅读和审查所有这些代码,是否从一开始就比我自己动手做要花费更多的时间?

于是,我开始用那项研究的改良方法来测试自己的生产力。去接个任务,估算一下如果我“手写”代码需要多长时间,然后我抛个硬币,正面朝上我就用 AI,反面朝上我就自己做。然后我会记录开始和结束的时间。这样我就能得到一个“差值”(delta),我可以用这个差值来画出“使用 AI”与“不使用 AI”的对比图表,然后我就可以看到一些趋势。这件事情我连续做了六周,记录了所有数据,你们猜我发现了什么?

我发现,这些数据在任何有意义的层面上都不具备统计显著性。我需要再记录四个月的新数据点,才能证明 AI 到底是在让我提速还是在拖慢我。但目前情况实在是太均势了。

不过,两组之间缺乏差异性这一点真的很有趣。是,这个样本局限性很大,可能纯属巧合,但到目前为止,AI 似乎让我的速度中位数下降了 21%,这与 METR 的研究结果完全一致。我可以明确地说,使用 AI 编程工具,我没有看到速度有任何的大幅提升(比如 2 倍)。如果真有那么快,结果早就该具有统计显著性,这项研究也该结束了。

这实在是太令人失望了。

我多希望 AI 编程的梦想是真的。我希望能把我所有愚蠢的编程点子都变成现实。我希望我能周一做个指板学习应用,周三做个韩语训练器,周六再做个电子游戏。我会把它们全都发布出去。我会用一场前所未见的“铲件”洪水淹没这个世界。好吧,我本可以这样做的——如果这玩意儿真的有用的话。

但事实证明,(而且我为此收集了大量数据)它不仅对我没用,它对*任何*人都没用,而且我将要证明这一点。

但首先,我们先来看看这些关于生产力的宣传是多么极端和普遍。Cursor 的宣传语是“为你带来非凡的生产力。” Claude Code 的是“更快地开发更好的软件。” GitHub Copilot 的是“像老板一样分配任务。” 谷歌声称他们的大语言模型让开发者的速度快了 25%。OpenAI 也对他们自己的编码效率和研究进行了夸大其词的宣传。而开发者同行们也好不到哪里去,有 14% 的人声称他们因为 AI 实现了 10 倍的产出增长。

像老板一样分配任务

—— GitHub Copilot

如果这个话题不那么要命的话,这些宣传本无关紧要。但各地的技术领袖们都在为这种“错失恐惧症”(FOMO)买单,他们深信竞争对手们正在获得他们所错过的巨大利益。这驱使他们将公司重塑为“AI 优先”的公司,用新发现的生产力叙事来为裁员辩护,并想当然地认为 AI 已经从根本上改变了价值等式,从而压低开发人员的薪水。

然而,尽管这些工具的普及程度达到了前所未有的地步,它们却根本没用。

我的论点是:如果这么多开发者在使用这些工具后生产力变得如此非凡,那么“铲件”洪水又在哪里呢?我们应该看到各种形态和规模的应用、电子游戏、新网站、移动app、SaaS 应用——我们应该被淹没在选择的海洋中。我们应该正处在一场独立软件革命的浪潮之中才对。我们应该在 Steam 上看到 10000 个《俄罗斯方块》的克隆版。

试想一下:凭借你对 AI 辅助编程及其广泛应用的所有了解,如果我给你看全球新软件发布的图表,你预期那图表的曲线会是什么形状?你肯定以为会看到一条随着 AI 被采用、人们产出更多而“指数级增长、一路扶摇直上”的曲线吧?

现在,我花了好几周和一大笔钱来为这篇文章整理数据,在某些情况下处理了数十 TB 的数据。所以我希望你们能体会到,在软件开发的每一个主要领域,这些图表是显得多么的平淡无奇、一马平川。

来源:Statista

来源:Statista

Verisign《域名行业简报》

来源:SteamDB

我花了 70 美元用 BigQuery 处理数据才做出了这张图。数据来源:GH Archive

这些图表最有趣的地方在于它们没有展现出什么东西。它们没有显示出突然的飙升或“曲棍球棒式”的增长曲线。曲线充其量只能算持平。没有出现“铲件”的激增。在 2022/2023 年之后,并没有突然出现独立(软件)的繁荣。光看这些图表,你根本看不出 AI 辅助编程是什么时候开始被广泛采用的。那个(AI提升效率的)核心前提是有缺陷的。根本没人交付出更多的东西了。

这对大家生活的影响巨大。有人因为采用这些工具不够快而被解雇。有人因为害怕跳槽到别处情况会更糟,而被迫留在自己不喜欢的工作岗位上。人们花费所有时间试图掌握“提示词技巧”(prompting),又因为自己做不好而感觉很糟糕。

这整件事纯属扯淡。

所以,如果你是一名开发者,并且正感受到来自你的经理、同行或整个行业歇斯底里的压力,被迫去使用这些工具——请相信你的直觉。如果这些工具让你觉得很笨重,如果它们正在拖慢你的速度,如果你搞不懂为什么其他人能(用它们)变得那么高效,(别怀疑)你没毛病。数据支持你正在经历的一切。坚持使用你所熟知的、有效的方法,你并没有落后。如果你胆子够大,把这些图表给你的经理看,问问他们对此有什么看法。

如果说这篇文章能告诉你点什么的话,那应该是:(A) 开发者们交付的东西并不比以往更多(这是唯一重要的指标),以及 (B) 如果有人——无论是你的 CEO、你的技术主管,还是某个 Reddit 上的书呆子——声称他们因为 AI 而成为了“10 倍”开发者,那几乎可以肯定是假的,(你该)要求他们拿出证据,否则就他x的闭嘴。

好了,我太懂互联网了。我甚至在你们这帮傻瓜开口之前,就知道你们要说什么,所以我们就开门见山吧:

1、“呃,如果你学会了怎幺正确地写‘提示’,你就会像我一样成为 10 x工程师了。”

看看数据吧。根本没有新的“10 x哥”出现。如果真有——如果那 14% 自称的 AI“10 x哥”真的是效率提高 10 倍的话——那全球新软件的产出将会翻倍还不止。然而这并没有发生。至于你,就你个人而言,把你今年开发的 30 个应用拿给我看看。拿不出证据,我懒得跟你废话。

2、“呃,这是项新技术,投资了这么多,它需要时间……”

是的,数十亿美元已经投给了这些工具。未来还会有数十亿美元继续投给它们。问题是,它们现在正被(当作成品)售卖,相关的决策也正在制定中——这些可是实实在在地影响着大家的生活——就好像它们今天已经(完美)可用了一样。别跟我鹦鹉学舌般地重复“它还在开发中”之类的废话。现在是 2025 年 9 月,我们用这些工具已经好几年了,它们仍然烂透了。也许有一天,它们会不那么烂,但我们最好能看到客观的证据,证明它们在*大规模*地“实际交付产品”方面产生了影响。

3、“呃,也许它现在是不怎么样,但如果你不尽早采用,你就会被甩在后面。”

没有任何迹象表明“提示词工程”很难学。Github Copilot 自己都说,一开始,用户只接受 29% 的代码提示建议(这本身就是一种效率低下的疯狂宣言,你为什么要公布这个?),但有了六个月的经验后,用户自然会更擅长写提示词,这个数字会增长到*高达* 34% 的接受率。显然,6 个月的经验只会让你在提示词编写方面进步 5%。

4、“呃,也许是质量在提高,但交付速度未必变快了……”

这根本说不通。我们都知道,在代码质量方面,这个行业至少倒退了十年。现在几乎没人做测试了。我上一次听到“持续改进”或“测试驱动开发”这些词,还是在新冠疫情之前。你我心知肚明,如果真有工具能让人成为 10 x程序员,我们早就被“铲件”淹没了。

5、“呃,这都是网站驱动的,现在人们不怎么关心域名了;都是 Vercel 这类网站上的子域名。”

闭嘴吧。人们可喜欢用自己的“自恋域名”了。

6、“呃,.ai 域名今年可是增长了 47%……”

是啊,那是因为所有的创业公司都转型去做 AI 了。这是从投资者的“错失恐惧症”中榨取资金的唯一途径。但是,域名*总量*是否以前所未有的速度增长了呢?不,并没有。去看看那张新域名图表吧。

7、“呃,如果你是个真正的工程师,你就会知道,软件开发的大部分工作都不是写代码。”

这只在大型公司里才成立。当你单干时,当你既是利益相关者又是开发者时,你根本不用开会。你是在告诉我,现在再也没有人*独立*交付任何东西了吗?再也没有人为了满足个人“小癖好”而发布新的 GitHub 项目了吗?开发软件怎么可能不涉及代码呢?

译者:boxi。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10