造福or替代程序员？实测阿里新模型

市场资讯

23 Jul

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：虎嗅APP）

题图｜视觉中国

坦白说，过去几年，作为一名开发者，我感觉自己越来越像一个高薪的“代码搬运工”。

我的日常，是在StackOverflow的问答、GitHub的开源项目和公司陈旧的代码库之间，进行无休止地“搬运”。

Ctrl+C，Ctrl+V，然后花上数小时修复那些琐碎的bug，搭建那些千篇一律的脚手架。这不仅枯燥，更是对创造力的一种缓慢扼杀——我们本该是创造未来的建筑师，但“复制粘贴”却占据了工作的绝大部分。

我们都用过Copilot类的工具，它们很棒，能帮你补全下一行代码，甚至一小段函数。但它们始终是“副手”，无法理解你真正的意图，更别提独立承担一项完整的任务。你依然是那个殚精竭虑的“主驾驶”。

但如果，AI不再只是一个帮你补全代码的“副驾驶”，而是能理解整个任务、独当一面的“全栈工程师”呢？

就在今天，我体验到了阿里刚刚开源的Qwen3-Coder。说实话，一开始我只是抱着“又一个国产模型”的心态去尝试。但经过一天的深度体验后，这个HuggingfaceCEO点赞的Qwen3-Coder 新模型彻底震撼到我了。

它的意义，不仅仅是评测表单中的超越GPT-4.1，比肩全球最强Claude4的全球第一梯队强劲性能，更重要的是，是它让我亲眼看到了终结“搬砖”日常的曙光。

这，可能就是那场我们期待已久的、真正的生产力革命。

上手即封神，我的Qwen3-Coder“初体验”

先说说我跟几个程序员朋友最直观的共同感受。

速度很快，没有思考过程，体验比Gemini还好。虽然写出来的代码偶尔有一点点小问题，但跟它说下现象就能自己纠正好了。而且随着对能力的探索，token使用量大幅增加。

它已经是一个完整版的生产力工具了。

你可以通过三种方式与这位新来的“AI开发者”协作：在QwenChat网页端和它免费畅聊；通过阿里云百炼的API将其能力注入万物；或者，如果你偏好本地部署的话，也可以直接从HuggingFace或魔搭社区下载模型，让它在你的本地为你工作，数据绝对安全。

我选择了最直接的网页端，开始了我这一天的“疯狂测试”。

1.开胃菜：会动的“天气预报卡”

我给它的第一个指令很简单：“创建一个带动画效果的天气预报卡，能根据不同天气（晴天、雨天、多云）显示不同的动画。”

过去，这种任务AI通常能生成个静态框架，但动画和交互逻辑总是一团糟。

然而Qwen3-Coder几乎是瞬间就给出了结果——一个漂亮的卡片，上面不仅有城市和温度，点击不同的天气按钮，背景真的会流畅地切换成阳光、雨滴和云朵的动画。代码一次性跑通，零bug。

这感觉就像，你让助理帮你画个草图，他直接给了你一个可以交互的精美原型。

2.硬菜：一个完整的科技新闻官网首页

接下来，我提升了难度，用了我最喜欢测AI代码工具的案例：“给我创建一个科技新闻媒体产品的官网首页，要有导航栏、HeroSection、媒体介绍、会员定价表格和页脚。”

这是检验AI设计品味和布局能力的“照妖镜”。还记得几个月前，AI生成的页面还停留在上世纪90年代的审美吗？布局混乱，配色辣眼。

但Qwen3-Coder的出品，让我惊掉了下巴。

一个设计现代、响应式布局、UI/UX考究的完整页面呈现在我眼前。它甚至贴心地加入了微交互动画。

如果我不说，你绝对会以为这是出自一位资深前端设计师之手。而如今，一个开源模型就能轻松做到，而且是免费的。

时代真的变了。

3.炫技时刻：可视化“神经网络”

“用p5.js创建一个可视化的神经网络，节点和连接要有脉冲和发光的动画效果。”这个任务考验的是它整合多语言（HTML/CSS/JS/p5.js）和实现复杂逻辑与动画的能力。

很快，一个带控制面板的交互式神经网络模拟器诞生了。你可以重置网络、开始/暂停动画，甚至调节动画速度。代码逻辑清晰，艺术与技术的结合堪称完美。

它不仅理解了“神经网络”这个技术概念，还理解了“脉冲”和“发光”这种感性的艺术表达。

4.生产力测试：秒建“CSV数据看板”

最后，我扔给它一份包含姓名、邮件、性别的模拟CSV数据，要求它“构建一个单页Web应用，能解析用户上传的CSV文件，并动态生成多种图表（条形图、折线图等）来可视化数据。”

这几乎是每个数据分析师和后端开发者的日常工作。Qwen3-Coder几乎在瞬间就构建了一个功能完备的数据看板。它不仅正确解析了我提供的数据，还生成了条形图和对比图，整个仪表盘的设计模块化且交互性十足。

一天测试下来，我的结论显而易见：它不再是‘生成代码’，而是在‘交付产品’。Qwen3-Coder已经进入了功能、设计和用户体验的层面。

为什么Qwen3-Coder能这么强？

Qwen3-Coder的真正革命性在于，它已经从一个“代码补全器(Copilot)”进化为了一个“自主开发者(Agent)”。

它思考的不再是“下一行代码该写什么”，而是“为了完成这个任务，我需要分几步，调用哪些工具，如何验证结果”。

这背后，是三大核心技术支柱的支撑：

1.架构选择：混合专家（MoE）带来的规模与效率

Qwen3-Coder是千问系列首个采用混合专家（MoE）架构的代码模型。其最强版本总参数规模高达4800亿（480B），但在每次推理时，仅激活其中的350亿（35B）参数。

这种架构的优势是显而易见的。

它允许模型拥有巨大的知识容量和参数规模，从而在处理复杂问题时具备更强的泛化能力和更高的天花板。同时，通过稀疏激活的机制，它又将单次推理的计算成本控制在了一个相对合理的范围内。

这是一种在模型能力和推理效率之间取得精妙平衡的先进架构，也是Qwen3-Coder能够实现顶级性能的关键基础。

2.能力核心：为Agent能力打造的强化学习（RL）设施

Qwen3-Coder卓越的Agent能力并非偶然。阿里Qwen团队认为，编程任务“天然适合执行驱动的强化学习”，因为代码的正确性可以通过实际运行结果来直接验证。

基于此，他们构建了一个能够并行运行2万个独立环境的大规模强化学习基础设施。在这个设施中，模型可以模拟真实的软件工程流程：接收任务、规划解决方案、调用外部工具（如代码执行器、测试框架）、获取环境反馈（成功、失败、错误信息），并根据反馈进行迭代和改进。

通过在这种大规模、高并发的真实编码环境中进行海量训练，Qwen3-Coder成功地学会了如何解决复杂、多步骤的“长视距”任务。这直接使其代码执行成功率和工具使用效率得到显著提升，也解释了为何它在处理需要自主规划和工具调用的Agent任务时，表现得比许多竞争对手更加出色和高效。

3.上下文长度：处理大规模代码库的基石

软件工程往往涉及对庞大代码库的理解。Qwen3-Coder在这方面具备了物理层面的优势：它原生支持256K tokens的上下文窗口，并通过技术手段可扩展至1M tokens。

这意味着模型可以在一次交互中处理数百万字符的代码和文档。它能够完整地通观大型项目，阅读整个代码库、需求文档甚至多个文件的变更历史，从而实现对项目全局的理解和跨文件的代码生成。

这种处理“仓库级”代码的能力，是解决复杂系统级问题、进行代码重构和深入理解遗留系统的先决条件，也是许多上下文窗口较小的模型所不具备的。

新王登基，阿里再次展现自己AI的强大能力

是的，是时候谈谈最激动人心的部分了。

Qwen3-Coder不仅在体验上令人惊艳，在评测数据上，它更是直接向美国最顶尖的模型发起了挑战，并且成功站上了全球第一梯队——超预GPT4.1，与Claude 4并驾齐驱。

1.正面硬刚，数据说话

·对决GPT-4.1:

在衡量代码模型解决真实世界软件问题的权威榜单SWE-Bench、以及其他多项Agent编码基准测试中，Qwen3-Coder的得分实现了对GPT-4.1的明确超越。

这意味着，在处理复杂、真实的编程任务时，这个来自中国的开源模型，比OpenAI最强的闭源模型之一更有效。

·比肩Claude4:

Claude一直是AgenticCoding领域的标杆。

然而，Qwen3-Coder在多个编程智能体任务上，已经可以和Claude4平起平坐。更关键的是，在Agent的核心能力——工具调用上，实测数据显示其调用的工具数量甚至“比Claude多几倍”。

这意味着在解决同一个复杂问题时，Qwen3-Coder的自主规划和问题分解能力更强，解决问题的手段更多样。

2.成本的“降维打击”

如果说性能上的超越已经足够震撼，那么成本上的优势则是“致命一击”。

Claude4很强，但它也很“贵”。而Qwen3-Coder呢？

·API价格：以约200K输入为例，Qwen3-Coder的API输入价格约为Claude4的1/2，输出价格接近1/3。综合成本优势巨大。

·终极杀招：完全免费：别忘了，它是一个开源模型，遵循Apache-2.0许可。只要你愿意，你可以一分钱不花地在本地拥有这个世界顶级的编程大脑，并可免费商用。

“免费”与“最强”，这两个本不该同时出现的词，被阿里硬生生地捏合在了一起。这对昂贵的闭源API服务来说，无异于一场降维打击。

3.战略的胜利：开源即是王道

在OpenAI等竞争对手日益封闭的今天，阿里选择了一条截然相反的道路——将自己最顶尖、最具生产力的产品，无偿分享给全世界。

这背后，是期待通过定义下一代开发工具的标准，来构建一个繁荣的全球开发者生态。

当全世界的开发者都开始基于Qwen构建应用、插件和工具时，它就成了这个时代的“Android”或“Linux”，成为了不可或逾越的“新基建”。

而阿里云作为基础，自然将受益这个token消耗快速增长的时代。

Qwen3-Coder，让我看到中国推理流量爆发的潜力

Qwen3-Coder的发布，影响的绝不仅仅是技术圈的排名，是我们每一个人。

对于开发者来说，我想说，请忘掉那些关于“AI 取代程序员”的陈旧焦虑吧。Qwen3-Coder 的出现，不是为了取代谁，而是为了武装谁。它把一个资深开发团队的综合能力，压缩进一个任何人都可以调用的工具里，然后交到你的手上。

你将从一个敲击键盘的“代码工人”，升级为一名运筹帷幄的“创意指挥家”。你负责提出构想、定义架构、指挥AI执行，而那些繁重、重复的实现细节，将由你的AI伙伴高效完成。你的价值，将更多地体现在创造力、审美和系统性思考上。

对于普通人来说，一个激动人心的“氛围编程(VibeCoding)”时代正在到来。

你不需要懂

或for循环，你只需要用最自然的大白话描述你的想法——“我想要一个记录宝宝成长的网站，粉色主题，能上传照片和视频”——AI就能为你构建出应用的雏形。创造的门槛，从未如此之低。

今天我们看到的是编程领域的革命，明天，当这些强大的Agent被应用于更多领域时，制药、新材料、金融建模、科学研究……所有行业的生产力都将被重新定义。

Qwen3-Coder的发布，为全球AI发展设定了一个全新的、更高的基准线。最强的力量，第一次以最开放的形式，普惠给了每一个人。

AI 革命的入场券，从未如此便宜，也从未如此强大。

我想，它一定会催生一个“超级个体”的时代。无论你是一个开发者、一个产品经理，还是一个只有绝妙创意的普通人，你都可以借助这种前所未有的强大工具，以惊人的效率，将脑海中的想法变为现实。

对了，经过这一天的尝试，Qwen3-Coder让我看到了中国推理流量，像美国过去半年一样暴增的潜力。

也就在今天的晚间，阿里云官网挂出了更低的定价，比目前最主流编程模型Claude Sonnet4下降了很多。

我想现在，你最该做的，就是立刻去魔搭社区或Hugging Face下载它，或者打开它的网页。去试试看，用一句话，创造一个属于你的世界。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4611051.html?f=wyxwapp

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

造福or替代程序员？实测阿里新模型

Most Discussed