DeepSeek上线两天后再回看：一次“小更新”，一场架构“豪赌”

华尔街见闻

2025/08/22

8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次“小更新”之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的“顽疾”复现，对这次更新的评价呈现出两极分化的态势。发布两天后，DeepSeek官方...

网页链接

免责声明：投资有风险，本文并非投资建议，以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请，作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考，不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证，投资者应自行研究并在投资前寻求专业建议。

热议股票

{"basename":"/hans","ssrTDKData":{"titleTemplate":"%s - 老虎证券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎证券,老虎证券开户,老虎券商,老虎证券官网,老虎证券app,tigertrade老虎证券,股票,炒股,新加坡股票交易平台,投资,投资理财","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hans/news/2561037417"},"companyName":"老虎证券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"isCrawlerRequest":true,"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2561037417\",edition:\"fundamental\",auth_exemption:1,,,undefined,":{"share":"https://ttm.financial/m/news/2561037417?lang=zh_CN&edition=fundamental","thumbnail":"https://wpimg-wscn.awtmt.com/618c8602-bf2d-4cbd-a6ef-b6c0b83a4f4f.png","is_english":false,"pubTime":"2025-08-22 07:52","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2561037417","market":"hk","top_or_hot":-1,"title":"DeepSeek上线两天后再回看：一次“小更新”，一场架构“豪赌”","media":"华尔街见闻","content":"<div>\n<p>8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。\n官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次“小更新”之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。\n然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的“顽疾”复现，对这次更新的评价呈现出两极分化的态势。\n发布两天后，DeepSeek官方...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3753850\">网页链接</a>\n\n</div>\n","source":"wallstreetcn_hot_news","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>DeepSeek上线两天后再回看：一次“小更新”，一场架构“豪赌”</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nDeepSeek上线两天后再回看：一次“小更新”，一场架构“豪赌”\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-22 07:52 北京时间&nbsp;&nbsp;&nbsp;<a href=https://wallstreetcn.com/articles/3753850><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。\n官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次“小更新”之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。\n然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的“顽疾”复现，对这次更新的评价呈现出两极分化的态势。\n发布两天后，DeepSeek官方...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3753850\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"BK4588","symbol_name":"碎股","start_time":0,"source_url":"https://wallstreetcn.com/articles/3753850","article_id":"2561037417","we_media_id":null,"thumbnails":["https://wpimg-wscn.awtmt.com/618c8602-bf2d-4cbd-a6ef-b6c0b83a4f4f.png"],"rights":{"source":"wallstreetcn_hot_news","url":"https://wallstreetcn.com/articles/3753850","rn_cache_url":null,"directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2561037417","pubTimestamp":1755820329,"columns":[],"sourceInfo":{"source_id":"wallstreetcn_hot_news","name":"华尔街见闻"},"weMediaInfo":null,"summary":"8月19日DeepSeek上线全新的V3.1版本。新模型融合思考与非思考模式，大幅提升编程和智能体能力，成本显著降低。但这种激进的模型融合策略也引发争议，部分用户反馈幻觉重现，商业API的无预警更替更引发稳定性质疑。","collect":0,"end_time":0,"defaultTopTitle":"wallstreetcn.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"BK4588":"碎股","BK4585":"ETF&股票定投概念","BK4202":"服装、服饰与奢侈品","LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD","RL":"拉夫劳伦","LU0054578231.USD":"BGF SYSTEMATIC SUSTAINABLE GLOBAL SMALLCAP \"A2\" (USD) ACC"},"translate_title":"Look back two days after DeepSeek went online: a \"small update\", an architectural \"big gamble\"","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RL":1},"content_text":"8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。\n官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次“小更新”之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。\n然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的“顽疾”复现，对这次更新的评价呈现出两极分化的态势。\n发布两天后，DeepSeek官方在公众号上发布了相关消息。\n此时，正适合我们回看V3.1，更细致地拆解这次“小更新”。\n架构之变：V3.1吞掉R1，减轻部署复杂度\n尽管DeepSeek官方在更新通知中将“上下文长度拓展至128k”作为核心亮点，但此前的V3版本早已支持128K上下文，只是官方API接口此前仅开放至64K。\n因此，这次更新的真正核心并非上下文长度，而是模型底层的架构演进。\n根据官方最新发布的公众号内容，确认了V3.1为混合推理架构，即使用一个模型同时支持思考模式与非思考模式。\n目前在DeepSeek的官方网页和APP上，即使用户开启“深度思考”模式，模型的标识也已从过去的“R1”变为了统一的“V3”。\n用户通过API调用推理模型时，模型也明确“告知”自己是V3模型。\n不过这里和GPT-5自动路由不同，是否打开思考模式，依然是用户控制，而非通过自动的模型路由判断。\n在过往的经验中，这种混合模型可能会导致非推理任务，如创意写作和情商表达等能力的下降。不过，根据社区内用户分析，这种混合可以简化部署和运维，提高算力利用效率。\n能力优化：编程再提升，成本再下降\n除了架构改变外，V3.1被首先注意到的是编程能力的大幅提升。\n根据社区广泛引用的Aider编程基准测试数据显示，DeepSeek V3.1取得了71.6%的高分，在开源模型中成功“霸榜”。\n\n这一成绩不仅超越了此前的DeepSeek R1，甚至击败了强大的闭源模型Claude 4 Opus。\n在其他权威基准测试中，V3.1同样表现出色。\n\n\nSVGBench：实力仅次于GPT-4.1-mini，远超前代DeepSeek R1。\n\n\n\nMMLU：在多任务语言理解方面，V3.1的表现毫不逊色于GPT-5，得分达到88.5%。\n\n\n不过，在研究生级别问答（GPQA）和软件工程（SWE-Bench verified）等领域，V3.1与GPT-5相比仍存在一定差距。\n在V3.1备受瞩目的编程能力实战中，其表现可圈可点但并非完美。\n在新智元生成一个“黑客帝国风格”的three.js动态世界的任务里，V3.1成功满足了基本的功能要求，但对于画面风格和颜色变换等细节的实现不够精准，最终效果被测评者评为“80分”。\n\n黑客帝国风格动态世界\n在DeepSeek的传统强项——成本效益上，V3.1的进化也颇为可观。\n在社区用户的测试下，完成同样一次完整的编程任务，V3.1的成本仅需约1.01美元，远低于Claude 4 Opus（便宜68倍）。从推特网友整理的各主流模型性价比来看，DeepSeek V3的性价比名列前茅。\n\n这里的数值越低越好\n根据DeepSeek官方宣布的最新V3.1价格表，其输入价格为，0.5元/百万 tokens （缓存命中） ，4元 /百万 tokens （缓存未命中） 。输出价格为12元 /百万 tokens ，该价格于2025 年 9月6日 00：00 起生效。\n\n根据官方解释，成本下降主要来自于思维链压缩训练。通过减少无意义的思维链输出，V3.1-Think在输出token数减少20%-50%的情况下，各项任务的平均表现与R1-0528持平。\n\n这一技术改进不光带来成本的下降，也让生成速度显著提升。社区用户的第一印象都是V3.1比R1速度快了很多。\n最大的升级：智能体能力跃迁\n在前几天讨论中，DeepSeek V3.1的Agent能力的显著增强并没有得到太大注意。\n因为这一能力是底层的搜索和工具调用能力的提升，从外部看我们只能看到具体能力，如编程等能力的提升。\n在8月21日正式的发布中，DeepSeek官方特意强调了这一点。通过专门的Post-Training（后训练）优化，新模型在工具使用与智能体任务中有巨大提升。\n此次升级在复杂的软件工程和终端控制任务上表现得尤为突出，几乎实现了跨越式的进步。\n在衡量真实世界代码修复能力的SWE-bench Verified基准上，V3.1取得了66.0分，远超前代V3-0324的45.4分和R1-0528的44.6分。而在更具挑战性的Terminal-Bench（终端操作）测试中，V3.1的得分（31.3）更是达到了前代推理模型R1-0528（5.7）的五倍以上，展现了强大的自动化操作潜力。\n\n除了在专业领域的突破，V3.1在通用的网页浏览和工具调用能力上也获得了全面增强。在衡量网页自主导航与信息获取能力的Browsecomp测试中，其得分从R1-0528的8.9分飙升至30.0分，提升超过三倍。\n同时，在模拟多种工具使用的Seal0基准上，V3.1的得分也从29.7大幅提升至42.6。\n\n即使和目前最先进的模型对比，DeepSeek V3.1的Agent能力也不怯场。\n比如SWE-bench Verified这一测试中，Anthropic的最新模型Claude Opus 4.1 在此基准上更是达到了74.5%的先进水平。而DeepSeek V3.1最新得分为66.0%，高于排名第三的GLM 4.5。\n而在Terminal-Bench中，Claude 4 Opus以43.2%的得分在该项目上表现最佳。GLM-4.5（37.5%）和Claude 4 Sonnet（35.5%）紧随其后。DeepSeek V3.1的31.3分超过了GPT-4.1（30.3%）和Gemini 2.5 Pro（25.3%）。\n在所有基础模型都重视的Agent能力的背景下，DeepSeek的这次升级追上了时代，也抹掉了短板。\nV3.1的隐忧：合并模型，是一场豪赌\n尽管V3.1在编程和智能体领域取得了突破，但其核心的“模型融合”策略却在社区引发了巨大争议。\n阿里的Qwen模型在尝试过融合推理后，最终在新版本中还是分开发布了Instruct和Thinking两种分离的模型。\n而GPT-5的“一体化系统”也则是使用一个智能路由（Router）来调度不同的核心组件，而非直接将模型激进地融合。\n这是因为在上一代模型中，很多基础模型的“出厂设置”是一个思考模型，其非思考版本仅仅是关闭了系统给模型设置的思考预算。\n但思考模型的训练，尤其是在强化学习（RL）微调阶段，存在一个固有的、难以回避的权衡问题。\n为了让模型擅长逻辑、数学和代码等需要严谨推理的任务，强化学习的奖励（Reward）会高度偏向于那些能够展现清晰、正确、分步式解题过程的输出。\n这种对“过程正确性”的极致优化，会深刻地改变模型的底层行为模式。\n模型在处理那些不需要严密逻辑、更需要创造力、共情能力或常识性理解的通用任务时，可能会显得“水土不服”。\n不少用户反馈，V3.1版本重新出现了幻觉严重（如在年报总结问题上关键信息全部出错）和中英夹杂的问题，后者在旧版中几乎不存在。\n此外，模型在面对复杂问题时表现出“能省则省”的倾向，在多次尝试无果后会主动“放弃”，而不是继续深度推理，这或许是官方为优化Token使用而做出的权衡。\n这些弊端都可能是混合模型带来的。\n更令商业API用户不满的是DeepSeek激进的更新策略。DeepSeek倾向于用新模型直接覆盖旧模型，且不提供任何旧版本的API。\n这种做法意味着，线上生产业务的API可能在毫无预警的情况下被更改，导致下游工作流崩溃，严重影响了商业应用的稳定性。目前在Hugging Face社区，已有API用户对此表达了强烈不满，要求退款并希望能继续使用稳定的0324版本。\n\nGPT-5 激进更新的前车之鉴，看来 DeepSeek 并未引以为戒。\n本文作者：博阳 编辑 可君，来源：腾讯科技，原文标题：《DeepSeek上线两天后再回看：一次“小更新”，一场架构“豪赌”》风险提示及免责条款\n\n            市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"}}}