匿名大象模型被蚂蚁认领!推理速度冲到第一,还能生成百万小说

智东西
Apr 22

4月22日报道,上周冲上OpenRouter热榜(Trending)第一的匿名测试模型Elephant Alpha今早正式揭晓真身——蚂蚁旗下的百灵模型Ling-2.6-flash

匿名上线以来,该模型调用量持续增长,连续多日位列热榜榜首,日均tokens调用量达100B级别。不少网友试用后表示印象深刻,有人称这是“用过最快的模型”“token效率很高”。

蚂蚁今日宣布正式推出Ling-2.6-flash。该模型总参数量104B,激活参数7.4B,为Instruct模型。如下图所示,该模型在Agent相关基准上达到同尺寸SOTA水平,并在其他核心能力上表现出色。

Ling-2.6-flash追求的是在控制token消耗的前提下,保持对Agent任务的强竞争力,主要具备以下三大核心能力:

1、混合线性架构,释放推理效率:通过引入混合线性架构,模型从底层优化计算效率。在4卡H20条件下,推理速度最快可达340 tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍。

2、token效率优化,提升智效比:训练过程中对token效率进行针对性校准,力求以更精简输出完成目标。在Artificial Analysis完整评测中,Ling-2.6-flash仅消耗15M tokens,约为Nemotron-3-Super等模型的1/10。

3、面向Agent场景定向增强:针对工具调用、多步规划与任务执行能力持续打磨。在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等评测中,即使面对激活参数更大的模型,依然取得相近甚至SOTA级别的表现。

从智东西上周对该模型的实测来看,其在执行速度、指令响应、前端原型开发与长文件处理上表现高效,Agent规划与工具调用能力较强,但在项目级应用开发上仍有局限。总体而言,这是一款在轻量级、高频任务中具有优势的高效模型。

智东西用该模型接入类OpenClaw产品生成泰国7日游攻略网站

Ling-2.6-flash将在OpenRouter与官方平台同步提供一周免费API调用。

官方免费期结束后,平台仍将提供每日50万tokens免费额度;超出部分按量计费:输入0.6元/百万tokens,输出1.8元/百万tokens。模型的BF16、FP8、INT4等版本也将于近期开源。

一、实测:秒级响应、指哪打哪,几十分钟产出百万字长篇

智东西在体验中首先尝试了一些编程小项目,发现其响应速度和Agent工具调用能力较强。

首先是一个网站,这主要考察模型的前端能力。拿到开发任务后,该模型对网站的几个核心组件进行了规划,并主动为这一网站加入了明暗模式切换、移动端响应式设计等我们并未要求的功能,最终耗时1分钟左右完成开发。

当我们要求它将网站的主色调改成绿色后,该模型用不到10秒钟就完成了修改,其他大部分模型在处理修改任务时往往需要通读上下文,逐一修改,花上几分钟。

而它基本做到了指哪儿打哪儿,这对于一些快速、高频的网站调试需求是很实用的。

我们也试了试它有没有打造项目级任务的能力,让它根据自己的内部知识,复刻一个支付软件。我们是在Kilo Code插件中体验的模型编程,由该模型驱动的多个子Agent并行工作,进一步放大了它的输出速度优势,但是其最终打造的结果仅能算是一个原型。这种表现可能与其较小的参数量有关。

(更多体验案例移步→《匿名模型“大象”搅局OpenRouter:100B参数冲到热榜第一,实测结果如何》)

蚂蚁官方也公布了一些Ling-2.6-flash的实战演示:

在代码场景,以网页生成为例,Ling-2.6-flash兼具高审美表达与高速代码生成能力,能准确调用前端组件与图标库,适合单页面演示和原型制作中的快速验证。

其INT4量化版本可在DGX Spark上运行,下面视频为基于Ling-2.6-flash&DGX Spark 构建业界SOTA Hermes一体机教程。

Ling-2.6-flash结合Kilo Code可将视觉指令快速转化为高质量界面,胜任个性化视觉风格生成、报刊级排版及周刊、报告等办公内容的即时生成。

在文本场景,Ling-2.6-flash仅凭Prompt即可胜任多步骤文本任务执行,在指令遵循、文风调整与实时生成方面表现突出。

在Agent工具调用场景,该模型具备强大的上下文检索、工具调用与高速响应能力,适合复杂信息处理与知识增强场景。

基于Ling-2.6-flash,长篇写作助手autonovel可覆盖世界观设定、角色构建、大纲生成到正文创作的全流程,以200+ tokens/s的生成速度,仅需几十分钟即可产出百万字长稿。

在需求整理和排期等真实工作场景中,Ling-2.6-flash能稳定参与信息检索、任务拆解、内容处理与工具协同,具备较低的幻觉率与较高的结果可用性。

二、架构升级:推理吞吐最高提升4倍

Ling-2.6-flash延用了Ling 2.5的模型架构设计:在Ling 2.0架构基础上引入混合线性注意力机制,通过增量训练将GQA注意力机制升级为1:7的MLA+Lightning Linear高效混合架构。

得益于混合注意力机制与高度稀疏化的MoE架构,Ling-2.6-flash在推理效率上优势显著。与同尺寸级别的主流SOTA模型相比,首字响应更快,长输出场景下的生成效率更高,Prefill吞吐与Decode吞吐最高均可达到约4倍提升。随着上下文长度和生成长度增加,吞吐优势进一步放大。

在预训练阶段,团队通过大规模算子融合提升训练效率;推理侧则围绕真实部署场景深度适配,使融合算子在融合粒度、实现路径与数值行为上尽可能与训练侧保持一致。相关推理算子将随linghe陆续开源。

针对不同精度场景,推理链路进行了系统性优化:

BF16推理:实现QK Norm+RoPE、Group RMSNorm+Sigmoid Gate等关键算子深度融合,MoE Router GEMM与LM Head GEMM采用BF16 Input+FP32 Output计算方式。

FP8推理:进一步融合RMSNorm、SwiGLU与量化算子,针对小Batch Size引入Split-K的Blockwise FP8 GEMM,以此带来更高的系统吞吐、单用户TPS、更短的等待时间,以及在真实交互场景下更稳定、更流畅的使用体验。

在Artificial Analysis榜单的Output Speed维度测评中,Ling-2.6-flash以215 tokens/s的输出速度处于第一梯队。

三、更优性能,token消耗仅为同行十分之一

在Artificial Analysis的Intelligence vs. Output tokens对比中,Ling-2.6-flash展现了突出的token效率优势:以15M output tokens实现了26分的Intelligence Index,在保持较强智能水平的同时将输出消耗控制在相对更低的位置。相比部分依赖更长输出换取更高分数的模型,它在“智能表现”与“输出成本”之间取得了更优平衡。

对于开发者和企业场景而言,这种能力带来的价值可能是更低的推理开销、更快的首字响应、更短的整体生成时延,以及更流畅的交互体验。

基于AA榜单的官方测评分数绘制

从token消耗看,在 Artificial Analysis Intelligence Index 的完整评测中,Ling-2.6-flash的总消耗仅为15M tokens,而Nemotron-3-Super等模型达到或超过110M tokens——仅用约1/10的token消耗完成同类评测任务,智效比更高。

四、强化学习特训:Agent能力对标SOTA

为增强模型Agent能力,团队显著扩展了Ling-2.6-flash训练数据的难度与广度,依托自研的大规模高保真交互环境,进行了针对性的General Agent与Coding Agent强化学习(RL)训练。

模型在指令遵循、工具调用、多步规划及长程执行方面表现提升显著,在BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench等榜单上表现优异。通过RL优化泛化性与稳定性,在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等框架中均展现了良好的使用体验。

此外,Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准,各项指标对齐同尺寸SOTA模型。

结语:部分高复杂度场景受限,将继续探索智效比边界

经过一周的持续迭代和优化,Ling-2.6-flash在Agent场景的泛化性和稳定性方面获得进一步提升。

Ling-2.6-flash在工具调用、多步规划与长程任务执行等关键维度上实现了明显提升。但百灵团队坦言,部分高复杂度场景中,受限于推理深度,模型仍可能出现一定的工具幻觉;此外,在中英双语自然切换、复杂指令遵循等方面仍有优化空间。

该模型后续迭代将继续探索智效比的更优边界,在保持高效推理特性的同时,进一步推动智能产出质量与token效率之间的深度平衡。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10