听懂“话外音”,扛住3.5万咨询,I.T客服Agent怎么做到的?

虎嗅APP
Nov 13, 2025

点击卡片 关注我们

虎嗅智库荐语:

客服团队人手不足,传统机器人听不懂顾客 “话外音”?零售行业客服智能化落地,如何突破意图识别难、复杂流程扛不住、大小模型协作乱的困局?

I.T集团的实战案例给出了破局答案:通过与网易云商合作,其客服Agent在3.5万月会话量的高压下,精准听懂顾客“话外音”,将售前应答速度提升60%,售后处理时长从7分钟砍半至3分钟。

这不仅是一次技术升级,更是一套已被验证的AI落地方法论。从选择高频场景切入,到解决多Agent协同“静默”、实现大小模型高效协作,它为企业Agent落地提供了从“可用”到“好用”的全路径参考。

出品 | 虎嗅智库

作者 | 冀玉洁

双11前后,各家电商平台的客服团队都绷紧了弦。当商品咨询及退换货需求如潮水般涌来时,人工客服应对艰难,传统的NLP机器人更是难以招架。

这正是当下众多零售企业面临的共同困境,如何让有限的客服团队应对持续攀升的会话洪峰?还能既保障服务质量,又控制运营成本?

I.T集团的客服困境就是一个典型代表。集团客服人员规模有限,每月却要应对2.5万通会话,大促期间每月超3.5万,单个售前咨询处理时长约2分钟,客服压力巨大;同时作为采用多品牌买手制的时尚集团,I.T的客服场景更加复杂,从售前尺码推荐到售后退货安抚,每个环节都需要精准理解用户意图,传统客服体系难以承载如此高频且多样化需求。

面对挑战,在与网易云商合作传统NLP机器人的基础上,I.T集团选择了继续与其客服Agent产品团队合作。I.T核心诉求非常明确:通过智能化升级,重点提升机器人在复杂场景下的意图识别与多轮应答能力,缓解客服压力。

项目组没有一开始就选择全面铺开,而是以“尺码推荐”“订单取消”“退货安抚”这三个高频且传统NLP机器人效果不佳的场景作为切入点。这几个场景的共同特点是需要一定的上下文理解和多轮对话能力,而这正是大模型能够发挥优势的地方。

项目经历了三个关键阶段的攻坚。

第一阶段,要教会AI理解用户的“话外音”。以退款场景为例,很多时候,客户不会直接说“我要退款”,而是用“我买多了”、“颜色不对”等模糊表达。团队通过设计意图澄清Agent,让系统学会主动追问,实现会话精准分流。

第二阶段需要解决多Agent协同中的“静默”问题—当遇到用户突然说“你们服务不错”这类寒暄语时,一开始从业务目标出发设置的Agent,无法应对此类问答,就会出现静默状态,后来团队专门设置寒暄Agent来承接这类问题,对话才流畅起来。

最后一个阶段面对大小模型的协作难题,项目组通过重新划分知识边界,常见简单固定类问答交由NLP机器人处理,复杂咨询问题交由客服Agent,以此实现效率与体验的平衡。

最终,该项目从I.T集团的三个试点场景扩展到覆盖售前、售中、售后客户服务全旅程的十八个具体场景,售前应答速度提升60%,售后单个处理时长由7分钟缩短至3分钟。

I.T的客服Agent案例不仅是一个技术落地案例,更是一次关于如何在企业中务实推进AI应用的深度实践,其从“场景洞察-试点验证-数据治理-大小模型协同”的实施路径,同样适用于其他想要落地的零售企业。

关于I.TAgent项目落地实施的全过程,虎嗅智库深度调研了网易云商的Agent产品负责人,希望为正在探索Agent落地的企业提供有价值的参考。

月均客户会话量高达2.5万通,如何破题?

以下为问答摘要,enjoy!

1、I.T集团最想解决的核心业务难题是什么?

客户的核心诉求是希望通过智能化升级,提升机器人应答环节的意图识别效果。这是大模型能力带来的直接感知,更好地理解用户对话意图。

基于更精准的意图识别,机器人可以实现多轮应答,从而拦截更多原本需要人工接待的会话,以减轻客服团队的压力。

I.T集团当时确实面临着较大的客服接待压力。因为集团旗下品牌是买手制,品牌也比较多,但其客服团队规模不大,有多个渠道,客服对话量很大,日常每月承接2.5万通会话量,大促期间,客服接待压力更为突出,每月超3.5万。因此,他们迫切需要智能化的解决方案来应对这一挑战。

2、在落地实施上,咱们选择的试点场景是哪些?主要考量依据是什么?

场景选择主要综合以下几点考量:

第一,高频性:得是访客经常询问的场景;

第二,小模型有瓶颈的场景:原有基于NLP匹配的机器人识别效果不佳的场景;

第三,能力拓展类:一些涉及复杂流程或需要上下文记忆的对话内容,也是一些原有小模型机器人没有能力处理的场景。

基于以上标准,我们选择了尺码推荐、订单取消与退货安抚三个主要场景。其中,订单、退换货相关的问题更为高频。

在退换货场景下,我们分析了如何能够让agent更独立地解决问题。在后续的实施中,以工作流的形式,自动通过接口获取用户动态信息,以及使用提示词,实现和用户自然语言的交互,替代人工客服,完成机械性业务问题的处理。

从最初这三个试点场景开始,最后一共设置十个Agent,落地十八个具体场景。

3、这十八个场景可以归类吗?十个Agent是如何分配支撑这些场景的?

可以按照用户的进线旅程,即售前、售中、售后环节来划分:

售前,包括尺码、活动内容咨询等;售中,物流信息咨询等;售后退、换货等相关咨询。

在分配的十个Agent中,以上面提到的售前尺码推荐、售后订单取消和退货安抚这三个核心场景为主。这十个Agent共同协作,覆盖十八个场景。

一个Agent并不严格限定于只处理一个场景。你可以将其理解为数字员工,一位数字员工可以承担多项职责。

总体Agent的分配主要看场景复杂度:用一个还是多个Agent,需要根据场景的复杂度进行区分,简单的场景,例如流程固定的尺码咨询,一个Agent就够了;

此外为区分不同的业务环节,可能也会进行强隔离,由不同的Agent负责不同业务应答。

落地攻坚:教会AI听懂“话外音”与处理复杂流程

4、可以举例说明一个Agent处理复杂场景咨询的例子吗?

以“退款”场景为例,其复杂性主要在于用户意图的多样性和模糊性。用户往往不会直接表达“我要退款”,而是会说“我买多了”、“东西不好”或“商品有破损”等。这种模糊的意图使得系统难以直接触发退款流程。就像人工客服需要明确意图一样,Agent也需要清晰指令才能执行相应技能。

因此,我们协助客户根据其实际业务,对这些模糊意图进行梳理和分流设计。例如,当用户表示“买多了”时,系统会首先澄清顾客意图:“您是想取消订单,还是办理退款?”做完意图分流之后,才能进入Agent退款的业务流程,通过这样的多轮对话,将用户引导至正确的业务流程。

整个退款流程也会涉及多个判断条件:物流状态比如是否已发货、商品条件比如是否超过七天、是否有损坏等。Agent会根据不同状态,逐步判断是否符合退款条件。符合条件则进入退款流程,不符合则会提供其他解决方案例如补偿券等,或最终转接人工客服。

在转人工前,Agent也会总结会话内容,提炼客户的退款原因及关键信息,让人工坐席能快速了解情况并采取后续措施。

5、整个项目实施周期多长?经历了哪些主要迭代阶段?

整个项目从需求确认到上线主要分为三个阶段:

第一阶段:重点聚焦Agent的效果实现,构建核心场景流程。项目组为各个场景设计了完整的咨询应答流程、应答话术以及不同分支情况下的应答处理逻辑。

第二阶段:核心在多Agent智能分流与异常处理上。项目组花费较多时间优化多个Agent之间的协同分流调优。常规问题,通过描述可以实现正常分流。

以下两种情况,不太容易分流:比如访客的寒暄语处理,部分用户聊着聊着会说你们“服务不错”等一些与业务无关的话,因为我们没有设置专门的寒暄Agent,所以Agent就会静默,不知道怎么回,也不知道该分给哪个Agent去做应答。

一开始,所有业务Agent的设计都指向明确具体的业务目标,因为寒暄语不指向具体业务,所以就会出现以上这种静默情况。为了解决这个问题,项目组增设“寒暄Agent”,当对话中涉及到一些寒暄语时,系统会先到寒暄Agent中去做一轮应答,把这个流程先串起来后,就不会有静默情况再出现了。

再比如意图澄清类问答。当用户的意图表述不清晰时,也会出现Agent分流失败的情况。当用户不直接说自己要退换货,而是说“你们这件衣服颜色不太正”,这种情况,系统就可能无法直接分流。

因为它意味着多个可能咨询的方向,可能是觉得衣服图片和实物颜色不匹配,这是商品咨询场景;也可能是用户买完衣服,想看订单情况,或是用户想退货,这就是退换货场景。当然,还有一些其他的可能,但因为顾客只讲了一句话,所以无法判断真实意图,也就没法进行有效分流。

对此,我们设计“意图澄清Agent”,当顾客意图表达不清晰时,会先到这个Agent,它会回应用户,再主动提问以明确顾客具体诉求,比如问“您是咨询商品详情,还是想办理退换货?”。等了解清楚顾客意图后,再分流至具体业务Agent。

这也让我们意识到到,Agent设计应该从用户视角出发,而不仅是业务视角出发。

第三阶段的重点在于大小模型高效协作。因为I.T集团使用我们的小模型三四年,已经积累丰富的小模型知识库,大部分问题也能通过小模型来应答。叠加大模型之后,关键就在于让大、小模型协作更加高效。

这个问题可以分两部分来看:第一怎么顺畅地从小模型过渡到大模型,第二大模型应答之后,有些问题还需切回小模型,如何从大模型智能化切回小模型。

这方面,我们也做了比较多的工作。首先,重新做知识划分:对企业知识进行重新梳理。将简单的、固定的问答,比如“是否包邮”这类问题保留给小模型;将复杂的、意图识别困难的,需多轮交互的流程类问题(比如尺码推荐、退款)划归给大模型。

为此,我们将原有小模型知识库中与大模型场景重叠的部分比如前面提到的十八个场景相关的FAQ进行了“失效”处理,确保这些相关问题由大模型来应答。

其次,设置了灵活的进入路径,因为大模型没有覆盖全部的客户问答场景,还有部分问答还是分配在小模型中。在这个环节,除了刚才讲的失效之外,我们还针对需要收集用户多重信息的场景,设置快捷按钮,比如“我要退货”“订单发货咨询”、“错漏发问题”等。

用户可在I.T集团的小程序中,直接点选相关快捷按钮,即可快速跳转至指定Agent,获取更智能化的回复。这样一来,将判断权交还给用户的同时,也能提升接待效率和用户体验。

图:I.T集团小程序截图

来源:网易云商

6、在关键的数据梳理环节,是与对方的什么团队沟通的?双方的协作小组都包括哪些角色?

数据材料由I.T的业务部门提供,但具体与我们对接并协助梳理的,主要是其信息化部门偏IT角色业务支持的角色,并非纯技术IT。

I.T侧的对接团队通常是一两位名核心对接人员,以及三、四位来自相关客户部门的辅助人员,包括项目经理PM,以及兼具技术理解能力的成员。同时,他们会协调业务方加入。

业务方主要协助两方面工作:一是业务流程梳理与确认,提供并确认现有业务的运作逻辑与流程;二是真实场景测试:依据企业一线客户的实际提问方式进行测试,确保Agent的应答效果符合其业务实际需求。

上线只是开始:从“可用”到“好用”才是落地关键

7、正式上线后,用什么关键指标评估Agent表现?

基于多年的客服机器人运营经验,我们总结出评估智能化应答能力的三大核心指标:

首先,听懂意图是前提,需要通过提升意图识别匹配率,确保沟通顺畅。在小模型中,这通过配置相似问句来实现;而在大模型中,则依赖于在提示词中对意图进行清晰的定义与描述;

其次,问题解决率,这是最核心的指标,直接衡量Agent是否具备足够的知识与能力,来真正解决用户提出的具体业务诉求。

最后,用户满意率,关注的是服务交互的体验与温度,它关乎品牌形象,也是衡量智能服务是否能从“有用”升级到“好用”的关键指标。

8、知识库信息的更新频率和流程是怎样的?

我们将知识大致分为两类,并采用不同的更新策略:

一类是静态知识,指短期内稳定的信息,如退换货政策、运费标准、或者有固定操作流程的知识,比如开发票等。这类知识仅在业务政策发生变动时才会更新,更新频率较低。

一类是动态知识,指频繁变动的信息,如商品信息、优惠活动等。对于这类知识,我们主要通过系统接口对接实现自动化更新。当有新商品上线或价格变动时,业务系统会通过接口实时或准实时地推送到我们的平台,确保客服Agent能立即获取最新信息进行解答,可以做到基本不依赖人工手动更新。

9、与I.T集团等同类型的客户合作中,通常会经历哪些关键阶段或步骤?

整体上,合作流程可分为需求确认、POC验证、正式交付三个阶段。

首先是需求确认阶段的需求洞察与价值测算,在客户选型前期,他们通常不确定大模型能否为其带来价值。我们会利用场景洞察平台,分析其业务,明确哪些场景适合应用Agent,并测算可能带来的价值,例如成本节约或营销转化提升。

然后是项目分工与配合,由于现阶段,客户多为首次落地Agent项目,他们非常关心自身需要投入什么资源,以及我们能提供何种支持。此阶段需明确双方的角色与协作方式,建立客户对项目安全落地的信心。

充分获得客户信任后,就会进入POC价值验证阶段。在客户投入内部资源进行POC测试前,他们会综合评估各家厂商的优劣和业务匹配度,在客户认可后进入正式的POC测试。若最终效果令客户满意,通常就会达成正式合作。

在交付阶段,即使项目上线,客户仍可能担忧后续的自主运营问题因为Agent的运营方式与传统小模型机器人完全不同。为此,我们会提供一套成熟的自运营工具,并持续给客户解答关于是否需要招募专业AI训练师等这类业务问题,确保客户能顺利接手项目并持续优化。

10、在服务了众多客户后,对于Agent在客服或零售场景的成功落地,您认为有哪些关键要素?

为了客户项目的成功落地,我们开发了许多周边工具,只为了帮助客户能将系统用得更好。

比如企业的原始知识,像是产品PRD文档,并不适合直接丢给客服人员或机器人使用,因为比较专业,难以理解。比较好的方式,是可以把它做成产品手册或者常见问题的FAQ。

但大家可能也会默认这个东西应该是客户自己去整理,然后告诉客户,你需要把你的企业知识变成常见问题FAQ,不然的话,这个场景的落地效果就不好。但这样以来,这个成本就压在了客户身上。

比如一个拥有上万个SKU的鞋服客户,如果要整理FAQ,可能一年都做不完。

虽然我们提供的是Agent工具,但也会考虑怎么帮客户在运营上提效。像我们做的一系列周边小工具,比如“AI知识萃取”工具,能直接将原始PRD文档自动转化为高质量的常见问题(FAQ),这就为客户省去巨大的整理成本。

当然,即使有了FAQ还不够,我们也会思考怎么让FAQ更好服务客户。

比如客户提了一个问题,客服直接解答了,这就算好吗?其实不然。一个客户的问题背后是有一个冰层的,而冰层下情况是很复杂的。

举个例子,当客户要买一个篮球,FAQ式回答是“好的”,然后直接就给客户发购买链接。接着客户就下单,最后坐席会说帮我点一个满意度,这次服务就结束了。

但这次看似完整的服务背后其实是有问题的,为什么呢?

因为考虑到快递安全性,篮球在发给客户的时候气是会放掉的,坐席虽然解答了客户要买篮球的这个问题,但没有考虑到他后面的一些问题。

我们希望在解答客户问题时,能够比客户多想一步。提醒下客户,篮球是被放掉气的,可能你还要再买一个充气的东西,如果需要的话,我可以给你一个链接,不管是否需要,都要提醒一下这件事。这些都是常见问题FAQ手册里面没有的,这就是我们提供“AI知识编排”的能力。

客户只需要把原始文档丢给我们,知识加工和编排,都可以用我们提供的周边工具来完成。

用的多了,基于FAQ可能产生了很多历史对话信息,又可以变成新的AI知识飞轮,飞轮转起来后,再返回到使用场景里面,就可以让项目落地的效果变得越来越好。

扫码报名 申请加入

虎嗅智库数字化/AI落地创新实践交流群

关于虎嗅智库

虎嗅智库是一家聚焦企业数字化、AI创新实践的新型研究服务机构,为产业智能化进程中的甲乙双方,提供有洞察性的研究报告、案例评选、以及线上会议、线下活动与参访服务,以支持企业高管在智能化、数字化方面的明智决策。

我们提供的核心价值

及时与优质的洞察,了解技术、了解行业、了解同行与对手;

为决策者技术与产品战略决策、产业规划、解决方案选型提供重要参考;帮助市场全面了解前沿科技及所影响产业的发展状况,还有未来趋势;

虎嗅智库官网:hri.huxiu.com

“阅读原文”看更多报告和活动信息。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10