大模型的应用场景
大模型在各个领域都有广泛的应用,特别是在以下几个方面:
- 天然语言处置惩罚(NLP):大模型在天然语言理解、语言生成、机器翻译等任务中表现出色。例如,BERT、GPT等模型在文本理解和生成方面取得了明显的进展。
- 计算机视觉(CV):在图像分类、目的检测、图像生成等领域,大模型也取得了巨大的成功。例如,ResNet、YOLO、GAN等模型在图像处置惩罚方面取得了明显的效果。
- 推荐体系:大模型在个性化推荐、广告点击率预估、智能客服等方面发挥着重要作用。例如,YouTube的DNN模型在视频推荐中发挥着重要作用。
- 生物医药:在药物发现、分子结构预测、疾病诊断等方面,大模型也有广泛的应用。例如,使用大模型对蛋白质进行预测,有助于加速新药的研发。
- 金融领域:在风险管理、生意业务预测、信用评分等方面,大模型可以提供更精准的预测和决策支持。例如,使用大模型对金融数据进行分析,可以资助金融机构进步风险管理能力。
总的来说,大模型在各个领域都有重要的应用,可以资助解决复杂的标题,进步体系的性能和服从。
3个 AI(包罗小模型 + 大模型)智能客服平台
接下来,梳理 AI(包罗小模型 + 大模型)在 智能客服平台 领域的应用,这里从小到大,涉及了3个平台
- 案例1:B站小型的运营智能客服平台架构
- 案例2:1Wqps+ 高并发B站智能客服体系的设计与实现
- 案例3:10Wqps 美团智能客服焦点技能与实践
案例1:B站小型的运营智能客服平台架构
原文: https://juejin.cn/post/7324384155231223862
业务场景
一直以来,B站的运动平台一直是运营部门的重要工具。在运营过程中,偶尔会遇到一些疑难标题。
- 例如,运营职员可能对某个组件功能的使用产生疑问。
- 或者,线上运动的表现与预期不符。
在这些情况下,运营部门期望产物研发团队能够协助排查标题。老的运动平台的线上标题排查流程,大致如下:
- 建立一个千人以上的产研运“救火群”。
- 当运营遇到标题时,他们会在群里提出标题。
- 研发关注群里的标题,并及时给予响应和解答。
- 研发需要手动记录每周标题的excel表格。
“拉大群” 的做法依赖人工干预和手动记录 , 很古老,很普遍, 但是这个有很多弊端:
- 缺乏沉底的弊端:标题及解决方案没法自动沉淀,想要把FAQ记录下来,得靠值班同砚费经心思地手动记录,这不光耗时还超等耗力。
- 对值班职员能力要求过高的弊端:要解答标题,值班同砚得对标题所涉领域有足够的相识,要否则就是哑巴吃黄连,有苦说不出啊。
- 服从低下的弊端:群消息内容太繁杂了,有时间消息会被其他信息吞没,这可得靠值班同砚像蜘蛛侠一样机动,才气捕捉到标题的“蛛丝马迹”啊。
怎么办?
需要一个可智能对话、可针对性一键拉群、支持FAQ沉淀的智能客服体系。这就是 B站小型的运营智能客服平台。
平台架构
B站小型的运营智能客服平台的整体架构如下:
包罗以下几部分构成:
- 对话界面
- 会话状态机
- 数据源模型
- 统计汇总后台
- 接入设置
对话界面
运营职员,更乐意、更风俗使用企微原生功能实现对话,倾轧 跳转到第三方网页或者在运动后台开启对话窗口的形式。
企微目前支持两种对话形式:
- 服务号提供对话页面的形式
- 应用号提供对话页面的形式
由于受限于服务号的“无消息回调”,“人工座席与智能服务不能共存”等标题,最终B站小型的运营智能客服平台选择了应用号作为人工客服的主要对话入口。一个 人工客服的对话的例子如下:
整个的对话流程如下, 每一个对话都会带有部门flag(小红旗),实现了差别部门间的流程和数据的隔离。
图中的署理是怎么回事呢?
在测试环境进行调试时,微信无法访问UAT环境内部域名,解决这个标题,团队架了一层署理,开启callback-api服务接口,将外网请求直接转发到uat环境域名上。
会话状态机
后端维护了一整套会话管理体系,会话状态主要如下:
状态流转如下图:
会话状态机维护一个状态的延时消息队列。 延时队列 在用户长时间无响应时,主动二次确认,并保留对会话自动关闭的机制。
每次会话在运营向应用号发消息时开启。在谈天过程中,应用号与后端服务进行交互,实行一系列操作:
1 通过差别类型的消息变乱触发开启会话。
2 自动收集会话信息。
3 进行会话识别。
4 进行会话FAQ匹配。
5 回复用户答案。
同时,应用号维护会话状态,并对用户的一键拉群、竣事会话等请求进行响应
数据源模型
数据源模型,主要是针对消息内容,进行合理回复的底层数据源选型模型,目前本套智能客服回复支持两种模型,
- 一种是搜索模式的数据源,比如基于ES搜索的,
- 一种是生成模式的数据源,比如 类似ChatGPT的专业领域学习模型。
搜索模式的数据源
搜索模式的数据源 使用基于ES搜索的数据源模型, 采用Elasticsearch内置的分词器(Tokenizer)和过滤器(Token Filter)对用户标题进行拆分识别,并匹配FAQ库中匹配度最高的答案,给予返回。
生成模式的数据源:
生成模式的数据源使用 NLP 天然语言处置惩罚和机器学习的问答处置惩罚模型, 对用户标题进行预处置惩罚,对原始答案进行语料加工,答复的时间 根据上下文场景生成答案。
生成模式的数据源其特点就是标题答复更天然、更人性化。
生成模式的缺点在我们的智能客服项目中也表现的比较明显,在FAQ库、对话信息收集不敷够丰富的情况下,模型训练的正确性并不高,甚至模型会有“自由发挥”空间,也就是所谓的大模型幻觉,如果按照甚至会导致运营的错误行为。
解决大模型幻觉的一个策略是使用小模型、专业模型,在这里引入simbert模型,其最大的优势在于在特定专业学习领域里,正确率比其他模型都高,
解决大模型环境的另一个策略,包管训练数据的补给,我们也买通了一条离线数据补给流,对话界面收集到的FAQ及对话信息会通过离线任务同步给训练模型,让训练模型不绝“精进自我”,进步答复的正确率。
BERT(Bidirectional Encoder Representations from Transformers)是一种基于 Transformer 结构的预训练模型,由谷歌提出。BERT 通过大规模的无标签文本语料进行预训练,学习文本的语义表示。与传统的单向语言模型差别,BERT 使用了双向的 Transformer 结构,能够同时思量文本中的上下文信息,从而更好地捕捉文本的语义。BERT 在预训练之后,可以通过微调(fine-tuning)的方式适应各种下游任务,如文本分类、定名实体识别、问答等。由于其出色的表现和通用性,BERT 在天然语言处置惩罚领域得到了广泛的应用和承认。
SimBERT 是百度提出的一种基于 Transformer 结构的预训练模型,它是在 BERT 模型的基础上进行了改进和优化。SimBERT 的主要目的是进步文本相似度任务的性能,尤其是在中文文本相似度任务上的表现。SimBERT 在预训练阶段采用了大规模的文本语料进行自监督学习,然后通过微调或下游任务 fine-tuning 来适应特定的文本相似度任务。通过在大规模语料上的预训练,SimBERT 能够学习到丰富的语义表示,从而在相似度任务中取得良好的性能。
搜索模式和生成模式的数据源切换
目前智能客服支持两种数据模型的开关控制,随时随地随意切换。
会话管理和统计汇总后台
提供了一套可视化的管理后台,完成对所有会话进行管理、review、统计 。
会话管理界面:
会话详情界面;
会话备注及状态流转;
直接一键上传FAQ
FAQ数据将供给给ES及语言训练模型,真正实现全流程的闭环及可持续发展。
效果与预测
自体系上线以来,历经几次迭代,从支持单部门到开放至多部门,底层数据源从ES迭代到ChatGPT,智能客服已经成功实践在以下应用中:
使用以来,运动平台姬共解决约1000例运营线上标题,日均解决运营5例咨询标题,ChatGPT上线一个月后,标题智能解决率进步接近7%。
对智能客服如今的应用趋势及使用反馈进行分析,我们也畅想了下未来发展:
- 更加开放,可以利用企微应用号的回调能力开辟智能客服体系,但同时也提供SDK服务,将能力提供给所有有需要的公司内部团队使用,不限于资助团队机动的进行对话界面的定制化开辟。
- 接入平台化,如今要接入整个智能客服体系,需要人工对接,后续把对接流程线上平台化,增加一些审核机制,就可以方便的实现服务一键接入。
- 对转人工进行优化,如果团队使用企微应用号形式进行接入,那么就一定会受限于企微的既有功能,在用户转人工后,需要单独拉群间接实现摇人,整个对话无法在应用号内实现闭环解决,跳出带来的一是用户体验,二是拉群太多增加了管理成本。这一部分我们思量“费钱”解决,比方说可否以公司身份出面向企微提需,提供更加机动的功能。
案例2:1Wqps+ 高并发B站智能客服体系的设计与实现
停止2022年,哔哩哔哩(Bilibili)是中国颇具影响力的在线视频平台之一,用户量一直在稳步增长。根据官方公布的数据,停止2021年底,B站的注册用户数量已凌驾5亿,其中活泼用户规模也持续扩大,达到了2.5亿。
这一数字反映了B站在视频分享、弹幕互动、二次创作等方面的持续吸引力,以及其在年轻人群体中的广泛普及程度。
值得留意的是,随着在线视频行业的快速发展和用户需求的不绝变革,B站的用户量也在不绝增长和优化。
B站智能客服体系的配景
B站昔日所用之客服体系,是外购而得,已用有数载。然则,此外购之体系,却存诸多弊病:
- 稳固性乏善可陈,无法妥善延展与扩充,常见诸bug,难以迎击瞬息万变的客流高峰。
- 与B站产物体系无法沟通,不易根据业务需求进行量身定制。
- 因体系之逻辑陈旧,稳固性不佳,致服从低下,无法满意提拔客服服从之要求。
纵然曾思量采购新客服体系,但亦面临一系列标题:
- 昂贵之价格,尤其是在当条件倡降本增效之大环境下,为一重要考量。
- 更为关键者,此体系仍不能与内部体系完美融合,无法支持业务之个性化定制。
因是,B站决意独立更生,启动新客服体系之自研工程。
从0到1,打造一个全新的B站客服体系
在面对如何打造一个全新的客服体系的挑战时,我们起首开始了调研、访谈和体验。
业内调研
我们踏访了一些客服体系领域中驰名有声的企业,从业务和技能的双器重角进行了深入探究。总结归纳,目前客服体系着重关注以下三大关键指标,让我们逐一剖析:
- 智能问答拦截率(也对应人工处置惩罚率):一款出色的客服体系,精良的智能问答功能至关重要:
- 实现7*24小时不中断在线服务,无需期待列队,确保用户随时获得敏捷回应。
- 快速应对用户常问标题,提拔服从,节省成本,达到更优用户体验和更高资源利用服从。
- 能够快速解答大部分简朴标题,同时为复杂标题留有人工处置惩罚的空间,以进步整体标题解决服从和效果。
- 用户满意度
- 平均处置惩罚时长:主要指客服职员处置惩罚一次会话所需的平均时长
这些要紧的指标,为未来的研发指引了明晰的方向。
内部访谈和体验
起首,我们对运营团队/各项功能团队(质检、舆情、机器人、工单、二线、数据等)进行了详细的访谈,旨在深入相识他们的工作情况和需求。
其次,与各个团队的交流中,我们深入探讨了各团队的详细工作内容和挑战,收集了许多珍贵的经验和建议,这对我们如何详细做好产物和之后推动体系的落地起到了巨大的作用。
末了,通过对现有体系的全面体验,我们进一步相识了体系的运行情况和存在的标题,为后续产物的优化和体系的落地提供了重要参考。
B站客服体系整体架构和焦点业务流程
客服体系主要功能:
- C端入口:进入客服的入口
- 智能问答:通过机器人与用户进行会话,解决用户的标题
- 客服坐席调度:给用户选择合适的客服职员同时兼顾客服职员的工作平衡
- 客服工作台:为客服职员提供便捷的工作界面和工具
- 知识库:汇集各类常见标题和解决方案,供客服使用
- IM谈天基础能力:负责构建用户和客服之间的谈天,进行对话操作(发送文字,图片,视频)等
- 客服工单:用于跟踪和解决用户提出的标题和需求
- 权限管理:确保客服体系数据和功能的安全性
还有一些其他的功能如:质检体系,舆情体系,客服工时体系,监控体系等等。
B站客服体系用户入口
起首简朴看一下哔哩哔哩智能客服的用户入口。
当用户进入谈天框,起首会经过智能问答环节。这个环节,就像是大门前的门卫一样,站在用户与标题之间,保卫着信息的流畅。
如果智能问答不能满意用户的需求,用户还可以选择进一步与人工客服交流,就像是在犹豫着是否要推开大门,踏入未知的领域一样。
B站客服总体功能架构
为了资助各人从宏观上理解客服体系,以下列出了整体功能的架构图。
B站客服总体功能架构主要包罗以下几个方面:
- 智能机器人客服:利用天然语言处置惩罚(NLP)和机器学习技能,实现对用户提出的常见标题进行自动答复。这个体系就像是一位聪明的管家,能够快速、正确地解答用户的疑问,进步客服服从。
- 坐席调度体系:为用户提供人工客服服务,当智能问答无法解决标题时,用户可以选择与真人客服进行交流。这个体系需要包罗在线客服接待、标题处置惩罚、对话记录等功能,确保用户能够得到及时、个性化的解决方案。
- 客服管理后台:提供给客服职员使用的管理后台,包罗客服工作台、会话管理、用户信息检察、标题记录等功能,资助客服职员更好地处置惩罚用户标题、管剖析话。
- 数据分析与监控:对客服体系的运行状态进行监控和分析,及时统计客服工作指标、用户反馈情况等数据,并提供报表和可视化界面,为决策提供数据支持。
- 技能工单体系:负责客服体系的技能支持和维护工作,包罗体系的升级、bug修复、性能优化等,确保客服体系的稳固运行和持续改进。
这些功能相互共同,构成了B站客服体系的整体架构,为用户提供了高效、便捷的客户服务体验。
B站客服焦点流程
B站客服的焦点流程,如下图
B站客服焦点功能设计和实现
我们将按照用户一次完备的访问客服体系所需的先后序次,介绍各个焦点功能的设计与实现。
用户从用户入口进入,依次会经历智能问答、客服坐席调度以及与客服谈天(工作台)等焦点功能。
智能机器人客服子体系
在客服的业务场景中,智能问答扮演着极为重要的脚色,其优势堪称人工无法相比:
起首,它提供了24小时不中断的在线服务,仿佛是一位不知疲倦的保卫神;
其次,在高峰时期,用户无需列队期待,享受着犹如鱼得水的畅快感受;
再者,对于用户频仍提出的标题,它能够轻松给出敏捷的答复,就像是一位经验丰富的老师一样平常;
末了,在面对大部分简朴标题时,它能够轻松自助解决,就犹如得道高僧般游刃有余。
因此,智能问答体系的应用不仅能够提拔整体服从,降低成本,更能够创造出更好的客户体验和更高效的资源利用。
目前,哔哩哔哩客服体系在实行智能问答任务时,会根据匹配度的差别提供两种答复方式:
- 当匹配度较高时,体系会直接给出答案;
- 而当匹配度只是中等时,体系则会提供一个“您想咨询的标题可能是”的列表。
这个策略的目的是为了提供更正确、更有用的答复,以资助用户更快地找到他们需要的信息。
机器人问答-直接给出答案 | 机器人问答-“您想咨询的标题可能是” |
|
| 机器人问答技能调研
机器人问答技能在实现上主要分为两种类型:检索式和生成式。
检索式:检索式模型通常利用神经网络技能,将大量的预训练语料数据输入到模型中进行训练。在完成训练后,模型能够对新的输入进行分类、匹配和答复标题。这种方案的实现主要依赖于大规模的预训练数据和高效的检索算法。
生成式:另一种类型的是生成式模型,它主要采用深度学习技能以及最新的大语言模型,通过学习大量数据来生成文本。这种方案通常使用循环神经网络(RNN)或变换器(Transformer)等结构,能够处置惩罚序列数据并生成新的序列。与检索式模型差别,生成式模型在训练过程中会直接生成目的文本,而不是通过检索匹配。
总的来说,检索式和生成式两种模型各有特点,各有优势,在机器人问答体系中都有应用。
详细选择哪种模型,往往需要根据详细的应用场景和需求来决定。
方案对比:
方案 | 场景 | 数据需求 | 正确性 | 性能 | 复杂性 | 检索式
| 主要实用于对知识库的检索和筛选,比如问答体系、知识库管理、智能客服等
| 依赖,需要丰富的结构化语料库
| 本质上是从已有数据集中检索最匹配的数据,正确性高
| 毫秒级
| 低
| 生成式
| 主要实用于需要生成自主文本或任务的应用场景,如对话生成、文本创作、任务调度等
| 依赖,无需结构化
| 生成的质量可能会受到模型的训练数据和质量的限制,可能会出现不正确、无意义或不同等的输出
| 秒级
| 高
| 在电商客服场景下,答复用户标题的正确性至关重要,宁愿选择不答复也不能够答复错误。
相比之下,生成式答案会受到多种因素的影响,导致效果不可控。而检索式答案泉源于知识库,可以提供更加正确的标题解答。
固然检索式在处置惩罚一些长尾标题或者冷门领域的标题时表现不佳,但是可以通过人工干预来丰富知识库进行优化。综合思量到这些因素,最终选择了检索式实现。
向量搜索和基于Faiss实现的智能问答
向量搜索根本原理
给定一个向量集合:
和一个待查询的向量:
从 个向量里面找到距离 某种距离(比如 L2 距离)近来的 个向量。
其应用包罗
- 从语料库里面找到距离某个语句最相近的一句话。
- 从图片库里面找到距离某张图片最类似的一张图片。
- 还能查找别的,比如视频、音频、动图、基因序列、搜索条目等。
这些东西(图片、词语、句子、视频等)都可以用向量表示出来,如下图:
这个事情看起来很简朴,但是当我们的数据库变得特别大时,这件事情就变得比较困难了。
因此这里就专门来研究如何做如许的向量搜索。
Faiss简介
Faiss(Facebook AI Similarity Search) 是 Facebook AI 开辟的用于高效相似性搜索和向量聚类的库。
Faiss(Facebook AI Similarity Search) 提供了一系列高性能的算法和数据结构,用于处置惩罚大规模的向量数据,特别是在推荐体系、语义搜索、图像搜索等领域具有广泛的应用。
Faiss支持基于内存和基于GPU的索引构建和查询,能够在大规模数据集上快速进行近邻搜索、相似性匹配和聚类操作。通过高效的索引结构和算法设计,Faiss可以大大加速相似性搜索的过程,进步体系的性能和服从。
Faiss 总体使用过程可以分为三步:
- 构建训练数据(以矩阵形式表达);
- 挑选合适的 Index (Faiss 的焦点部件),将训练数据 add 进 Index 中;
- Search,也就是搜索,得到末了效果。
详细表明,即为:起首根据原始向量构建一个索引文件,再根据索引文件进行查询。初次查询前需要进行train和add过程,后续若要进行索引的添加可以再次使用add添加索引,如下图所示:
基于Faiss实现的智能问答
在实现检索式的过程中,主要任务是找到与用户提问语句最相似的问法,从而获取对应的答案。这个过程包罗以下步调:
- 数据准备:建立知识库,包含标准问、相似问以及对应的答案。每个标准问有多个相似问,并对应唯一的答案。
- 文本向量化:使用BERT模型将标题和相似问转化为向量表示。BERT模型采用预训练方式,能够将输入的文本转化为对应的向量表示。公司已有基于社区数据训练的bert-embedding服务,体验效果满意需求,因此使用该服务进行文本向量化。
- 相似度计算:使用Faiss库进行相似度计算。Faiss库是一种针对聚类和相似性搜索的工具,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。
- 搜索匹配:将用户标题向量传入Faiss库中,使用相似度计算方法对标题进行匹配,找到最相似的TopN标题向量(或者说相似问)。
- 答案选取:根据相似度效果高低,直接给出标题对应的答案或者“您想咨询的标题可能是”列表。如果相似度很低,则会转接人工。
基于Faiss的智能问答如下图所示
Faiss索引选择实践
Faiss提供的索引很多,需要根据数据集的巨细和机器的性能来选取合适的索引。
仅有IndexFlatL2索引可以提供确切的效果,但是性能上会比较差,仅实用数据量比较少的情况,通常为其他索引正确度提供基准。
a. 由于所有的Faiss索引都将向量存储在内存中,如果内存是限制因素,那么就需要将正确度和性能进行折衷:
b. 不关心内存则使用"HNSWx",通过"efSearch"参数平衡正确度和性能,该参数越大越正确,同时性能越差;
c. 有一点关心内存则使用"..,Flat","..."的寄义是聚类,聚类后,"Flat"的寄义是不压缩,存储巨细与原始数据集相同,通过"nprobe"参数平衡正确度和性能;
d. 很关心内存则使用" CARx,...,SQ8",PCARx指将维度降x,SQ8指将每8bit向量压缩到1bit;
e. 非常关心内存则使用"OPQx_y,...,PQx",PQx使用输出x-byte的量化器压缩向量。x通常<= 64,对于较大的代码,SQ通常是正确和快速的。OPQ是向量的线性转换,使它们更容易压缩;
a. 如果低于1M个向量: "...,IVFx,...",直接倒排索引,x范围在 4sqrt(N)~16sqrt(N)之间,N是数据集巨细,x是k-means聚类后的数量;
b. 如果1M - 10M:"...,IVF65536_HNSW32,...",联合IVF和HNSW,用HNSW进行聚类;
c.如果10M - 100M: "...,IVF262144_HNSW32,...";
d. 如果100M - 1B: "...,IVF1048576_HNSW32,...";
由于我们数据集在10M以内,最终选取了"IVF{IVFK}_HNSW32,Flat",如果小于10M,IVFK根据依据4sqrt(N)~16sqrt(N)动态算,如果大于10M,则IVFK为65536。
部分代码如下:
- if len(x) < 1000000:
- ivfK = findIVFK(len(x))
- else:
- ivfK = 65536
- factory_str = f'IVF{ivfK}_HNSW32,Flat'
- def findIVFK(N: int):
- sqrtN = math.sqrt(N)
- print(sqrtN, 4 * sqrtN, 16 * sqrtN)
- i = 2
- while True:
- i *= 2
- if 4 * sqrtN <= i <= 16 * sqrtN and N // 256 <= i <= N // 30:
- return i
- if i > 4096:
- return 512
复制代码 大语言模型尝试和探索
当前备受关注的大语言模型我们也进行了探索。
我们与公司AI部门合作,将客服与用户的真实谈天记录以及知识库作为训练数据,给大模型进行训练,并且进行了测试。
总体上,我们学到了客服的答复风格,使答复更为流畅天然,与检索式问答相比,这种方式更容易让客户在心理上接受,并能够做出一些决策。
固然,我们也遇到了强制答复和答复无法解决标题的情况。要解决标题,需要根据客户的详细标题和订单状态来答复。不外,大型语言模型是未来的趋势,值得我们进一步探索。
除了智能问答领域,目前大型语言模型还可以应用于智能话术场景,或者在一些偏向咨询的场景中试用。
此外,业内也有在偏向咨询的电商售前场景和互联网教导咨询场景中使用大型语言模型的案例
新体系落地效果如何
在焦点指标上,新客服体系都取得了明显的提拔:
- 智能问答拦截率:与原有体系相比,新体系的智能问答拦截率有了巨大的提拔,达到了业内先进水平。
- 用户满意度:也有明显的提拔,表明用户对新体系的满意度较高。
- 平均处置惩罚时长:只管新体系需要适应的过程,但平均处置惩罚时长仍有淘汰,这一点非常不易。
此外,新客服体系的落地还进步了客服工作服从,实现了与内部业务体系的无缝对接,优化了客服功能工具,验证了自主研发的能力。
接下来,我们将从技能角度,整体和分细节方面对新客服体系进行介绍。
案例3:10Wqps 美团智能客服焦点技能与实践
美团平台涵盖吃、住、行、游、购、娱等200多个生活服务品类,目前,美团的年生意业务用户量为6.3亿,服务了770万生活服务类商家。
6.3亿用户, 吞吐量峰值10Wqps+
此外,在美团优选业务中还有一个很大的团长群体。面对以上这些需求,如果都是通过人力进行实现,显然不符合公司长远发展的目的,这就需要引入智能客服。
美团平台智能客服提供了六大智能客服焦点能力:
- 标题推荐。
- 标题理解。
- 对话管理。
- 答案供给。
- 话术推荐。
- 会话摘要。
这些能力旨在实现与用户进行沟通的目的,即以低成本、高服从和高质量的方式提供服务。
美团智能客服的业务场景
在平台服务的售前、售中、售后各个环节,都有大量信息咨询、订单状态获取以及申说投诉等沟通诉求。
起首,我们看看日常生活中几种最为常见的客服场景。
- 售前场景:比如消耗者在平台选择入住酒店,对房型价格、酒店办法、入退房政策等,下单前都有很强的信息咨询诉求。
- 售中场景:比如外卖催单还没到,添加备注不要辣、加开辟票等咨询等等,售前和售中场景主要发生在消耗者和商家或平台之间。
- 售后场景:比如外卖场景投诉菜品少送、骑手送餐超时、要求退款等,酒店场景投诉酒店到店无法入住等,售后往往涉及到客服座席、消耗者、骑手和商家,需要多方协同解决。
- 办公场景:比如IT、人力资源、财政、法务等咨询,产运研对提供的接口产物的咨询答疑,产物对销售顾问的答疑,以及销售顾问对商家的答疑等等。
智能客服平台对话类型分类
智能客服背后的技能主要是以对话交互技能为焦点。
常见的对话任务可分为闲聊型、任务型和问答型:
- 闲聊型:通常是不关注某项特定任务,它的主要的目的是和人进行开放领域的对话,关注点是生成流畅、合理且天然的回复。
- 任务型:通常是资助用户完成某项任务指令,如查找酒店、查询订单状态、解决用户的退款申请等等。用户的需求通常比较复杂,需要通过多轮交互来不绝收集任务所需的须要信息,进而根据信息进行决策,实行差别的动作,最终完成用户的指令。
- 问答型:侧重于一问一答,即直接根据用户的标题给出精准答案。问答型和任务型最本质的区别在于,体系是否需要维护一个用户目的状态的表示和是否需要一个决策过程来完成任务。
在技能实现上,通常又可以划分为检索式、生成式和任务式:
- 检索式:主要思路是从对话语料库中找出与输入语句最匹配的回复,这些回复通常是预先存储的数据。
- 生成式:主要思路是基于深度学习的Transformer 架构,从大量语料中习得语言能力,根据标题内容及相干及时状态信息直接生成答复话术。
- 任务式:就是任务型对话,通常要维护一个对话状态,根据差别的对话状态决策下一步动作,是查询数据库照旧回复用户等等。
闲聊、问答、任务型对话本质都是在被动地响应用户需求。在详细业务中还会有标题推荐、商品推荐等来主动引导用户交互。
在美团的业务场景里主要是任务型和问答型,中间也会穿插一些闲聊,闲聊主要是打招呼或者简朴情绪安抚,起到润滑人机对话的作用。
用户的沟通对象两个:
跟人工沟通, 如果是找客服场景人工就是客服座席,如果是找商家场景人工就是商家。
跟机器人沟通, 机器人的能力主要包罗:
衡量机器人能力优劣的焦点输出指标是:
- 不满意度, 衡量标题解决的优劣,
- 转人工率,度量能帮人工处置惩罚多少标题。
而在人工辅助方面,我们提供了话术推荐和会话摘要等能力,焦点指标是ATT和ACW的降低,ATT是人工和用户的平均沟通时长,ACW是人工沟通后的其它处置惩罚时长。
一个智能机器人多轮对话客服案例
什么是智能机器人多轮对话?
智能机器人的多轮对话是指机器人与用户之间进行一连交流,通过多个对话轮次来完成一个或多个任务或目的。
在多轮对话中,机器人需要能够理解用户的意图、答复用户的标题、提供相干信息,并根据对话的上下文进行适当的回应和行动。
多轮对话通常涉及以下几个关键方面:
- 意图识别和理解: 机器人需要能够识别用户的意图,理解用户的提问或请求,并据此采取相应的行动。这可能涉及天然语言处置惩罚(NLP)和天然语言理解(NLU)技能。
- 上下文管理: 在多轮对话中,机器人需要能够维护对话的上下文,以便理解用户的意图和答复标题。上下文管理可以包罗跟踪先前的对话历史、影象用户提供的信息和状态等。
- 信息检索和知识库查询: 机器人可能需要访问信息库或知识库,以获取与用户查询相干的信息。这可能涉及到信息检索和知识图谱等技能。
- 答复和反馈生成: 机器人需要能够生整天然、流畅的答复,以回应用户的提问或请求。这可能涉及到天然语言生成(NLG)技能。
- 对话流程管理: 机器人需要能够管理对话的流程,引导用户完成任务或目的。这可能涉及到对话管理和对话策略设计。
通过智能机器人能够实现更加智能和人性化的多轮对话,从而提供更加个性化和高效的服务。
机器人多轮对话,用户跟机器人沟通, 机器人的能力主要包罗:
下面,是一个真实的多轮对话的例子。
当用户进入到服务门户后,机器人起首进行标题的推荐:
先选择了一个推荐的标题“如何联系骑手”, 在下面的消息框中,“如何联系骑手” 的标题就会发送到后端, 机器人给出了联系方式致电骑手。
同时为了进一步厘清场景,机器人进行标题的推荐:
这两个标题,主要用于 询问用户是否收到了餐品,用户可以进行下一轮的选择。
当用户选择“还没有收到”的时间,联合预计送达时间和当前时间,机器人再一次进行标题的推荐:
发现还未超时,给出的方案是“好的,帮用户催一下”,或者是“我再等等吧”,
这时间,假设用户选择了“我再等等吧”。
机器人再做末了一次进行对话的推荐。
智能机器人能力1: 标题推荐
机器人多轮对话,用户跟机器人沟通, 机器人的能力主要包罗:
如前面多轮对话的例子所示,当用户进入服务门户后,机器人起首是要如何引导用户精准地表达需求,如许即可降低用户迷失或者直接转人工服务,也降低了若机器人不能正确理解时带来的多轮澄清等无效交互。
该标题是一个标准的曝光点击标题,它的本质是推荐标题。
我们采用了CTR预估任务经典的FM模型来作为基础模型,同时联合业务目的,期望用户点击的标题的解决方案能够解决用户标题,该标题最终定义为“曝光、点击、解决”标题。
CTR(点击率)预估模型是用于预测用户对广告、推荐内容等点击的概率的模型。在在线广告、推荐体系等领域,CTR预估是一项重要的任务,它能够资助体系根据用户的历史行为和属性,预测用户是否会点击某个广告或推荐内容,从而优化广告投放或内容推荐策略,进步点击率和用户体验。
CTR预估模型通常基于大量的用户行为数据和广告/内容属性数据进行训练,其中包罗用户的历史点击数据、浏览行为、搜索记录等,以及广告或内容的特征信息,如广告的位置、展示次数、内容关键词等。这些数据被用来构建模型的特征,以便模型能够学习到用户行为和广告/内容之间的关联。
常见的CTR预估模型包罗但不限于:
- 逻辑回归模型(LR):LR模型是一种经典的二分类模型,常用于CTR预估任务。它通过线性加权的方式对各个特征进行组合,然后通过sigmoid函数将效果映射到0到1之间,表示点击的概率。
- 因子分解机模型(FM):FM模型通过建模特征之间的交互关系来进行预测,具有较好的性能和可表明性。它通过对特征的交织项进行因子分解来建模特征之间的交互关系,从而降低了模型的复杂度和参数量。
- 深度学习模型:比年来,随着深度学习技能的发展,越来越多的深度学习模型被应用于CTR预估任务,如多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。这些模型能够自动地学习到数据中的复杂特征和模式,从而进步了预测的正确性。
CTR预估模型的选择通常取决于详细的场景和需求,需要综合思量模型的性能、效果、可表明性等因素,并根据实际情况进行调优和选择。
一个典范的推荐体系架构如下图所示:
一样平常会划分为召回和排序两层。
- 召回负责从百万级物品中粗选出千级数量物品,常用算法有协同过滤、用户画像等,有时间也叫粗排层;
- 排序负责对召回层召回的千级物品进行精细排序,也叫精排层;
CTR,Click-Through-Rate,也就是点击率预估,指的是精排层的排序。所以 CTR 模型的候选排序集一样平常是千级数量。
CTR 模型的输入(即训练数据)是:大量成对的 **(features, label) **数据。
何为 features?可以分为如下四类:
- 用户本身特征,例如用户的年龄、性别等;
- 用户行为特征,例如点击过的物品、购买过的商品等;
- 上下文特征,例如用户登录装备(IOS or Android)、当前时间等;
- 待排序物品特征,例如物品 ID、物品被点击次数、物品的点击率等;
可以看到,上面所有的 features 都是我们能够收集到的信息,其中有离散型特征(如物品 ID),也有一连型特征(如点击率)。
但是,计算机只能处置惩罚数字编码,所以需要对 features 进行编码。常用的编码手段有:
- 离散型特征使用 one-hot 或embedding;
- 一连型特征可以不处置惩罚,也可以分段离散化,再使用 one-hot 编码;
关于 one-hot 和 embedding,这里简朴介绍一下。One-hot 编码和 Embedding 是常用于表示分类数据的两种方法。
- One-hot 编码:
- 概念:将分类变量表示为一个由 0 和 1 组成的向量,其中每个维度代表一个可能的取值,只有对应分类的维度为 1,其他维度为 0。
- 优点:简朴直观,易于理解和实现;实用于分类变量取值较少的情况。
- 缺点:维度灾难,当分类变量的取值较多时,导致生成的向量维度过高,占用内存空间大。
- Embedding:
- 概念:通过将每个分类变量映射到一个低维的一连向量空间中,实现对分类变量的表示。这些向量通常在模型训练过程中学习得到,每个维度代表一个特征。
- 优点:能够更好地捕捉分类变量之间的相似性和关联性;能够处置惩罚高基数分类变量,降低维度灾难标题。
- 缺点:需要大量的训练数据来学习嵌入向量;可能需要调节向量维度和嵌入表巨细等超参数。
选择使用 One-hot 编码照旧 Embedding 取决于数据的特点、模型的需求以及实际情况。
- 一样平常来说,如果分类变量的基数较低且取值希奇,可以思量使用 One-hot 编码;
- 如果分类变量的基数较高且取值稠密,或者希望通过模型学习到变量之间的关联性,可以思量使用 Embedding。
再看 CTR(点击率)预估模型 里边的 FM模型:
FM模型是一种经典的CTR(点击率)预估模型,用于预测用户对物品的点击率。FM模型通过建模特征之间的交互关系来进行预测,具有较好的性能和可表明性。
FM模型的全称是Factorization Machines(因子分解机),其焦点思想是将特征的高维交互关系通过低维的因子分解来表示,以降低模型的复杂度和参数量。FM模型主要包罗两部分:一阶特征和二阶交织特征。
- 一阶特征:一阶特征指的是每个特征的单独作用,即特征本身的权重。在FM模型中,一阶特征由线性模型表示,对每个特征分配一个权重,用于衡量该特征对预测效果的贡献程度。
- 二阶交织特征:二阶交织特征表示特征之间的交互关系,即特征对之间的组合效应。FM模型通过对特征的交织项进行因子分解来建模特征之间的交互关系,这种因子分解的方式可以淘汰参数量,进步模型的泛化能力。
FM模型通过将一阶特征和二阶交织特征相加得到最终的预测效果,其中二阶交织特征的计算通过特征的隐向量表示进行。FM模型相比于传统的线性模型,能够更好地捕捉特征之间的高阶交互关系,从而进步了预测的正确性。
CTR(点击率)预估模型和FM(Factorization Machine)模型的关系,二者是点击率预估领域常用的两种模型,它们之间存在密切的关系:
- FM 模型:
- FM 模型是一种经典的用于处置惩罚希奇特征的模型,它能够有效地捕捉特征之间的交织关系。
- FM 模型通过学习特征的隐向量表示,以及特征之间的交织项来建模特征之间的关联性。
- FM 模型的优点在于参数规模较小、计算服从高,尤其实用于处置惩罚高维希奇特征。
- CTR 预估模型:
- CTR 预估模型是用于预测用户对广告、推荐内容等点击行为的模型,通常用于在线广告投放、推荐体系等场景。
- CTR 预估模型的目的是根据用户的历史行为和特征信息,预测用户对当前内容的点击概率。
- CTR 预估模型通常会使用多种模型来进行预测,其中包罗 FM 模型、LR(逻辑回归)模型、DNN(深度神经网络)模型等。
关系:
- FM 模型可以作为 CTR 预估模型中的一个组成部分,用于处置惩罚特征之间的交织关系。
- 在 CTR 预估任务中,FM 模型通常会和其他模型联合使用,例如将 FM 模型的输出作为其他模型的输入,以进步整体预测性能。
- 由于 FM 模型具有参数规模小、计算服从高等优点,因此在 CTR 预估任务中得到了广泛的应用,成为了该领域的经典模型之一。
在CTR预估任务中,FM模型被广泛应用于点击率预测、广告推荐等场景,通过对用户行为和物品属性的建模,实现了对用户行为的精准预测,从而进步了广告点击率和推荐效果。
最终的美团的智能机器人标题推荐 的模型是联合多目的学习的ESSM-FM模型,对有效交互的转化率、转人工率和不满意度等指标上都带来了提拔。
什么是 ESSM-FM 模型?
ESSM-FM(Enhanced Semantic Matching and Feature Fusion Model)是一种用于推荐体系的模型,联合了语义匹配和特征融合的方法。该模型旨在进步推荐体系中用户与物品之间的匹配正确度,从而进步推荐的效果。
ESSM-FM模型主要包含两个组成部分:语义匹配模块和特征融合模块。
- 语义匹配模块:该模块通过对用户和物品的语义信息进行建模,实现了更深层次的语义匹配。这通常涉及到使用词嵌入(Word Embedding)技能来表示用户和物品的文本信息,并通过神经网络模型来学习用户和物品之间的语义关系。
- 特征融合模块:该模块将语义匹配模块中得到的语义特征与传统的特征进行融合,以进步模型的综合表现。这些传统特征可以包罗用户的行为历史、物品的属性信息等。特征融合通常采用一些融合策略,比如加权平均或者拼接等,将差别泉源的特征整合到一个同一的特征向量中。
ESSM-FM模型在推荐体系中的应用可以有效地提拔推荐的正确性和覆盖度,尤其是在处置惩罚复杂的用户行为和物品属性时具有一定的优势。该模型的联合了语义匹配和特征融合的思想,使得推荐体系能够更好地理解用户和物品之间的关系,从而提供更精准的推荐效果。
那么,ESSM-FM 模型 与 FM模型的关系是什么呢?
大致如下:
ESSM-FM 模型(Entire Space Multi-Task Model with Factorization Machine)是在 FM 模型(Factorization Machine)基础上进行了改进和扩展的一种模型。以下是它们之间的关系:
- 基于 FM 模型的改进:
ESSM-FM 模型是对 FM 模型的改进和扩展,它在 FM 模型的基础上引入了更多的特征交织和任务间的信息共享,以进步模型的性能和泛化能力。
- 特征交织:
FM 模型主要处置惩罚低阶特征交织,即二阶特征组合,而 ESSM-FM 模型引入了更高阶的特征交织,可以处置惩罚更复杂的特征关系。
- 任务间信息共享:
ESSM-FM 模型还引入了多任务学习的思想,可以同时处置惩罚多个相干但差别的任务,通过任务间的信息共享和交互来进步模型的性能。
- 模型结构:
在模型结构上,ESSM-FM 模型通常会包含 FM 模型的部分作为基础模型,并在此基础上添加更多的层和模块,以实现特征交织和任务间信息共享的目的。
总的来说,ESSM-FM 模型可以看作是对 FM 模型的一种扩展和改进,通过引入更多的特征交织和任务间信息共享,进步了模型的表达能力和泛化能力,实用于更复杂的场景和任务。
智能机器人能力 2: 标题理解
这个例子背后的机器人是怎么工作的呢?
起首当用户输入“如何联系骑手”的时间,标题理解模块将它与知识库中的拓展问进行匹配,进而得到对应的标准问即意图“如何联系骑手”。
然后,对话管理模块根据意图“如何联系骑手”触发相应的任务流程,先查询订单接口,获取骑手电话号码,进而输出对话状态给到答案生成模块,根据模板生成最终效果,如右边的红框内容所示。
在这个过程中涉及到要先故意图体系、定义好Task流程,以及订单的查询接口,这些都是业务强相干的,主要由各业务的运营团队来维护。
那么,对话体系要做的是什么呢?
一是将用户的输入与意图体系中的标准问进行匹配,
二是完成多轮交互里面的调度。
标题理解是将用户标题与意图体系进行匹配,匹配到的拓展问所对应的标准问即用户意图。
标题理解的工作过程实际是要做召回和精排两件事情。
- 召回 用现有检索引擎实现,
- 精排 对召回的千级物品进行精细排。
美团自研的智能客服体系是从2018年开始搭建的,在建立的过程中,我们不绝地将业界最先进的技能引入到我们的体系中来,同时根据美团业务的特点,以及标题理解这个任务的特点,对这些技能进行适配。
2018年之前,标题理解使用了DSSM 双塔模型。
这里的标题理解 和 搜索引擎和搜索广告类似,主要照旧涉及在两个方面:召回和排序。
- 召回负责从百万级物品中粗选出千级数量物品,常用算法有协同过滤、用户画像等,有时间也叫粗排层;
- 排序负责对召回层召回的千级物品进行精细排序,也叫精排层;
DSSM 双塔模型,Deep Structured Semantic Model 由微软研究院提出,利用深度神经网络将文本表示为低维度的向量,应用于文本相似度匹配场景下的一个算法。因为效果不错并且对工业界十分友好,被各大厂广泛应用在推荐领域。
2018年年底,标题理解从DSSM 双塔模型升级到 BERT 模型。
当2018年底BERT(拜见《美团BERT的探索和实践》一文)出现的时间,我们很快全量使用BERT替换原来的DSSM模型。
后面,又根据美团客服对话的特点,我们将BERT进行了二次训练及在线学习改造,同时为了避免业务之间的干扰,以及通过增加知识区分性降低噪音的干扰,我们还做了多任务学习(各业务在上层为独立任务)以及多域学习(Query与拓展问匹配,改为与拓展问、标准问和答案的整体匹配),最终我们的模型为Online Learning based Multi-task Multi-Field RoBERTa。
经过如许一系列技能迭代,我们的识别正确率也从最初不到80%到如今接近90%的水平。
智能机器人能力3: Task流程设计
理解了用户意图后, 就对应到了一系列的标准问, 如下图:
每一个标准问,都对应一个task流程,是跟业务强相干的,需要由业务的运营团队来进行定义。
如右边任务流程树所示,我们起首提供了可视化的TaskFlow编辑工具,并且把外呼、舆图以及API等都组件化,然后业务运营职员可以通过拖拽的方式来完成Task流程设计。
对话引擎在与用户的真实交互中,要完成Task内各步调的匹配调度。
比如这个例子里用户如果不是点选”可以但影响就餐了…”这条,而是本身输入说“还行,我要部分退款”,怎么办?
这个意图也没有提前定义,这就需要对话引擎支持Task内各步调的含糊匹配。
我们基于Bayes Network搭建的TaskFlow Engine恰恰能支持规则和概率的联合,这里的含糊匹配算法复用了标题理解模型的语义匹配能力。
这是别的一个例子,在用户问完“会员可否退订”后,机器人回复的是“无法退回”,固然答复了这个标题,但这个时间用户很容易不满意,转而去探求人工服务。
如果这个时间我们除了给出答案外,还去厘清标题背后的真实原因,引导询问用户是“外卖红包无法使用”或者是“因换绑手机导致的标题”,基于顺承关系建模,用户大概率是这些情况,用户很有可能会选择,从而会话可以进一步进行,并给出更加精细的解决方案,也淘汰了用户直接转人工服务的行为。
这个引导任务称为多轮话题引导,详细做法是对会话日志中的变乱共现关系以及顺承关系进行建模。
如右边图所示,这里本来是要建模句子级之间的引导,思量到句子希奇性,我们是将其抽象到变乱之间的引导,共现关系我们用的是经典的协同过滤方式建模。
别的,思量到变乱之间的方向性,我们对变乱之间的顺承关系进行建模,公式如下:
并通过多目的学习,同时思量点击指标和任务指标,如在非转人工客服数据和非不满意数据上分别建模顺承关系,公式如下:
最终,我们在点击率、不满意度、转人工率层面,都取得了非常正向的收益。
美团平台涵盖吃、住、行、游、购、娱等200多个生活服务品类,当用户是从美团App或点评App等综合服务门户入口进入服务时,需要先行确定用户要咨询的是哪个业务,这里的一个任务是“判断用户Query是属于哪个业务”,该任务我们叫做领域识别。
- 若能明确判断领域时,则直接用该领域知识来解答;
- 当不能明确判断时,则还需要多轮对话交互与用户进行澄清。
比如用户输入“我要退款”,在多个业务里都存在退款意图,这个时间就需要我们先判断是哪个业务的退款意图,如果判断置信度不高,则给出业务列表让用户自行选择来进行澄清。
领域识别模型主要是对三类数据建模:各领域知识库的有标数据、各领域大量弱监督无标数据和个性化数据。
- 依据从各领域知识库的有标数据中学习得到的标题理解模型信号,可以判断用户输入属于各业务各意图的可能性。
- 我们留意到除了美团App、点评App等综合服务入口涉及多个业务外,还有大量能够明确业务的入口,比如说订单入口,从商品详情页进来的入口,这些入口进来的对话数据是有明确业务标签信息的。因此,我们可以得到大量的弱监督的各业务领域的数据,基于这些数据我们可以训练一个一级分类模型。
- 同时,有些标题是需要联实用户订单状态等个性化数据才气进一步明确的。比如“我要退款”,多个业务里都会有。因此,又要联实用户状态特征一起来训练一个二级模型,最终来判断用户的输入属于哪个业务。
最终,该二级领域识别模型在满意度、转人工率以及成功转接率指标上都取得了非常不错的收益。
智能机器人能力4: 答案供给
售后客服场景通常标题较集中,且标题的解决多依赖业务内部体系数据及规则,通常是业务部门维护知识库,包罗意图体系、Task流程和答案等。
但在售前场景,知识多来自于商户或商品本身、用户体验及评价信息等,具有用户标题开放、知识密度高、人工难以整理答案等特点。
比如去哪个城市哪个景点游玩,附近有哪些酒店,酒店是否有浴缸,酒店地址在哪里等,都需要咨询”决策”,针对这些诉求,我们通过智能问答来解决咨询以及答案供给标题。
智能问答就是从美团数据中习得答案供给,来快速答复用户的标题,基于差别的数据源,我们建立了差别的问答技能。
- 针对商家基础信息,比如问业务时间、地址、价格等,我们通过图谱问答(KBQA)来解决。利用商家基础信息构建图谱,通干涉题理解模型来理解标题,进而查询图谱获取正确的答案。
- 针对社区数据,即商户详情页中“问各人”模块的用户问用户答的社区数据,构建社区问答(Community QA)能力,通过对用户标题与问各人中的”问答对”的相似度建模,选择相似度最高的作为答案,来答复用户的一些开放性标题。
- 针对UGC评论数据以及商户政策等无结构化数据,构建文档问答(Document QA)能力,针对用户标题利用机器阅读理解技能从文档中抽取答案,类似我们小时间语文测验中的阅读理解题,进一步答复用户的一些开放性标题。
末了,针对多个问答模块给出的答案,进行多答案泉源的答案融合排序,来挑选最终的答案,此外这里还观察了答案真实性,即对“信任多数认为正确的则正确”建模。
这部分的详细介绍各人可以参考《美团智能问答技能探索与实践》一文。
智能机器人能力5: 话术推荐
在客服座席职场调研过程中发现,座席在与用户的对话谈天中经常回复相似甚至相同的话术,他们同等期望提供话术推荐的能力来进步服从。
此外,建议与商家直接沟通,下用户与商家直接沟通会使得解决标题更高效,而沟通服从不仅影响到消耗者的体验,也影响到了商家的策划。
总之,无论是客服座席照旧商家,都有很强的话术推荐诉求。
那么,话术推荐详细要怎么做呢?常见的做法:
- 先准备好常用通用话术库,
- 部分座席或商家也会准备个人常见话术库,
- 然后体系根据用户的Query及上下文来检索最合适的话术来推荐。
我们根据调查发现,这部分知识库维护得很不好,既有业务知识变动频仍导致已维护的知识很快不可用因素,也有座席或商家本身意愿不强的因素等。
别的,针对新客服座席或者新商家,可用的经验更少。因此我们采用了自动影象每个座席及其同技能组的历史谈天话术,商家及其同品类商家的历史谈天话术,根据当前输入及上下文,预测接下来可能的回复话术,无需人工进行整理,大大提拔了服从。
我们将历史谈天记录构建成“N+1”QA问答对的形式建模,前N句看作标题Q,后1句作为回复话术A,整个框架就可以转化成检索式的问答模型。
在召回阶段,除了文本信息召回外,我们还参加了上文多轮槽位标签,Topic标签等召回优化,排序为基于BERT的模型,参加脚色信息建模,脚色为用户、商家或者座席。
整个架构如上图所示,分为离线和在线两部分。别的上线后我们也参加了一层CTR预估模型来提拔采纳率。
当前多个业务的话术推荐平均采纳率在24%左右,覆盖率在85%左右。话术推荐特别是对新座席员工代价更大,新员工通常难以构造话术,通过采纳推荐的话术可以来缩减熟练周期,观测发现,3个月内座席员工的平均采纳率是3个月以上座席员工的3倍。
美团智能客服的对话平台“摩西”
构建一个怎么样的对话平台,才气提供期望的没有NLP能力的团队也能拥有很好的对话机器人呢?
起首是把对话能力工具化和流程化。如下图所示,体系可分为四层:应用场景层、解决方案层、对话能力层、平台功能层。
- 应用场景层:在售前应用场景,一类需求是商家助手,如图中所列的美团闪购IM助手和到综IM助手,需要辅助商家输入和机器人部分接受高频标题能力;还有一类需求是在没有商家IM的场景需要智能问答来弥补咨询空缺,比如图中所列的酒店问一问和景点问答搜索;别的售中、售后以及企业办公场景,各自需求也不尽相同。
- 解决方案层:这就要求我们有几套解决方案,大概可以分为智能机器人、智能问答、商家辅助、座席辅助等。每个解决方案的对话能力要求也有所差别,这些解决方案是需要很方便地对基础对话能力进行组装,对使用方是透明的,可以拿来即用。
- 对话能力层:前面也进行了相应的介绍,六大焦点能力包罗标题推荐、标题理解、对话管理、答案供给、话术推荐和会话摘要。
- 平台功能层:此外,我们需要提供配套的运营能力,提供给业务方的运营职员来日常维护知识库、数据分析等等。
其次,提供“一揽子”的解决方案,还需要针对处在差别阶段的业务提供差别阶段的解决方案。
- 有些业务只希望维护好常用的问答,能答复高频的标题就好,那么他们只需要维护一个入门级的机器人,只需要在意图管理模块来维护它的意图,意图的常见说法以及答案就可以了。
- 而对于有运营资源的团队,他们希望不绝地去丰富知识库来提拔问答能力,这个时间可以使用知识发现模块,可以自动地从每天的日志里面发现新意图及意图的新说法,运营职员只需要每天花一点时间来确认添加及维护答案即可,这是一个进阶的业务方。
- 还有一些高级的业务方希望调用他们业务中的API来完成复杂标题的求解。这个时间他们可以使用TaskFlow编辑引擎,在平台上直接注册业务的API,通过可视化拖拽的方式来完成Task编辑。
此外, 为了进一步方便更多的业务介入,我们也提供了一些闲聊、通用指令、地区查询等官方技能包,业务方可以直接勾选使用。别的,随着我们不绝在业务中沉淀,也会有越来越多的官方行业技能包。整体方向上是逐步让业务方使用的门槛变得越来越低。
参考文献
https://tech.meituan.com/2021/09/30/artificial-intelligence-customer-service.html
https://blog.csdn.net/bilibili_TC/article/details/135608021
https://www.jianshu.com/p/fd4ed6eeb6f2
https://mp.weixin.qq.com/s/Ic0hJ_fIstsCkEg5p5-xeQ
https://www.pinecone.io/learn/series/faiss/vector-indexes/https://towardsdatascience.com/similarity-metrics-in-nlp-acc0777e234c
https://www.pinecone.io/learn/series/faiss/faiss-tutorial/
https://www.pinecone.io/learn/series/faiss/vector-indexes/
https://towardsdatascience.com/similarity-metrics-in-nlp-acc0777e234c
https://www.pinecone.io/learn/series/faiss/faiss-tutorial/
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |