在用户购买了阿里云的产品后,在使用过程中如果遇到问题,可以通过以下方式寻求解决方案,但同时又存在一些痛点: a. 机器人问答:机器人语料覆盖有限。
b. 文档查询:内容过多,查找效率低。
c. 社区问答:集中于高频问题,中长尾问题较少。
d. 提工单:无法实时解答问题。
3、解决方案:漏斗式答疑支撑模型
a. 产品:产品诊断等业务服务。 b. 自主解决:自助查询文档、社区。 c. 智能服务:智能机器人问答,分为用户提问流程和知识补充流程,实现知识前置,多源知识转为机器人语料。 d. 人工协助:转人工对话、工单。
接下来重点介绍在智能服务中,知识前置到智能机器人自助问答,通过QA生成框架快速补充语料。
--
02 QA生成框架
a. 统一协议解析:不同的文档有不同的协议,将诸如Office文档、PDF文档、扫描件、语雀文档等的协议进行统一文档表示。 b. 文档树生成:将文档的结构比如一、二、三标题等生成树状结构,将文档的内容梳理成知识点的树状汇总。 c. 知识点抽取:基于自适应划分或知识点打分,将知识树拆解成具体的知识点。
下图是HTML文档拆解和PDF文档拆解的举例:
3、AliceMind
AliceMind是领先性和系统化的深度语言模型体系,本文将重点介绍AliceMind中的生成式语言模型(PALM)如何生成QA。 a. AliceMind的业务价值和应用领域举例
QA生成中的Learning to Ask模块是基于预训练生成模型PALM为底座;
PALM模型基于Encoder-Decoder框架在大规模语料上结合Autoencoding & Autoregressive无监督训练方式得到。
QA生成
基于PALM模型在中文问答语料DuReader数据上训练,得到通用Learning to Ask模型;
具体流程图如上图下半部分所示,结合文档拆解工具获取answer和Learning to Ask生成问题得到QA对。
更多阅读:
PALM: Pre-training an Autoencoding & Autoregressive Language Model for Context-conditioned Generation.
BinBi, Chenliang Li, Chen Wu, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, and Luo Si. EMNLP 2020
4、文档转化成QA举例