标题: 如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Mee [打印本页] 作者: 鼠扑 时间: 2022-8-9 14:43 标题: 如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Mee 前言
「语音处理」是实时互动领域中非常重要的一个场景,在声网发起的「RTC Dev Meetup丨语音处理在实时互动领域的技术实践和应用」活动中,来自微软亚洲研究院、声网、数美科技的技术专家,围绕该话题进行了相关分享。
本文基于数美科技 NLP 技术负责人李田在活动中分享内容整理。
01 半监督训练在 ASR 领域的必要性
通用 ASR 的字准确率虽然已经非常高,但是在面向具体的场景(游戏场景、私聊场景、群聊场景、主播场景)时,还是存在场景不匹配的问题,因为通用的 ASR 在这些领域中的应用相对比较困难,主要存在以下问题。
1、标注资源的稀缺性
对应场景的标注很难获取,通常情况下无法快速获得业务场景需要的大量标注样本。即使样本的获取很简单,但获取标注样本仍是非常困难的事情,因为标注成本非常高。在创建项目或者确定产品方向的时候,会发现涉及领域的 ASR 任务时要先解决数据问题。以前使用音素和文字拆分的时候,数据量要求比较小,而现在常使用端到端的技术,动辄 1000 个小时起步的数据量,不管是自行标注还是借助比较知名的数据公司,在产品还没开始的情况下,其费用都是很难接受的。
2、标注质量的不稳定
在唤醒、Siri 交互等场景中,用户知道后端会进行转录,但大部分业务场景中人对于 ASR 转录是无感知的。
比如在与 Siri 沟通的时候,如果 Siri 没听清楚说话人表达的意思,那么人会进行二次尝试,使表达更加清楚即可。但是真实的业务层面,大部分情况下客户并不知道后端在对其进行 ASR 转录,比如直播平台。其中可能会提供审核层面的需求,此时不可能通知主播声音在被转录,咬字需要更清楚一些。吐字不清晰以及句法成分破碎带来的标注质量是非常不稳定的。
那么在标注的时候怎么解决这些问题呢?对数美业务而言,由于覆盖整个互联网中大量的类似社交场景,面临着各式各样五花八门的数据和特定术语等,因此对这类标注的获取难度非常大,同时标注质量也很难保证,但同源数据又可以轻易获得场景的数据,我们认为半监督方案是一个当仁不让的理想选择。
如果曾经接触过 NLP 或者 CV,相信你对半监督会有比较明确的定义。在 ASR 这个领域,尤其基于端到端,目前一般来说分为两种:Self-training 和 Pre-training,其他不太常见,或者目前来看不能在 ASR 领域获得比较好的落地。
Self-training 体系主要围绕大家熟知的 Pseudo labeling。核心方案主要基于 consistency regularization 逻辑。理论上来说,Pseudo label 其实是 true label 的一种噪音,在模型训练的时候,将 Pseudo label 和 true label 放在一起进行训练,这本身是训练抗噪的过程,可以使模型逐步学习。Pre-training 非常简单。如果做 NLP 出身就会比较了解,原先是在对应领域中训练对应领域更合适的表征。这种任务一般围绕的是表征的意义或者内容的重构,不需要额外的标签,这些数据可以构建无标签/无人工转录文字的 Pre-training 的训练任务,再使用对应场景的有人工转录数据进行 ASR 任务训练。
01 半监督训练在 ASR 领域的发展
1、Self-training
一般来说,Self-training 起始于 CV。从 2013 年的 Pseudo label ICML 第一次提出 Pseudo label 以来,出现了各式各样的新体系,诸如 2014 年 Learning with pseudo-ensembles(第一个体系),将 Pseudo label 与模型 Ensemble 进行融合;2016 年 Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning 认为 Pseudo label 本身的生成逻辑也应该是同一个模型的不同扰动;2017 年 Mean teachers are better role models: Weight-averaged consistency targets 则着重关注如何生成更高质量的标签,其采用模型平均的方式获得更好的 teacher 模型,从而确保伪标签的质量。
早在 2014 年、2016 年的两篇论文中,就已经提及到在 CV 中较火的领域进行对比学习,论文中的公式论证从很多层面上几乎是一样的,可以说技术的发展是历史的轮回。
2、Pre-training