数据是“养成”一个语音识别系统的粮食。因此,一个识别系统要想健康成长,必须给他优质的数据作为食粮,保证营养供应。那么,什么才是优质数据呢?
早期,科学家们认为优质的数据是发音清晰的,且受噪音干扰少的数据。典型的如TIMIT数据库,中文863数据库,清华THCHS30数据库都是依这样的原则设计的。这些数据库通常体量不大,因此发音文本要仔细设计,以满足发音单元的覆盖度。这些清晰的、低噪音的数据资源对语音学研究起到了巨大推动作用,让科学家们可以对语音信号的特性进行深入研究,如共振峰分布、音调模式等。
后来,研究者意识到过度要求发音质量,反而可能会使识别系统过于“娇贵”,难以适应现实场景。因此,发音人未必需要播音员标准,只需吐字正常即可;录音场景也不用刻意保持安静,不要过度嘈杂就可以。与其花精力控制录音质量,不如努力增加录音的数量,通过更多说话人,更多场景的采集,提高数据对真实场景的覆盖度。当前广泛应用的数据集,包括WSJ、Switchboard以及Data Magic 、AIShell等数据公司推出的免费数据,都属于此列。这些数据规模大,场景覆盖全面,可以用来构造很好的语音识别系统。对这类数据而言,较为重要的是保证发音与文本标注的一致性,一般需达到95%以上。因此,这一时期我们认为优质的数据是标注准确的、发音人和场景覆盖广泛的、且具有足够规模的数据。
近年来,人们更加关注技术落地,希望识别系统可以处理更复杂的场景,如发音人口音差异、环境变化、情绪波动等。为了满足这一需求,最好的方法是通过在线平台,让更多人自主提供数据,而不是刻意组织录音。一种方式是通过后台收集用户语音数据进行标注。这种方式目标针对性强,对特定任务的性能提升贡献最大。然而,这些数据多涉及版权问题,控制极为严格。另一种方式是鼓励志愿者主动上传数据,供研究者使用。具有代表性的是LibriVox项目,他允许任何人上传阅读书籍的录音,目前已经有11,685人阅读了15,958部作品,覆盖46种语言。著名的LibriSpeech数据库即是从LibriVox项目收集到的语音数据整理而来。不论哪种收集方式,这类数据都可能存在各种问题,需要非常细致的检查和标注。数据是免费的,但标注的成本更高。不论如何,目前来看,这种数据是语音识别系统最喜欢的粮食了。
总结起来,以一个“现代人”的眼光来看,语音识别系统所需要的优质数据,是那种从应用场景中直接采集的、发音人和发音环境没有限制的、规模足够庞大的、标注准确率超过95%的数据。对于绝大多数应用来说,完全符合这一要求的数据很难获得,因此一般会采用折中方案:首先选择一些开源数据,解决生存问题;其次从数据公司购买部分场景相关数据,解决饥饿问题;最后,在获得用户授权的前提下,采集和标注若干实地场景数据,让系统真正成长起来。
By:清华大学 王东