Interspeech2022论文解读 | CUSIDE:一个流式语音识别新框架,刷新SOTA...
发布网友
发布时间:2024-10-23 10:04
我来回答
共1个回答
热心网友
时间:2024-11-05 19:44
本文介绍清华大学语音处理与机器智能实验室与美团联合开发的CUSIDE框架,此新框架在流式语音识别领域刷新了当前Aishell-1数据集上的最佳结果,被接纳于Interspeech2022国际语音会议。CUSIDE框架由安柯宇、郑华焕、欧智坚、向鸿雨、丁科、万广鲁共同撰写。
流式语音识别在实时性要求较高的应用中尤为重要。传统神经网络结构,如基于自注意力机制的transformer和conformer,常采用整句输入,不适用于低延迟识别需求。CUSIDE框架采用分块策略,将一句话切分为多个块逐块识别,显著降低延迟。
基于块的流式模型通常在每个块上附加历史帧和未来帧以提供上下文信息。然而,获取未来帧信息会导致延迟。CUSIDE框架创新性地使用合成未来帧而非实际未来帧,通过模拟器生成,避免了依赖未来帧。合成器由合成编码器与预测器组成,编码器对输入帧编码,预测器则预测未来帧,两者均以无监督方式训练,无需额外标注信息。
CUSIDE通过块大小抖动、流式与非流式模型参数共享及联合训练等方法,优化流式模型性能,缩小与非流式模型间的差距,进一步提升识别准确率。
实验主要在Aishell-1数据集上进行,声学模型采用12层Conformer神经网络结合CTC-CRF结构,解码采用3gram WFST,块大小设为400ms,历史帧与预测未来帧长度分别为800ms与400ms。CUSIDE与其他流式模型对比结果显示,基于CTC-CRF的CUSIDE模型在低延迟下实现了最佳识别准确率,刷新了Aishell-1流式模型的SOTA记录。
CUSIDE框架不仅适用于CTC-CRF模型,还能简便应用于RNN-T和LAS等其他语音识别模型。开发者近期将在CAT工具包中开源CUSIDE,欢迎关注。
链接:github.com/thu-spmi/CAT