我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:刘伯温论坛 > 发散束卷积法 >

输入法界再起风云 讯飞输入法Hybrid CNN加持语音识别免切换

归档日期:06-29       文本归类:发散束卷积法      文章编辑:爱尚语录

  目前语音识别的发展中,DNN、RNN/LSTM和CNN是几个比较主流的技术方向。随着CNN在图像领域的发光发热,出现VGGNet、GoogleNet、ResNet等应用,为CNN在语音识别应用提供了更多思路,比如利用卷积的不变性来克服语音信号本身的多样性。日前,业界知名的讯飞输入法基于Attention模型的核心思想,通过机器学习方法,构建了Hybrid CNN模型用于语音识别,带来了极大地应用价值。

  500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/

  讯飞输入法每年的模型算法都在不断升级,据悉此次在DFCNN基础上,将传统卷积使用扩张卷积(Dilated conv)代替,让每个卷积输出都包含更大范围的信息,使得模型不使用池化层(pooling)也可以看到很长的语音段信息,从而实现对语音长时相关性的更精确的表达。与此同时,还引入了基于长短期记忆网络(Long Short-Term Memory,LSTM)的门控机制(Gated Mechanism,GM),使得Hybrid CNN在长时相关性建模的过程中,能快速的过滤噪声等干扰信息,并加强语境等长时信息,进一步提升模型灵活性。得益于Hybrid CNN模型仿照人类视觉机制,借鉴人类大脑处理的一些优势,可谓效果更好、资源占用更小、模型更灵活的新一代语音识别系统。

  通过技术革新对数据进行详细建模,是促进语音识别更精准、更高效的重要方面。Hybrid CNN模型真正实现了端到端的建模,此前的建模方案如CTC等在输出端已经可以做到直接输出中文汉字,取得了一定的效果提升,但是在输入端仍然采用人工设计的特征,这些特征在语速很快等特殊场景下就会损失信息。讯飞输入法以原始音频波形(Raw-wave)直接建模,避免了人工设计的特征提取过程带来的信息损失,真正的实现了端到端建模,进一步的提升了识别效果。

  基于上述创新,使得Hybrid CNN这种全新的语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题。在保证识别效果不损失的情况下,系统资源占用规模和运算量同比下降了60%以上,使得Hybrid CNN可以在智能手机等移动设备上流畅运行,这也使得本地化语音的识别效果更加接近云端识别效果。

  下载使用讯飞输入法(Android或iOS客户端)不仅能够准确识别用户所说的普通话,而且支持中英混合语音输入,同时优化了普通话与七种方言口音(东北话、天津话、河南话、皖北话、山东话、河北话、四川话)的混合语音输入效果,进一步增强语音用户的输入体验。

  500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/>

  500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/在复杂对话场景下,语音输入随心说能大大减少用户手动切换语音识别模式的操作,畅快使用普通话、英文、方言任意一种或中英混合、普通话与方言混合输入,有效提高语音用户日常的便捷性。

本文链接:http://19721112.com/fasanshujuanjifa/545.html