出门问问Mobvoi AI Lab：三篇论文入选ICASSP 2019

栏目: 数据库 · 发布时间: 6年前

出门问问是一家以语音交互和软硬结合为核心的人工智能公司。2012年创立后，出门问问始终以定义下一代人机交互方式为使命，坚持做AI应用的探索，希望用“AI唤醒生活”，让每一个人都能够感受到，以语音交互为代表的AI科技可以给每个人带来的美好与便利。

技术方面，出门问问拥有全套自主研发的智能语音交互八大关键核心技术，掌握600多项技术专利。从1.前端声音信号处理，到2.热词唤醒，到3.语音识别，到4.自然语言理解和5.对话管理，到6.垂直智能搜索和7.推送，到8.语音合成，在这一整套“听到-识别-处理-输出”的人机交互过程中，出门问问可以自主提供所有技术，为需要语音交互的场景提供一整套端到端人机交互解决方案。

出门问问始终坚持产学研高度一体化，在语音交互技术上一直深入探索，由IEEE院士（IEEE Fellow）黄美玉博士领导的出门问问Mobvoi AI Lab，在此次ICASSP 2019提交的论文概述如下。

一、信任正则化的知识蒸馏在递归神经网络语言模型上的应用

论文标题：Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization

作者：Yangyang Shi， Mei-Yuh Hwang， Xin Lei，Haoyu Sheng

简介：基于递归神经网络的语言模型较于传统的n-gram语言模型，有显著的性能提升，已经成为语言模型的主流模型，在很多云端应用中得到广泛的青睐。然而递归神经网络语言模型在实际应用中需要占据大量的内存容量以及计算资源。在很多移动终端，由于有限的内存以及功耗，极大的限制了递归神经网络语言模型的应用。最近知识蒸馏的方法被用于压缩递归神经网络语言模型并减少它在终端装置上的计算量。这一篇文章也同样采用了知识蒸馏的方法，并用信任正则化的方法对知识蒸馏方法做出了改进。文章的实验表明这种信任正则化的知识蒸馏方法，可以把 Penn Treebank 数据集的递归神经网络的模型大小降到原有大小的33%，而仍然得到当前学术界最好的结果。在华尔街日报语音识别的任务中，这篇文章的实验表明，信任正则化的知识蒸馏方法可以将递归神经网络语言模型的大小降到原有大小的18.5%，并且仍然保持和原有模型一样的效果。

二、基于高阶LSTM-CTC的端到端语音识别

论文标题：End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model

作者：Yangyang Shi，Mei-Yuh Hwang，Xin Lei

简介：基于LSTM-CTC的端到端语音模型，由于其简单的训练过程以及高效的解码过程，最近在语音识别领域得到广泛的关注和应用。在传统的LSTM-CTC模型中，一个瓶颈投影矩阵将LSTM隐层的输出向量投影到CTC的输入向量。研究表明增强这个瓶颈投影矩阵的阶数可以提高LSTM模型的表达能力。这篇文章提出用一个高阶的投影层替代传统的投影矩阵。高阶投影层以LSTM的隐层的输出向量作为输入，经过一系列的投影矩阵以及非线性函数，这个高阶投影层的输出是一系列向量的线性组合。在高阶投影层中，这些线性组合的权重也是由模型根据训练数据学习得到。文章的实验表明在语音领域普遍采用的WSJ数据集以及Librispeech数据集合上，较于传统的LSTM-CTC的端到端语音模型，高阶的LSTM-CTC模型可以带来3%-10%相对词错误率的下降。

三、使用对抗性样例提升基于注意力机制端到端的神经网络关键字检出模型

论文标题：Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting

作者：Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,Shen Li, Xin Lei

简介：本文提出使用对抗性样例来提升关键字检出（Keyword spotting，KWS）的性能。对抗性样例近年来在深度学习领域是一个研究热点，它是指在原来正确分类的样例上加一个轻微的扰动后即被分类器错误分类的样例。在KWS任务中，将系统误唤醒或误拒绝的错误样例视为对抗性样例非常直观而贴切竞争性样例的概念。在我们的工作中，我们首先建立了一个训练有素的基于注意力机制端到端的KWS模型，然后使用快速梯度符号法（FGSM）生成了对抗性的样例，发现这些样例会显著降低KWS的性能，最后我们利用这些对抗性的样例作为增强数据来一起训练KWS模型。最终在出门问问智能音响上收集的唤醒词数据集上进行了实验。实验结果显示，设定阈值在每小时1.0次误唤醒情况下，提出的方法获得了相对44.7%的误拒绝率的降低。

作为AI语音领头公司，出门问问2018年开始在学术顶会发表重要论文，并在麦克风阵列噪声消减、口语理解、噪声环境下的语音识别、带口音的语音识别中实现重大突破。

未来，出门问问不仅要做人工智能技术的前锋探索者，更要做人工智能应用的奠基人，既保持前端技术的研发能力，同时拥有扎实的落地应用能力，ToC通过AI可穿戴、车载、智能家居消费级智能硬件+ToB通过AI企业服务双轮战略驱动，继续探索，用AI唤醒更多人的生活。

以上所述就是小编给大家介绍的《出门问问Mobvoi AI Lab：三篇论文入选ICASSP 2019》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Java从入门到精通

李钟尉、马文强、陈丹丹 / 清华大学出版社 / 2008-9 / 59.80元

《Java从入门到精通》(软件开发视频大讲堂)从初学者角度出发，通过通俗易懂的语言、丰富多彩的实例，详细介绍了使用Java语言进行程序开发应该掌握的各方面技术。全书共分28章，包括：初识Java，熟悉Eclipse开发工具，Java语言基础，流程控制，字符串，数组，类和对象，包装类，数字处理类，接口、继承与多态，类的高级特性，异常处理，Swing程序设计，集合类，I/O输入输出，反射，枚举类型与泛......一起来看看《Java从入门到精通》这本书的介绍吧!

码农工具

出门问问Mobvoi AI Lab：三篇论文入选ICASSP 2019

Java从入门到精通

CSS 压缩/解压工具

RGB CMYK 转换工具

HEX CMYK 转换工具