内容简介:虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。但谷歌的人工智能研究部门在Diarization的高性能模式上
虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。
但谷歌的人工智能研究部门在Diarization的高性能模式上取得了令人鼓舞的进展。在一篇新论文(“ 全监督演讲者Diarization ”)和随附的 博客文章中 ,谷歌研究人员描述了一种新的人工智能(AI)系统,该系统“可以以更有效的方式利用受监督的发言人标签”。
该论文的作者声称核心算法实现了对于实时应用程序而言足够低的在线分类错误率(DER) – 在 NIST SRE 2000 CALLHOME 基准测试中为7.6%,而谷歌之前的方法为8.8%DER – 目前源代码已经在 Github上开源 。
上图:流式音频上的发言人分类,底部轴的不同颜色表示不同的发言人。
图片来源:谷歌
谷歌研究人员的新方法通过递归神经网络(RNN)模拟发言者的嵌入(即,单词和短语的数学表示),RNN是一种机器学习模型,可以使用其内部状态来处理输入序列。每个发言者都以自己的RNN实例开始,该实例在给定新嵌入的情况下不断更新RNN状态,使系统能够学习在发言者和话语之间共享的高级知识。
“由于该系统的所有组件都可以以监督的方式学习,因此在可以获得具有高质量时间标记的扬声器标签训练数据的情况下,优于无监督系统,”研究人员在论文中写道。“我们的系统采用全面监督,并且能够从带有时间标记的发言者标签的示例中学习。”
在未来的工作中,团队计划优化模型,以便它可以集成上下文信息以执行离线解码,他们期望这能进一步降低DER错误率。谷歌团队还准备直接对声学特征进行建模,以便整个发言者diarization系统可以进行端到端的训练。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 谷歌开源 AI 可在嘈杂环境中区分声音,准确率达92%
- 聆听中国开源最强音 | 国内大厂开源项目齐聚 OSCAR 开源先锋日
- 小米 9 开源内核代码,上市即开源
- 开源 | 陌陌风控系统正式开源
- 开源 |《Go 语言高级编程》开源图书
- 开源不只是“喊喊” 看红帽的开源之道
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
深入理解并行编程
[美] Paul E.Mckenney(保罗·E·麦肯尼) / 谢宝友 鲁阳 / 电子工业出版社 / 2017-7-1 / 129
《深入理解并行编程》首先以霍金提出的两个理论物理限制为引子,解释了多核并行计算兴起的原因,并从硬件的角度阐述并行编程的难题。接着,《深入理解并行编程》以常见的计数器为例,探讨其不同的实现方法及适用场景。在这些实现方法中,除了介绍常见的锁以外,《深入理解并行编程》还重点介绍了RCU的使用及其原理,以及实现RCU的基础:内存屏障。最后,《深入理解并行编程》还介绍了并行软件的验证,以及并行实时计算等内容......一起来看看 《深入理解并行编程》 这本书的介绍吧!