内容简介:据 VentureBeat 报道,Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音,准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中...
据 VentureBeat 报道,Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音,准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统,称它“能以一种更有效的方式识别声音”。
这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

其核心算法已经开源可用。它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。
谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”
在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speaker diarization系统就可以进行端到端训练。
来自:网易科技
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 谷歌开源语音识别AI技术,可以从人群中区分每个人的发言
- 提高模型准确率:组合模型
- 微博爬虫与水军识别(基于文本分析),超高准确率
- 谷歌设备内置文本分类 AI准确率更精准
- 学会这招,你也可以让商品定价准确率提升 50%
- 亚马逊新系统 Alexa的话题识别准确率提升
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数据结构与算法JavaScript描述
[美] Michael McMillan / 王群锋、杜 欢 / 人民邮电出版社 / 2014-8 / 49.00元
通过本书的学习,读者将能自如地选择最合适的数据结构与算法,并在JavaScript开发中懂得权衡使用。此外,本书也概述了与数据结构与算法相关的JavaScript特性。 本书主要内容如下。 数组和列表:最常用的数据结构。 栈和队列:与列表类似但更复杂的数据结构。 链表:如何通过它们克服数组的不足。 字典:将数据以键-值对的形式存储。 散列:适用于快速查找和检索。......一起来看看 《数据结构与算法JavaScript描述》 这本书的介绍吧!