谷歌强大声音识别系统核心算法 UIS-RNN

码农软件 · 软件分类 · 神经网络/人工智能 · 2019-10-14 08:44:12

软件介绍

Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音。这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。


其核心算法已经开源可用。它实现了一个在线二值化错误率(DER),在 NIST SRE 2000 CALLHOME 基准上是 7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法 DER 为 8.8%。

UIS-RNN 是无界交错状态递归神经网络(Unbounded Interleaved-State Recurrent Neural Network)算法的库。 UIS-RNN 通过学习示例解决了分段和聚类顺序数据的问题。

由于对某些内部库的依赖性,这个开源实现与在论文中用于生成结果的内部实现略有不同。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示,递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的 RNN 实例开始,该实例不断更新给定新嵌入的 RNN 状态,使系统能够学习发言者共享的高级知识。

本文地址:https://codercto.com/soft/d/16719.html

Remote

Remote

Jason Fried、David Heinemeier Hansson / Crown Business / 2013-10-29 / CAD 26.95

The “work from home” phenomenon is thoroughly explored in this illuminating new book from bestselling 37signals founders Fried and Hansson, who point to the surging trend of employees working from hom......一起来看看 《Remote》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

URL 编码/解码
URL 编码/解码

URL 编码/解码

MD5 加密
MD5 加密

MD5 加密工具