谷歌强大声音识别系统核心算法 UIS-RNN

码农软件 · 软件分类 · 神经网络/人工智能 · 2019-10-14 08:44:12

软件介绍

Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音。这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。


其核心算法已经开源可用。它实现了一个在线二值化错误率(DER),在 NIST SRE 2000 CALLHOME 基准上是 7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法 DER 为 8.8%。

UIS-RNN 是无界交错状态递归神经网络(Unbounded Interleaved-State Recurrent Neural Network)算法的库。 UIS-RNN 通过学习示例解决了分段和聚类顺序数据的问题。

由于对某些内部库的依赖性,这个开源实现与在论文中用于生成结果的内部实现略有不同。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示,递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的 RNN 实例开始,该实例不断更新给定新嵌入的 RNN 状态,使系统能够学习发言者共享的高级知识。

本文地址:https://codercto.com/soft/d/16719.html

像计算机科学家一样思考Python (第2版)

像计算机科学家一样思考Python (第2版)

[美] 艾伦 B. 唐尼 / 赵普明 / 人民邮电出版社 / 2016-7 / 49.00

本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程。贯穿全书的主体是如何思考、设计、开发的方法,而具体的编程语言,只是提供了一个具体场景方便介绍的媒介。 全书共21章,详细介绍Python语言编程的方方面面。本书从基本的编程概念开始讲起,包括语言的语法和语义,而且每个编程概念都有清晰的定义,引领读者循序渐进地学习变量、表达式、语句、函数和数据结构。书中还探讨了如何处理文件和......一起来看看 《像计算机科学家一样思考Python (第2版)》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具