谷歌强大声音识别系统核心算法 UIS-RNN

码农软件 · 软件分类 · 神经网络/人工智能 · 2019-10-14 08:44:12

授权协议: Apache
开发语言: Python
操作系统: 跨平台
软件首页: https://github.com/google/uis-rnn
软件文档: https://github.com/google/uis-rnn/blob/master/README.md
官方下载: https://github.com/google/uis-rnn

软件介绍

Google 人工智能研究部门在语音识别方面取得了新的进展，能从嘈杂的环境中分辨声音。这套强大的 AI 系统涉及到 Speaker diarization 任务，需要标注出“谁”从“什么时候”到“什么时候”在说话，将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

其核心算法已经开源可用。它实现了一个在线二值化错误率(DER)，在 NIST SRE 2000 CALLHOME 基准上是 7.6%，这对于实时应用来说已经足够低了，而谷歌之前使用的方法 DER 为 8.8%。

UIS-RNN 是无界交错状态递归神经网络（Unbounded Interleaved-State Recurrent Neural Network）算法的库。 UIS-RNN 通过学习示例解决了分段和聚类顺序数据的问题。

由于对某些内部库的依赖性，这个开源实现与在论文中用于生成结果的内部实现略有不同。

谷歌研究人员的新方法是通过递归神经网络（RNN）模拟演讲者的嵌入(如词汇和短语的数学表示，递归神经网络是一种机器学习模型，它可以利用内部状态来处理输入序列。每个演讲者都从自己的 RNN 实例开始，该实例不断更新给定新嵌入的 RNN 状态，使系统能够学习发言者共享的高级知识。

本文地址：https://codercto.com/soft/d/16719.html

码农书籍

像计算机科学家一样思考Python (第2版)

[美] 艾伦 B. 唐尼 / 赵普明 / 人民邮电出版社 / 2016-7 / 49.00

本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程。贯穿全书的主体是如何思考、设计、开发的方法，而具体的编程语言，只是提供了一个具体场景方便介绍的媒介。全书共21章，详细介绍Python语言编程的方方面面。本书从基本的编程概念开始讲起，包括语言的语法和语义，而且每个编程概念都有清晰的定义，引领读者循序渐进地学习变量、表达式、语句、函数和数据结构。书中还探讨了如何处理文件和......一起来看看《像计算机科学家一样思考Python (第2版)》这本书的介绍吧!

码农工具

谷歌强大声音识别系统核心算法 UIS-RNN

软件介绍

像计算机科学家一样思考Python (第2版)

图片转BASE64编码

URL 编码/解码

HSV CMYK 转换工具