谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

栏目: 软件资讯 · 发布时间: 7年前

内容简介:虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。但谷歌的人工智能研究部门在Diarization的高性能模式上

谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。

但谷歌的人工智能研究部门在Diarization的高性能模式上取得了令人鼓舞的进展。在一篇新论文(“ 全监督演讲者Diarization ”)和随附的 博客文章中 ,谷歌研究人员描述了一种新的人工智能(AI)系统,该系统“可以以更有效的方式利用受监督的发言人标签”。

该论文的作者声称核心算法实现了对于实时应用程序而言足够低的在线分类错误率(DER) – 在 NIST SRE 2000 CALLHOME 基准测试中为7.6%,而谷歌之前的方法为8.8%DER – 目前源代码已经在 Github上开源

谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

上图:流式音频上的发言人分类,底部轴的不同颜色表示不同的发言人。

图片来源:谷歌

谷歌研究人员的新方法通过递归神经网络(RNN)模拟发言者的嵌入(即,单词和短语的数学表示),RNN是一种机器学习模型,可以使用其内部状态来处理输入序列。每个发言者都以自己的RNN实例开始,该实例在给定新嵌入的情况下不断更新RNN状态,使系统能够学习在发言者和话语之间共享的高级知识。

“由于该系统的所有组件都可以以监督的方式学习,因此在可以获得具有高质量时间标记的扬声器标签训练数据的情况下,优于无监督系统,”研究人员在论文中写道。“我们的系统采用全面监督,并且能够从带有时间标记的发言者标签的示例中学习。”

在未来的工作中,团队计划优化模型,以便它可以集成上下文信息以执行离线解码,他们期望这能进一步降低DER错误率。谷歌团队还准备直接对声学特征进行建模,以便整个发言者diarization系统可以进行端到端的训练。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

黑客大曝光

黑客大曝光

Joel Scambray、Vincent Liu、Caleb Sima / 姚军 / 机械工业出版社华章公司 / 2011-10 / 65.00元

在网络技术和电子商务飞速发展的今天,Web应用安全面临着前所未有的挑战。所有安全技术人员有必要掌握当今黑客们的武器和思维过程,保护Web应用免遭恶意攻击。本书由美国公认的安全专家和精神领袖打造,对上一版做了完全的更新,覆盖新的网络渗透方法和对策,介绍如何增强验证和授权、弥补Firefox和IE中的漏洞、加强对注入攻击的防御以及加固Web 2.0安全,还介绍了如何将安全技术整合在Web开发以及更广泛......一起来看看 《黑客大曝光》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

URL 编码/解码
URL 编码/解码

URL 编码/解码