[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

栏目: 数据库 · 发布时间: 6年前

内容简介:分割聚类(Diarization)是指根据“谁说了什么”将多人语言样本分割成相应的碎片段,再对所有碎片段进行聚类,把属于同一个说话人的片段都聚在一起,标注出这些碎片段属于谁。对于机器来说整个处理过程并不能像人类那样得心应手,而且机器学习算法的培训也要比想象中的更难。一个强大的分割聚类系统还要识别出此前并未关联的新语音碎片段。不过朝着高性能模式发展的道路上,谷歌的人工智能研究部门已经取得了令人鼓舞的突破性进展。在最新发表的论文“Fully Supervised Speaker Diarization”[

分割聚类(Diarization)是指根据“谁说了什么”将多人语言样本分割成相应的碎片段,再对所有碎片段进行聚类,把属于同一个说话人的片段都聚在一起,标注出这些碎片段属于谁。对于机器来说整个处理过程并不能像人类那样得心应手,而且机器学习算法的培训也要比想象中的更难。一个强大的分割聚类系统还要识别出此前并未关联的新语音碎片段。

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

不过朝着高性能模式发展的道路上,谷歌的人工智能研究部门已经取得了令人鼓舞的突破性进展。在最新发表的论文“Fully Supervised Speaker Diarization”[ PDF ]以及 官方博文 中,谷歌研究人员描述了一种全新的人工智能系统,能够让系统以更又有效的方式来使用声音样本标签。

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

这篇论文的核心算法在 NIST SRE 2000 CALLHOME的跑分中,能够在实时语音聊天应用中将在线分割聚类错误率(EDR)降低至7.6%。而谷歌此前在GitHub上开源的方式EDR为8.8%。谷歌研究人员的新方法就是通过递归神经网络(RNN)模拟说话者的输入(例如用数字方法表示说话者的单词和短语),这种机器学习模型类型能够使用内部状态来处理输入序列。

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%

[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%


以上所述就是小编给大家介绍的《[图]谷歌AI新突破:实时聊天中识别“谁说了什么”正确率高达92%》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

About Face 3

About Face 3

Alan Cooper、Robert Reimann、David Cronin / John Wiley & Sons / 2007-5-15 / GBP 28.99

* The return of the authoritative bestseller includes all new content relevant to the popularization of how About Face maintains its relevance to new Web technologies such as AJAX and mobile platforms......一起来看看 《About Face 3》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具