亚马逊 Alexa 借助神经网络生成播音员声音

栏目: 编程工具 · 发布时间: 5年前

亚马逊最近宣布开发定制的 Alexa 语音,适合用于阅读新闻。早期的实现是通过连接小的音频片段来产生完整的句子,从而实现文本到语音功能。亚马逊正在使用生成神经网络来合成一种更自然的语音,而且可以根据文本的上下文提供不同的语音风格。

该系统的第一个应用演示了一种听起来更自然的声音。亚马逊的 Alexa 将在未来几周内使用新的声音。通过从新闻频道捕获音频片段,然后利用机器学习来检测它们阅读文本的方式,以此来获得类似新闻播报员的声音。这些细微差别很难通过确定性算法识别出来,因此需要采用统计方法来检测和应用它们。亚马逊使用了几个小时长度的数据来教授机器学习算法如何让声音听起来更像是一个新闻播报员的声音,这意味着获得不同风格的声音指日可待。

为了获得像新闻播音员那样的声音,一种方法是招募语音人才,让他们以自己的风格读出声音,将他们的录音分成小的语音样本,并进行合成。这是非常耗时的,而且成本很高。文本到语音神经网络系统的创新之处在于它采用了“样式编码”模块来识别语音样本的风格。系统将大量中性风格的语音数据与带有风格的几小时补充数据相结合。它可以模拟语音的各个方面,如韵律和其他特征。

公告是在 Alexa 最近增加了耳语(whisper)模式之后发布的,该模式允许在与数字助理的深夜或早晨模式对话中使用更柔和的语音。 Google Assistant 已经在使用由伦敦 AI 实验室 DeepMind 开发的基于机器学习的语音合成。Apple 的 Siri 正在使用隐马尔科夫模型机器学习来合成长达 20 小时的专业录音。

查看英文原文: Alexa Soon to Offer “Newscaster” Voice: Applying Generative Neural Networks for Text-to-Speach


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

图形程序开发人员指南

图形程序开发人员指南

Michael Abrash / 前导工作室 / 机械工业出版社 / 1998 / 128

Michael Abrash's classic Graphics Programming Black Book is a compilation of Michael's previous writings on assembly language and graphics programming (including from his "Graphics Programming" column......一起来看看 《图形程序开发人员指南》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

html转js在线工具
html转js在线工具

html转js在线工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具