亚马逊 Alexa 借助神经网络生成播音员声音

亚马逊最近宣布开发定制的 Alexa 语音，适合用于阅读新闻。早期的实现是通过连接小的音频片段来产生完整的句子，从而实现文本到语音功能。亚马逊正在使用生成神经网络来合成一种更自然的语音，而且可以根据文本的上下文提供不同的语音风格。

该系统的第一个应用演示了一种听起来更自然的声音。亚马逊的 Alexa 将在未来几周内使用新的声音。通过从新闻频道捕获音频片段，然后利用机器学习来检测它们阅读文本的方式，以此来获得类似新闻播报员的声音。这些细微差别很难通过确定性算法识别出来，因此需要采用统计方法来检测和应用它们。亚马逊使用了几个小时长度的数据来教授机器学习算法如何让声音听起来更像是一个新闻播报员的声音，这意味着获得不同风格的声音指日可待。

为了获得像新闻播音员那样的声音，一种方法是招募语音人才，让他们以自己的风格读出声音，将他们的录音分成小的语音样本，并进行合成。这是非常耗时的，而且成本很高。文本到语音神经网络系统的创新之处在于它采用了“样式编码”模块来识别语音样本的风格。系统将大量中性风格的语音数据与带有风格的几小时补充数据相结合。它可以模拟语音的各个方面，如韵律和其他特征。

公告是在 Alexa 最近增加了耳语（whisper）模式之后发布的，该模式允许在与数字助理的深夜或早晨模式对话中使用更柔和的语音。 Google Assistant 已经在使用由伦敦 AI 实验室 DeepMind 开发的基于机器学习的语音合成。Apple 的 Siri 正在使用隐马尔科夫模型机器学习来合成长达 20 小时的专业录音。

查看英文原文： Alexa Soon to Offer “Newscaster” Voice: Applying Generative Neural Networks for Text-to-Speach

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

算法基础

[美] 托马斯 H.科尔曼（Thomas H.Cormen） / 王宏志 / 机械工业出版社 / 2015-12 / 59.00

本书介绍了什么是计算机算法，如何描述它们，以及如何来评估它们。这些计算机算法将提供：利用计算机搜索信息的简单方式；解决各种排序问题的方法；利用有向无环图和最短路径法来解决基本问题的方法(可用于建模公路网络，任务间的依赖及金融关系)；解决字符串(例如DNA结构)问题的方法；密码学背后的基本原理；数据压缩的基础知识；以及甚至一些没有人能够理解如何在计算机上用相当长的时间来解决的问题。本书适合作......一起来看看《算法基础》这本书的介绍吧!

码农工具

在线进制转换器

各进制数互转换器

RGB CMYK 转换工具

RGB CMYK 互转工具