微软Azure认知服务：TTS系统音频合成媲美人类

栏目: 编程工具 · 发布时间: 6年前

微软的「文本到语音（text-to-speech，TTS）」分析运行系统取得了里程碑式的突破，它可以使用深度神经网络让计算机合成的声音酷似人类录音，达到几乎无法分辨的地步。这一系统合成的语音拥有与人类类似的神经韵律和吐字发音。神经 TTS 可以在人类与 AI 系统交互时大大减轻听觉疲劳。

点开音频，你能听出哪个是微软合成的声音吗？

本周，微软的团队在佛罗里达州奥兰多的 Microsoft Ignite 会议上展示了神经网络驱动的「文本到语音」转换功能。这种功能目前可以通过 Azure 认知服务语音服务进行预览。

预览链接： https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/

「神经文本到语音」转换可以让人与机器人或虚拟助手的互动更加自然、有吸引力。它将电子书等数字文本转换为有声书，还可以用于改进车内导航系统。

「文本到语音」转换取得的进展是微软团队在过去两年中取得的突破之一，他们的贡献还包括将会话语音识别和机器翻译提升到可以与人类媲美的程度。

微软Azure认知服务：TTS系统音频合成媲美人类

微软的「文本到语音」系统使用了深度神经网络，来克服传统「文本到语音」系统在匹配口语的重读和语调（称为韵律结构），以及将语音单元合成为计算机音频方面的局限性。

传统的「文本到语音」系统将韵律结构分解成由独立模型控制的语言分析和声学预测步骤。这将导致合成音频变得沉闷无趣。微软的「文本到语音」系统可以同时执行韵律预测和声音合成，其结果更加流畅自然。

通过使用 Azure 的算力，微软可以传送实时的语音流，有助于人与聊天机器人或虚拟助理交流。该功能由 Azure Kubernetes Service 提供服务，保证了很高的可扩展性和可用性，并给予用户在单个端点使用神经「文本到语音」以及传统的「文本到语音」服务的能力。

预览服务目前提供两个预构建的英文版「文本到语音」的助理——Jessa 和 Guy。微软很快会加入更多的语言，以及 49 种语言的定制服务（面向希望为特定需求构建品牌声音的客户）。

原文链接： https://azure.microsoft.com/en-us/blog/microsoft-s-new-neural-text-to-speech-service-helps-machines-speak-like-people/

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

CSS高效开发实战—CSS 3、LESS、SASS、Bootstrap、Foundation

谢郁 / 电子工业出版社 / 2014-9 / 59.00

想象一下，一个网页只有HTML，没有CSS，那就是素颜和上妆的区别。而一个网页只有CSS，没用CSS 3，那就是马车和汽车的区别！汽车代表的是高效、美观，CSS 3的意图也是如此。移动设备的流行导致了响应式设计的流行，而CSS 3正是实现这种设计的精髓。《CSS高效开发实战—CSS 3、LESS、SASS、Bootstrap、Foundation》围绕的就是如何跨浏览器、跨设备进行高效率的CSS开......一起来看看《CSS高效开发实战—CSS 3、LESS、SASS、Bootstrap、Foundation》这本书的介绍吧!

码农工具

微软Azure认知服务：TTS系统音频合成媲美人类

CSS高效开发实战—CSS 3、LESS、SASS、Bootstrap、Foundation

JS 压缩/解压工具

Base64 编码/解码

正则表达式在线测试