语音版deepfake出现:从文本到逼真人声,被模仿者高呼真得可怕

栏目: 数据库 · 发布时间: 5年前

内容简介:加拿大创业公司 Dessa 近日发布了一项新研究:利用其最新开发的 RealTalk 系统,仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 Joe Rogan 的声音(Joe Rogan 就是那个让马斯克在节目中嗨了的主持人)。所有音频均为机器学习模型使用文本输入生成的。音频中包括换气声、「um」「ah」等词语和噪声。

加拿大创业公司 Dessa 近日发布了一项新研究:利用其最新开发的 RealTalk 系统,仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 Joe Rogan 的声音(Joe Rogan 就是那个让马斯克在节目中嗨了的主持人)。

所有音频均为机器学习模型使用文本输入生成的。音频中包括换气声、「um」「ah」等词语和噪声。

视频中,「Joe Rogan」用他一贯的语调和风格,谈论黑猩猩曲棍球队、快速说绕口令,甚至模拟了一段「Joe Rogan 被人工智能研究者困在机器中」的情境……

Joe Rogan 本人在听了模拟音频后表示:「it's terrifyingly accurate」。有 twitter 网友评论道「你应该和 AI Joe Rogan 来一次访谈,lol」……

语音版deepfake出现:从文本到逼真人声,被模仿者高呼真得可怕

Joe Rogan 发 ins 表示:「我的立场就是惊讶地耸肩摇头,然后接受它。未来越来越奇怪了,朋友们。」

复制 Rogan 声音这一项目是由 Dessa 公司机器学习工程师 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 组成的团队创造的,他们使用了一个文本转语音的深度学习系统 RealTalk,可以仅基于文本输入生成逼真的语音。

是不是很疯狂?Dessa 首席机器学习架构师 Alex Krizhevsky (是的没错,他就是 AlexNet 的发明者)认为这是「我所看到的人工智能领域最酷也最恐怖的事件之一。与理论上 40100 年后才会出现的奇点不同, 语音合成 已经成为现实。」也许大家和他的想法是一样的。

这意味着什么?会产生什么社会影响?

想想看,Dessa 的工程师用 AI 合法地创建了 Joe Rogan 声音的逼真复制品,多么不可思议。而且,该模型能够复制任何人的声音,只要能够获得足够的训练数据。

而作为构建现实世界应用的 AI 从业者,Dessa 也考虑到了这一点:这项技术会带来什么影响?

很明显,语音合成等技术的社会影响是巨大的。它会影响到每一个人:不管有钱没钱,不管是企业还是政府。

目前,要创建像 RealTalk 这样性能良好的模型需要技术知识、独创性、计算能力和数据。所以,不是任何人都可以实现它。但是在接下来的几年里(甚至更短的时间内),技术可能会发展到只需要几秒钟的音频就能复制出世界上任何人的声音。

这样就很恐怖了。

如果这种技术落入坏人之手,可能会发生下面的情况:

  • 垃圾邮件发送者假冒你母亲或者爱人来获取你的个人信息;

  • 以霸凌或骚扰为目的冒充别人;

  • 冒充政府官员进入绝密区域;

  • 利用政客的「audio deepfake」来操纵选举或引发社会暴动;

  • ……

除了消极影响之外,Dessa 也考虑了这项技术的积极一面。

如果这项技术被正确利用的话,则:

  • 和语音助手说话的时候感觉很自然,就像与朋友聊天一样。

  • 可以定制语音应用程序,比如,健身 app 里鼓励大家锻炼的个性化话语来自阿诺·施瓦辛格。

  • 为只能通过文本-语音设备进行交流的人提供了一种交流选项,比如患有卢·格里克病(渐冻人症,ALS)的人。

  • 用任何语言为任意媒体文件自动配音。

正如牛津大学人类未来研究所在最近发布的一份报告《The Malicious Use of Artificial Intelligence》中所提到的那样:人工智能领域的进步不仅扩大了现有威胁,还带来了新的威胁。

如何从伦理方面考虑来构建这个技术,Dessa 还没有完全得出答案。但未来几年里,这项技术将不可避免地建立起来并应用到现实世界中。因此,除了提高意识和承认问题以外,Dessa 表示希望这项研究能够开启关于语音合成技术的对话和讨论。

每个人都应该知道,随着语音合成技术的发展,可能会发生什么样的情况。正如 Deepfake 技术出现时我们看到的那样,公众意识和对话促使政府、政策制定者、立法者迅速采取行动并制定对策。

Dessa 在相关博客中表示:作为应用人工智能公司,Dessa 的一个重要责任是,了解在研究领域探索 AI 和在现实中应用 AI 有着巨大的差别。为了负责任地对待这种技术,他们认为在开源该项目之前,应该让公众首先意识到语音合成模型的影响。

也因此,Dessa 目前没有公开研究细节、模型或数据集。

Dessa 表示后续将发布博客,介绍 RealTalk 的工作原理和构建过程。

语音版图灵测试小游戏

此外,Dessa 还提供了一个修改版的图灵测试游戏。大家可在 www.fakejoerogan.com 上辨别哪些声音来自真的 Joe Rogan,哪些是 RealTalk 创造出来的。

语音版deepfake出现:从文本到逼真人声,被模仿者高呼真得可怕

你能分辨出哪些来自 Joe Rogan,哪些来自 AI Joe Rogan 吗?小编听了几个分辨出来了哦~还是有点区别的……

参考链接:

https://medium.com/@dessa_/real-talk-speech-synthesis-5dd0897eef7f

https://futurism.com/the-byte/ai-sounds-like-joe-rogan


以上所述就是小编给大家介绍的《语音版deepfake出现:从文本到逼真人声,被模仿者高呼真得可怕》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

翻转课堂的可汗学院

翻转课堂的可汗学院

萨尔曼·可汗(Salman Khan) / 刘婧 / 浙江人民出版社 / 2014-4-1 / 49.00元

MIT和哈佛毕业的高材生缘何放弃金融分析师工作投身教育事业?YouTube上的“可汗学院频道”至今共吸引了163.3万订阅者,观看次数超过3.55亿次,它为什么如此大受欢迎?创始人萨尔曼·可汗阐述属于未来的教育理念——让地球上的任何人都能随时随地享受世界一流的免费教育! 现行教育模式已有200余年历史,可汗认为,在互联网蓬勃发展、社交网络盛况空前的时代,免费、灵活、适合个体、全球共享的教育才......一起来看看 《翻转课堂的可汗学院》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具