霍金时代的脑波打字技术,或许很快就要被直接发声的新技术取代了。
人工智能先驱,FAIR 主管 Yann LeCun 对这些研究表示欢迎,他表示:
「我们的发音速度受限于人类发音器官的机械限制,还是受到大脑语音生成皮层的速度限制?如果是前者,那么拥有语音生成植入体的人有一天可能会比没有装备的人说话更快。」
对于很多无法说话的人来说,他们想说的话的信号就藏在大脑中。没有人能够直接解码这些信号。而近期三支研究团队取得了进展,他们可以将手术时放置在大脑上的电极片输出的数据转换成计算机生成的语音。在某些情况下,他们使用神经网络将其重建为人类能够听懂的单词和句子。
他们近期发表在论文预印本平台 bioRxiv 的上论文没有涉及重建语音。研究人员监控了大脑部分在人大声朗读、不出声地说话或听录音时的反应,发现重建的语音是可以被理解的,这真是「太令人振奋了」,瑞士日内瓦大学神经工程师 Stephanie Martin 表示。他并未参与这一新项目。
在中风或生病后无法说话的人可以使用眼睛或其他小动作来控制光标或选择电脑屏幕上的字母。(史蒂芬·霍金通过脸上一块肌肉的运动来触发眼镜上的开关,从而实现输出。)但是如果脑机接口可以直接重建语音,那他们或许可以重获更多能力,比如控制音色和语调,或者插入快速对话中。
但还有很多障碍。「我们尝试开发一种模式……神经元可以在不同的时间点开和关,推断语音。」哥伦比亚大学计算机科学家 Nima Mesgarani 表示,「映射并不是直接的。」信号到语音的转换因人而异,因此计算机模型必须针对个人进行「训练」。模型在处理非常精准的数据时效果最好,而这需要开颅。
研究者仅在极少见的情况下做此类侵入式记录。一种情况是在摘除脑部肿瘤时,从暴露的脑部进行电子读取可以帮助医生定位,避开关键语音和运动区域。另一种情况是给癫痫病患者植入电极片,以在手术治疗前精准定位癫痫发作的病源。「我们最多只有 20 分钟,或 30 分钟」来收集数据,Martin 表示,「我们真的真的很受限制。」
发表新论文的几个小组充分利用了宝贵的数据,他们将信息输入到神经网络中,神经网络通过将信息输入到计算「节点」层来处理复杂模式。神经网络通过调整节点之间的连接来学习。在实验中,神经网络接受人输出或听到的语音录音,以及同时的大脑活动数据。
Mesgarani 团队的数据来自于五位癫痫病患者。他们的网络分析病人听故事录音和从 0 到 9 数数时来自听觉皮层的记录(听觉皮层在说话和倾听时处于活跃状态)。然后计算机重建来自神经数据的数字,当计算机「说出」数字时,一组听众实现了 75% 的准确率。
另一个团队由来自荷兰马斯特里赫特大学的 Christian Herff 和德国不来梅大学的 Miguel Angrick 两位神经科学家领导。他们的数据来自 6 位接受脑瘤手术的患者。当他们大声朗读单音节单词时,麦克风捕捉到了他们的声音。同时,从大脑语音规划区域和运动区记录信息的电极片向声道发送指令来表达单词。网络把电极片读取结果映射到音频记录中,然后根据之前未见的大脑数据重建单词。根据计算机评分系统,大约 40% 由计算机生成的单词是可以理解的。
最后,神经外科医生 Edward Chang 及其在加州大学的团队根据三名癫痫患者朗读时从语音和运动区捕获的大脑活动重建了所有的句子。在一份在线测试中,166 个人任意收听其中一句,然后从 10 个书面句子中选出听到的那句。在 80% 以上的时间里,有些句子被准确识别。研究人员进一步推动了这一模型:他们根据人们无声说出单词时记录的数据来重建句子。Herff 表示,这个结果很重要,因为「它离我们想做的语音假肢更近了一步。」
然而,「我们真正想知道的是,当病人无法说话时,这些方法会怎么做。」研究语言产生的加州圣地亚哥州立大学神经科学家 Stephanie Riès 说道。人在脑海中无声地「说出」或「听到」声音时的大脑信号与真实说话或听声音时的信号不一样。没有外部声音来匹配大脑活动的话,计算机甚至很难知道内语何时开始、何时结束。
解码想象的语音将需要「巨大的飞跃」,而「现在完全不知道要怎么做」。纽约州卫生署(New York State Department of Health)国家适应性神经技术中心的神经工程师 Gerwin Schalk 表示。
Herff 说,有一个方法可以给脑机接口的用户提供反馈:如果他们能够实时听到计算机的语音解释,他们就可以调整想法以获得想要的结果。如果用户和神经网络都接受了充分的训练,大脑和计算机可能会在中间相遇。
原文链接:https://www.sciencemag.org/news/2019/01/artificial-intelligence-turns-brain-activity-speech
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 极大提升合成速度,百度提出首个全并行语音合成模型ParaNet
- 标贝科技:TensorFlow 框架提升语音合成效果
- 你所不知道的HTML5——语音合成
- Python实战---制作专属有声小说(调用百度语音合成接口)
- 开源声码器 WORLD 在语音合成中的应用
- Ekho 7.7.1 Linux 纪念版发布,中文语音合成
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
互联网:碎片化生存
段永朝 / 中信出版社 / 2009-11 / 42.00元
《互联网:碎片化生存》内容简介:在世界互联网人数超过17亿,中国网民接近4亿的时候,断言“这个版本的互联网没有未来”是要冒很大风险的。我们生活在比特和连线的世界,现代互联网所描绘出的“数字化”、“虚拟化”的未来是否完全值得信赖? 现代商业取得了巨大成功,但这并不是电脑和互联网精髓的自由体现,我们所使用的这个版本的电脑和互联网只不过是“被阉割”、“被劫持”的商业玩偶。 《互联网:碎片化生......一起来看看 《互联网:碎片化生存》 这本书的介绍吧!