betway必威登录华裔科学家研发出最新AI,人类首次

betway必威登录 1

不能说话的个体也能实现语音合成

网友反应论文一出,惊叹声一片。

喜欢就点「好看」吧 !

别以为这是似微不足道技术,其实相当复杂。

Anumanchipalli和他的同事的研究结果为语音合成脑机接口的概念提供了令人信服证据,无论是在音频重建的准确性方面,还是在听者对产生的单词和句子进行分类的能力方面。

betway必威登录 2

betway必威登录 3

直接引用霍金的警告:一个超级AI会非常善于实现它的目标,如果AI的目标与我们的不一致,我们就有麻烦了。在未来,AI可以发展出自己的意志,一种与我们相冲突的意志。人类受到缓慢的生物进化的限制,无法与之竞争,或许会被取代。

图片来源:海洛创意

要知道已有的语音合成脑机接口每分钟只能生成 8 个单词,使用者也能用它们来表达自己的意思,但那远远称不上是“人类交流”。

嗯…不过事实上这项技术只会在你想开口时捕捉相应的脑电波。

betway必威登录 4

在这项工作中,研究人员使用了一种叫做高密度皮层脑电图的技术来跟踪志愿者说话时大脑中控制言语和发音器官运动的区域的活动,志愿者们被要求说了几百句话。

betway必威登录 5

订阅AI内参,获取AI行业资讯

思考和语言是AI学习的最大障碍,如果连这两个难关都克服了,这样人类快要凉了。

在脑机接口研究中,包括新兴的语音脑机接口领域,开发和采用允许跨研究进行有意义的比较的稳健度量是一项挑战。例如,重构原始语音的错误等度量可能与脑机接口的功能性能(即听者是否能听懂合成的语音)几乎没有对应关系。

betway必威登录 6

我们总有法子让你开口的。

小宝今天看到一个碉堡的技术,华裔科学家 Edward Chang 开发出一种可以将脑活动转化为语音的解码器。

然而,考虑到现实中数据集的匮乏,解码的中间阶段会将声道发音器官正常运动功能的信息带入模型,并限制必须评估的神经网络模型的可能参数。这种方法似乎使神经网络能够实现更高的性能。最终,反映正常运动功能的“仿生”方法可能在复制自然语言典型的快速、高精度通信方面发挥关键作用。

如果将来这项技术能被放入耳机这样的可穿戴设备,那我们就能以最快的速度在手机上打字了!这种可能性实在是鹅妹子嘤!

如何做到

愿AI与我们同在……

betway必威登录 7

Nature上最新发表了一篇论文,科学家们设计了一种新的可以将大脑信号转换成语言的装置,不需要劳动任何一块肌肉,深度学习就能直接读懂大脑,解码脑中所想,实现流畅交流。

接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。

同时,每个患者都植入了一两个电极阵列。当他们在说话时,电极将记录皮层运动层中神经元的放电模式。

然而,在通往临床可行的语音脑机接口的道路上仍有许多挑战。

“这是一项艰巨的工作,它将我们推上了语言恢复方面的一个新台阶。”神经学家Dr. Anthony Ritaccio这样评价。

研究人员选择了深度学习方法。

最后,将这些动作转化翻译成语言。

betway必威登录 8

有网友称赞这是ECoG领域非常有价值的一个结果,并且也给未来的实际应用打开了新的大门:

这个新的装置每分钟能生成 150 个单词,接近人类的自然语速。

就在上周三,马斯克也有类似想法,通过脑机接口技术能在2021年之前治疗严重的脑损伤。

betway必威登录 9

Nature上最新发表了一篇论文,科学家们设计了一种新的可以将大脑信号转换成语言的装置,不需要劳动任何一块肌肉,深度学习就能直接读懂大脑,解码脑中所想,实现流畅交流。

为了进行试验,专家们招募了五名在医院接受癫痫治疗的志愿者。

说到这里,小宝就想起了霍金最后一次对人类的警告:AI可能会成为人类最伟大、也是最后一项发明!凑巧的是马斯克也有类似的警告。

脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,这项技术目前能够使瘫痪的人每分钟最多能打出8个单词,而加州大学旧金山分享的研究人员开发了一种方法,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平!

在这个过程中,两个神经网络都会被投喂训练数据,以提高它们的解码性能。

受渐冻症折磨的霍金后期依靠活动脸颊上的一块肌肉来打字

未来,还可以利用脑机接口获取信息直接传达到大脑,一下呈现十分科幻的场景。

实验要求母语为英语的人听这些句子,以测试虚拟语音的流畅性。研究发现,大约70%的虚拟系统生成的内容是可理解的。

为了进行试验,专家们招募了五名在医院接受癫痫治疗的志愿者。

{"type":1,"value":"是的,不必动手,也不必开口,只要你的脑波流转,AI就能以每分钟150个词的速度帮你说出心声。

说话需要在大脑控制下,通过嘴唇、舌头、喉部和下颌、肺部等人体发音器官连动产生语言。

Nature:华裔科学家成功解码脑电波,AI直接从大脑中合成语音

说话这件事其实并没有想象中那么简单,看似只是动动嘴,事实上却是对声道咬合结构精准、快速的多维度控制。

“这是一项艰巨的工作,它将我们推上了语言恢复方面的一个新台阶。”神经学家Dr. Anthony Ritaccio这样评价。

该研究招募了5位志愿者进行实验,通过放置在大脑内部或表面的电极片,来监测志愿者脑部的电信号。

betway必威登录 10

嗯…不过事实上这项技术只会在你想开口时捕捉相应的脑电波。

Nature上最新发表了一篇论文,科学家们设计了一种新的可以将大脑信号转换成语言的装置,不需要劳动任何一块肌肉,深度学习就能直接读懂大脑,解码脑中所想,实现流畅交流。

而这项技术每分钟能够生成150个单词,接近人自然语速的水平。

因为无法直接测量每个人的声道运动,Anumanchipalli等人构建了一个RNN来预估这些运动,其训练数据是之前收集的大量声道运动数据和语音录音。这个RNN产生的声道运动估计足以训练第一个解码器。第二个解码步骤将这些估计的动作转换成合成语音。Anumanchipalli和他的同事的两步解码方法产生的口语句子的失真率明显低于直接解码方法获得的句子。

研究人员选择了深度学习方法。

有网友称赞这是ECoG领域非常有价值的一个结果,并且也给未来的实际应用打开了新的大门:

betway必威登录 11

这项研究发表在最新一期《自然》杂志上,作者为Anumanchipalli以及华裔科学家Edward Chang等人。

还有网友已经迫不及待地开始畅想未来:

研究团队来自加州大学旧金山分校,神经外科教授Dr. Edward Chang等人试图将大脑中的神经活动转换成语音,以造福因为神经损伤而失去交流能力的人。

betway必威登录 12

加州大学旧金山分校的研究人员与5名志愿者合作,志愿者们接受了一项被称为“颅内监测”的实验,其中电极被用于监测大脑活动,作为癫痫治疗的一部分。

也有一些负面的声音:

研究人员采用bLSTM(bidi-rectional long short-term memory)循环神经网络来破译ECoG信号表达的运动学表征。

betway必威登录 13

Nature:华裔科学家成功解码脑电波,AI直接从大脑中合成语音

必须说明的是,这项技术使用的ECoG电极阵列需要通过开颅手术来放置到大脑之中,对于饱受疾病、意外之害而失去语言能力的患者来说是福音天降,但更大范围的应用还有很长的路要走。

说话这件事其实并没有想象中那么简单,看似只是动动嘴,事实上却是对声道咬合结构精准、快速的多维度控制。

电极阵列

为了重建话语,Anumanchipalli等人不是将大脑信号直接转换为音频信号,而是使用一种两级解码的方法。他们首先将神经信号转换为声道发音器官运动的表示,然后将解码的运动转换为口语句子,如图1所示。两次转换都使用了递归神经网络——一种人工神经网络,在处理和转换具有复杂时间结构的数据时特别有效。

我们总有法子让你开口的。

也有一些负面的声音:

脑活动转化为语音真的是一项伟大的技术,可帮助中风、癫痫、亨廷顿氏病、老年性痴呆症、卢伽雷氏病等患者“恢复”语言能力。

编辑 | 新智元 小芹 大明 张乾

接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。

必须说明的是,这项技术使用的ECoG电极阵列需要通过开颅手术来放置到大脑之中,对于饱受疾病、意外之害而失去语言能力的患者来说是福音天降,但更大范围的应用还有很长的路要走。

betway必威登录 14

此次招募的五名志愿者同意测试虚拟语音发生器。每个患者都植入了一两个电极阵列:图章大小的、包含几百个微电极的小垫,放置在大脑表面。

betway必威登录 15

网友反应

以往这样植入物的通信系统每分钟只能生成8个单词,暂时分析70%的内容可理解。

技术细节:两阶段解码方法

神经解码的第一步是从高密度皮层活动中提取相关信号特征。志愿者们说了上百句话,而通过植入性大脑皮层电图,研究人员可以跟踪控制语言和发音的大脑区域的活动,并将这些活动与志愿者说话时嘴唇、舌头、喉部和下颚的微妙运动联系起来,然后将这些运动学特征翻译成口语句子。

对比志愿者说话的频谱图和大脑信号合成的频谱图,可以看到它们已经非常接近了。

如果大家还没什么概念,直接看看翻译效果如何,千万别被吓坏了。

新智元

是的,不必动手,也不必开口,只要你的脑波流转,AI就能以每分钟150个词的速度帮你说出心声。

脑波转语音已经不是什么新鲜事了,这篇文章能登上Nature,自是有过人之处。

接着,研究人员分析这些模式下,患者嘴唇、舌头、喉部、下颚之间的微小运动联系。

上图B中,Anumanchipalli等人开发了一种不同的方法,RNN被用于两阶段解码。其中一个解码步骤是将神经信号转换成声道发声器官的预估运动,涉及到语音生成的解剖结构(嘴唇、舌头、喉部和下颌)。为了在第一个解码步骤中进行训练,作者需要每个人的声道运动与他们的神经活动关联起来的数据。

betway必威登录 16

—完—

例如,有神经退行性疾病霍金就是使用语音合成器,通过人类眼睛和面部动作识别来拼写单词,但每分钟只能生成8个单词。

大脑活动能够解码成语音了。

只要静静坐着,世界就能听到你的声音,这样的画面你可曾想象过?

论文一出,惊叹声一片。

betway必威登录 17

为了解决这个问题,Anumanchipalli等人从语音工程领域出发,开发了易于复制的人类听众语音可懂度测量方法。他们在众包市场Amazon Mechanical Turk上招募用户,让志愿者识别合成语音中的单词或句子。与重构错误或以前使用的自动可懂度测量方法不同,这种方法直接测量语音对人类听众的可懂度,而不需要与原始话语进行比较。

传送门论文链接:

传送门

{"type":2,"value":"

每分钟能够生成150单词,接近正常人类水平

想象一下,倘若霍金健在,在这种技术的帮助下,他可能再也不用艰难地活动脸颊上的肌肉来拼出单词,AI能真正帮助他重新“开口”,传播智慧。

在这个过程中,两个神经网络都会被投喂训练数据,以提高它们的解码性能。

betway必威登录 18

研究人员采用bLSTM(bidi-rectional long short-term memory)循环神经网络来破译ECoG信号表达的运动学表征。

欢迎对AI感兴趣的同学,在量子位公众号对话界面回复关键字“微信群”,获取入群方式。(技术群与AI 行业群需经过审核,审核较严,敬请谅解)

最终,这套新系统每分钟能够生成150单词,接近自然讲话的语速水平。而以前基于植入物的通信系统每分钟可以生成大约8个单词。

只要静静坐着,世界就能听到你的声音,这样的画面你可曾想象过?

神经解码的第一步是从高密度皮层活动中提取相关信号特征。志愿者们说了上百句话,而通过植入性大脑皮层电图,研究人员可以跟踪控制语言和发音的大脑区域的活动,并将这些活动与志愿者说话时嘴唇、舌头、喉部和下颚的微妙运动联系起来,然后将这些运动学特征翻译成口语句子。

betway必威登录 19

betway必威登录 20

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI 行业群、AI技术群;

在上图A中,以前的语音合成研究采用的方法是使用脑电图设备监测大脑语音相关区域的神经信号,并尝试将这些信号直接解码合成语音,使用一种称为递归神经网络的人工神经网络;

这个新的装置每分钟能生成 150 个单词,接近人类的自然语速。

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号对话界面,回复“招聘”两个字。

来自加州大学旧金山分校的科学家创造了更接近能够恢复说话功能的脑机接口(brain–computer interface, BCI)。

有何提高脑波转语音已经不是什么新鲜事了,这篇文章能登上Nature,自是有过人之处。

诚挚招聘

betway必威登录 21

研究者们让以英语为母语的人听了听合成的语音,结果表明,至少有70%的虚拟语言是可以被理解的。

声学特征是能从语音波形中提取的频谱特征,因此用解码后的信号就可以合成出语音波形。

目前所有语音解码方法的另一个限制是需要使用语音来训练解码器。因此,基于这些方法的脑机接口不能直接应用于无法说话的人。但是Anumanchipalli和他的同事们发现,当志愿者在不发声的情况下模仿语音时,语音合成仍然是可行的,尽管语音解码的准确率要低得多。无法产生语音相关动作的个体是否能够使用语音合成脑机接口是未来研究的一个问题。

betway必威登录 22

有何提高

参与的志愿者大脑中的电极阵列位置

betway必威登录 23

要知道已有的语音合成脑机接口每分钟只能生成 8 个单词,使用者也能用它们来表达自己的意思,但那远远称不上是“人类交流”。

图1:语音合成的脑机接口

对比志愿者说话的频谱图和大脑信号合成的频谱图,可以看到它们已经非常接近了。

想象一下,倘若霍金健在,在这种技术的帮助下,他可能再也不用艰难地活动脸颊上的肌肉来拼出单词,AI能真正帮助他重新“开口”,传播智慧。

许多癫痫患者的药物治疗效果并不好,他们选择接受脑部手术。在术前,医生必须首先找到病人大脑中癫痫发作的“热点”,这一过程是通过放置在大脑内部或表面的电极来完成的,并监测明显的电信号高峰。

△受渐冻症折磨的霍金后期依靠活动脸颊上的一块肌肉来打字如何做到研究团队来自加州大学旧金山分校,神经外科教授Dr. Edward Chang等人试图将大脑中的神经活动转换成语音,以造福因为神经损伤而失去交流能力的人。

betway必威登录 24

精确定位“热点”的位置可能需要数周时间。在此期间,患者通过植入大脑区域或其附近的电极来度日,这些区域涉及运动和听觉信号。这些患者一般会同意利用这些植入物进行额外的实验。

betway必威登录 25

研究者们让以英语为母语的人听了听合成的语音,结果表明,至少有70%的虚拟语言是可以被理解的。

来源 | Nature

是的,不必动手,也不必开口,只要你的脑波流转,AI就能以每分钟150个词的速度帮你说出心声。

量子位 报道 | 公众号 QbitAI

实验要求参与者背诵几百个句子,电极会记录运动皮层中神经元的放电模式。研究人员将这些模式与患者在自然说话时嘴唇,舌头,喉部和下颌的微小运动联系起来。然后将这些动作翻译成口语化的句子。

声学特征是能从语音波形中提取的频谱特征,因此用解码后的信号就可以合成出语音波形。

如果将来这项技术能被放入耳机这样的可穿戴设备,那我们就能以最快的速度在手机上打字了!这种可能性实在是鹅妹子嘤!

betway必威登录 26

加入社群

新智元

还有网友已经迫不及待地开始畅想未来:

图片来源:海洛创意

betway必威登录 27只要静静坐着,世界就能听到你的声音,这样的画面你可曾想象过?" style="width:60%;margin:1rem auto">

ECoG电极阵列由记录大脑活动的颅内电极组成

论文链接:

Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。

鱼羊 发自 凹非寺

Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。

betway必威登录 28

说话似乎是一项毫不费力的活动,但它其实是人类最复杂的动作之一。说话需要精确、动态地协调声道发音器官结构中的肌肉——嘴唇、舌头、喉部和下颌。当由于中风、肌萎缩侧索硬化症或其他神经系统疾病而导致言语中断时,丧失说话能力可能是毁灭性的。

重构语音的可理解性仍远低于自然语音,脑机接口能否通过收集更大的数据集并继续开发底层的计算方法来进一步改进还有待观察。使用记录局部脑活动的神经接口可能比使用皮层脑电图记录的更为有效。例如,在脑机接口研究的其他领域,皮质内微电极阵列通常比皮质脑电图具有更高的性能。

与直接解码声学特征相比,作者采用的两阶段解码方法能明显减小声音失真。如果可以获得跨多种语音条件的海量数据集,那么直接合成可能会接近或优于两阶段解码的方法。

本文由betway必威登录平台发布于互联网农业,转载请注明出处:betway必威登录华裔科学家研发出最新AI,人类首次

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。