中国软件网

您现在的位置是:网站首页>软件百科

软件百科

不要轻易相信自己的耳朵!人工智能可以模仿合成任何声音

中国软件网2023-02-24软件百科手机轰炸机软件
相册软件下载,手机轰炸机软件,搞怪p图软件,不要轻易相信自己的耳朵!人工智能可以模仿合成任何声音,相册软件下载,手机轰炸机软件,搞怪p图软件【网易智能讯5月25日消息】这个故事的开头就像是一个冷笑话:奥巴马、克林顿和特朗普一同走进一

不要轻易相信自己的耳朵!人工智能可以模仿合成任何声音

不要轻易相信自己的耳朵!人工智能可以模仿合成任何声音,

  相册软件下载,手机轰炸机软件,搞怪p图软件【网易智能讯 5月25日消息】这个故事的开头就像是一个冷笑话:奥巴马、克林顿和特朗普一同走进一家酒吧,对一家总部位于加拿大蒙特利尔的初创公司表示赞许,这家公司名为Lyrebird。表示怀疑吗?

  如果你认为录音里的场景不可能发生并怀疑其真实性,那么你是对的——因为这段录音不是真的。整段录音是由一种新的人工智能生成的,它能够模仿自然对话,其速度比之前的任何语音合成器都快得多

  。Lyrebird上周公布的程序分析了一段一分钟的录音,并利用机器学习系统提取了一个人的“语音DNA”。在此DNA基础上,它会增加一层富有情感或特别的语调,直到它符合某个人的声音、语调和口音——这个人可能是奥巴马、特朗普,甚至是你。尽管Lyrebird生成的机器语音仍然留有一小部分明显的机器人特征,但其适当地添加了一些背景噪音来掩盖声音的失真,使得这些录音能够以假乱真。

  对此觉得毛骨悚然吗?你不是一个人。在这个合成图片肆意蔓延、虚假新闻充斥各大媒体的时代,一个可以让任何人说任何话的程序,似乎是引发更多麻烦的催化剂。但是人们对其的研究仍然乐此不疲。

  Alexandre de Brébisson是Lyrebird公司的创始人,也是蒙特利尔大学的在读博士生。 他表示,该程序发布日当天,其网站就有高达10万次访问,其团队也已经成功引起了“几位著名的投资者”的注意。这个程序到底有什么吸引力呢?尽管机器合成语音听起来像取自黑镜事件的产物,但是语音合成器——其实与所有技术一样——在本质上并没有恶意。

  对于有语言障碍或语言功能瘫痪的人来说,这些程序能帮助他们发声。对于盲人来说,他们提供了一种利用庞大纸质或网络文本资源的方式。基于人工智能的个人助理如Iphone语音助手和微软小娜等依靠语音合成器来创建一个更人性化的用户界面,而有声图书公司将来也可能会利用这种技术自动生成成本更低的产品。“我们希望改善人机界面,为语音合成创造全新的应用程序,”Brébisson 向奇点中心解释道。

  而Lyrebird只是针对自然语音合成器长时间研究的一项最新进展。这些程序的核心目标是实时地将文本转化为语音。这涉及两方面的问题:首先,人工智能需要“理解”文本的不同组成部分;另一方面,它必须以一种非诱导的方式为输入的文本生成合适的声音。虽然分析文本看起来是一种奇怪的语音处理方式,但是我们在读单词、短语和句子时的大部分语调其实都取决于句子的意思。

  例如,疑问通常以一个升调结尾,而像“读”这样的词汇的发音则取决于它们的时态。但在这两个问题中,音频输出可能是一项更艰巨的任务。较老的合成器依靠算法生成单个的声音,这种做法生成的语音其实就是典型的机器人声音。如今,合成器通常从一个庞大的真人语音数据库中下手,将声音片段拼接成通顺的新句子。虽然输出过程听起来没有那么机械化,但对于处理那些新声音——比如从女性的声音切换到男性的声音——该软件需要利用一个新的声音片段集来完成合成。

  因为语音数据库需要含括设备可能会用来与用户沟通的每一个单词(通常是不同的语调),所以其构建是一个巨大的工程。如果一个词没有记录在数据库,设备就会出现问题。但Lyrebird的语音DNA系统采取了不同的处理方式。它通过听语音录音,使人工智能学会了字母、音素和单词的发音。这个过程就像学习一门新语言一样,Lyrebird会用它学过的例子来推断新的单词和句子——即使是其从未接触过的词汇——合成发音上也会加上愤怒、同情或压力等高级情感表达。

  从本质上来说,Lyrebird是一种多层次的人工神经网络,是一种可以轻松模仿人类大脑的软件。像他们的人类同伴一样,人工网络通过已学的知识来“学习”新的内容,不断调整各个“神经元”之间的连接,直到其生成正确的输出。你可以把这个过程看成是吉他调音。与其他技术方面的深度学习过程一样,语音合成最初的训练需要经过数小时的语音录音和反复巩固。

  不过,一旦人工智能开始对某个人的声音进行训练,其就能以每秒数千个句子的声音模仿另一个声音——这个过程只需用一段一分钟的新录音。de brbisson解释道,这是因为不同的声音之间有很多相似的信息,而这部分信息已经“储存”在人工网络中了。照这个逻辑,人工网络不需要很多新语音来了解另一个人说话声音的复杂性——也就是他或她的声音“DNA”。尽管生成的录音仍然有机器生成的痕迹,但Brébisson强调,这些缺陷可能会随着学习更多的训练样本而消失。

  他说:“有时候我们会在样本中听到一点杂音,这是因为我们是基于现实数据上训练了我们的机器,而机器现在还在学习处理背景噪音或麦克风的噪音。”他还表示,该公司正在努力消除这些人工痕迹。添加一点“额外”的声音,比如嘴唇蠕动或呼吸的声音,也会增加机器说话的可信度。卡内基梅隆大学的语音研究人员Timo Baumann博士说,这些“缺陷”实际上是有意义的,是听众所能接受的。

  他并没有参与Lyrebird的研究。但de Brébisson和Baumann都认为,处理这些缺陷其实很简单。他们表示,在短短几年内,机器就能够完美地复制人类的声音。但De Brébisson承认,模仿别人的声音可能造成烦。假新闻都还算是程度最轻的。人工智能生成的语音录音可以用于人声模仿,会增加人类关于安全和隐私方面的担忧。这样基于语音的安全系统将不再安全。

  虽然Lyrebird正在研究一种“声纹”系统,其能很容易分辨出原声和生成的录音,但指望人们在每一段语音中都去检测声纹是不合理的。另外还有一些隐患。Baumann指出,人类会本能地相信声音来源的信息,尤其是赋予情感的声音。相比起明显的合成声音,Lyrebird更容易与人交流,这种感觉就像是和一个善解人意的朋友在聊天。比如,这些程序可以在手机上帮助人们在漫长的等待中冷静下来,它们也是社交工程的实用工具。

  Baumann说,这些程序会使人们更可能泄露个人信息或更多地购买人工智能推荐的东西。Lyrebird在网站上发表的一

很赞哦!