Facebook工程师创建了比尔·盖茨的AI语音克隆体


近年来,人工智能技术的发展已经让我们觉得有些可怕,而如何防止 ai 这把双刃剑不被错误地使用,也引发了越来越激烈的探讨。比如 2017 年底冒出的 deepfakes 视频换脸技术,就让许多名人遭遇了虚假色 情 片的困扰。 现在,facebook 工程师们又创造出了一个能够惟妙惟肖地模仿比尔·盖茨的语音 ai 。
事实上,盖茨只是 melnet 可以模仿的多位人物中名气最大的,其他“被克隆”的包括乔治·武井(george takei)、珍·古德(jane goodall)、史蒂芬·霍金等人。
在下列剪辑中,你可以听到一系列无害的句子,比如:
游泳时抽筋不是闹着玩的( a cramp is no small danger on a swim )
同样的话他说过三十遍( he said the same phrase thirty times )
摘下没有叶子的鲜亮玫瑰( pluck the bright rose without leaves )
2 加 7 小于 10( two plus seven is less than ten )
上述每一段语音,都是由 facebook 工程师设计创建的一个名为 melnet 的机器学习系统生成的。 那么,用来训练这套 ml 系统的数据,又是哪里来的呢?
据悉,melnet 分析了 452 小时的 stem-y 类 ted 演讲数据集,以及其它有声读物。
显然,对机器学习系统来说,模仿这些人物慷慨激昂的演讲方式,确实是一个不小的挑战。
近年来,语音克隆的质量一直在稳步提升。 比如近期播放的 joe rogan 复制品,就是一个极好的证明。
不过这一进展的大部分工作,可以追溯到 2016 年的 samplernn 和wavenet 。
后者是由位于伦敦的人工智能实验室 deepmind 创建的机器学习(ml)文本转语音(tts)转换程序,该实验室同时为 google assistant 智能助理提供支持。
wavenet 和 samplernn 之类的方案,就是 为 au 系统提供大量的数据,并用它来分析人生中的细微差别。
这些旧式 tts 系统无法生成音频,但可以重构 —— 将语音样本切割成各种音频元素,然后将之拼接到一起,来创建新的单词。
不过当 wavenet 等团队利用音频波形进行训练时,facebook 的 melnet 却用上了信息更加密集的格式 —— 频谱图。
在一篇随附的论文中,facebook 研究人员指出, 虽然 wavenet 输出的音频保真度更高,但 melnet 在捕捉“高级结构”方面更胜一筹。
melnet 能够模仿演讲者声音中包含的某种微妙的一致性,遗憾的是我们无法用文字来描述,但人耳听起来确实更舒服。
facebook 工程师称, 这是因为频谱图中捕获的数据,较音频波形中的数据更加紧凑。 这种密度使得算法能够生成更加一致的语音,而不是波形记录中被极端分散和磨练出来的细节。
当然,melnet 也有一些限制,最总要的是无法复制人声在较长一段时间内的变化,比如在文本段落上构建出来的戏剧性张力。
有趣的是,这类似于我们在 ai 生成的文本 中见到的约束性,其只能实现表层、而非长期结构上的一致性。
撇开这些瑕疵不谈,melnet 已经足够证明其强大的系统功能。它不仅可以生成逼真的人声,还可以用于生成音乐(示例 1 2 )。不过想要商业应用的话,还需要经过长时间的雕琢。


2019欧林雅家居服饰加盟电话多少 加盟费多少
急租长春路套一2楼15平南精装多套600元议
辽宁省环境监测协会联手崂应成功举办环境监测新技术新标准宣贯会议
广西壮族自治野兔野兔养殖
文具包装纸桶纸管销售价格划算的生产厂家诚信发展
Facebook工程师创建了比尔·盖茨的AI语音克隆体
柴油机泡沫化坨机环保经济性价比高
水桶工艺品系列模具
提供比赛毽球,毽子,鸡毛毽加工 体育运动用品
放心的背心袋新的批发价格优惠!
现在加盟伴渔笙小海鲜快餐可以享受哪些优惠 投资市场好吗
西安家用地毯清洗公司
福建热处理合板供应_高性价热处理合板尽在光亮实业
山东免税二手车豪车多少钱
江苏远程教育培训哪家学校师资力量强大啊?
湖南实用的化学镍生产商寿命长的
如何做好不锈钢链板的维修工作呢
4芯裸铜线高柔性耐折防油耐寒TRVV4芯设备专用拖链电缆
《三国演义》陈红演的貂蝉第一次出场,简直太美了
莱芜机载劈裂机价格