DeepMind再现黑科技：让人工智能变身“作曲家”

巫盼 8年前 (2016-09-10)

时隔多日，DeepMind终于出新产品了。

昨天，Google的DeepMind研究实验室公布了一项最新成果——WaveNet。这是一项语音合成系统，它能够模仿人类的声音，且生成的原始音频质量优于目前的文本转语音系统（text to speech，简称TTS）。

在过去几年，深度神经网络的应用大幅度提高了计算机自然语言理解能力。然而，运用计算机生成语音（语音合成，或者TTS系统）仍然主要依靠拼接式TTS——先录制单一说话者的大量语音片段，建立一个大型数据库，然后将语音片段合成完整的话语。这种语音合成方式不仅过程繁琐，也很难对声音加以修饰，从而无法表达强调或者情感。而这一难题的解决则需要运用一种参量改频式（Parametric）TTS。

在这种TTS系统中，生成数据所需要的所有信息被存储于模型的参数中，语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而，目前参量改频式TTS生成的语音听起来还不如拼接式TTS模型生成的语音自然。现有的参量改频式模型通常将输出的信息交给信号处理算法处理，从而生成音频信号。

WaveNet的出现改变了这种方式，它直接用音频信号的原始波形建模，并且是一次处理一个样本。通过这种方式生成的语音不但听起来更加自然，而且使用原始波形还能为任何声音建模，包括模仿任何人的声音，还能生成音乐。在测试中，WaveNet通过分析古典音乐，生成了一段钢琴曲。

不过，虽然DeepMind宣称，通过人耳测试，该技术使得模拟生成的语音与人类声音之间的差异缩小了一半。但是，由于WaveNet需要强大的计算能力，近期也无法应用到真实世界场景。

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

DeepMind再现黑科技：让人工智能变身“作曲家”

最新文章

注册

DeepMind再现黑科技：让人工智能变身“作曲家”

最新文章

登录

注册