DeepMind再现黑科技:让人工智能变身“作曲家”
时隔多日,DeepMind终于出新产品了。
昨天,Google的DeepMind研究实验室公布了一项最新成果——WaveNet。这是一项语音合成系统,它能够模仿人类的声音,且生成的原始音频质量优于目前的文本转语音系统(text to speech,简称TTS)。
在过去几年,深度神经网络的应用大幅度提高了计算机自然语言理解能力。然而,运用计算机生成语音(语音合成,或者TTS系统)仍然主要依靠拼接式TTS——先录制单一说话者的大量语音片段,建立一个大型数据库,然后将语音片段合成完整的话语。这种语音合成方式不仅过程繁琐,也很难对声音加以修饰,从而无法表达强调或者情感。而这一难题的解决则需要运用一种参量改频式(Parametric)TTS。
在这种TTS系统中,生成数据所需要的所有信息被存储于模型的参数中,语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而,目前参量改频式TTS生成的语音听起来还不如拼接式TTS模型生成的语音自然。现有的参量改频式模型通常将输出的信息交给信号处理算法处理,从而生成音频信号。
WaveNet的出现改变了这种方式,它直接用音频信号的原始波形建模,并且是一次处理一个样本。通过这种方式生成的语音不但听起来更加自然,而且使用原始波形还能为任何声音建模,包括模仿任何人的声音,还能生成音乐。在测试中,WaveNet通过分析古典音乐,生成了一段钢琴曲。
不过,虽然DeepMind宣称,通过人耳测试,该技术使得模拟生成的语音与人类声音之间的差异缩小了一半。但是,由于WaveNet需要强大的计算能力,近期也无法应用到真实世界场景。
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新