秒杀Siri,推个性定制合成语音,BabelOn终成霸主?
美科技公司BabelOn推出语音合成新技术,超越siri等数字声音,实现多语言个性化声音合成。
语音合成,即合成人的声音,已经不是什么新鲜的事物。近来,旧金山一家叫BabelOn的公司正在推陈出新。该公司表示,他们的特定硬件和软件组合可以从视觉和声音两方面分析出人类发声的特点,合成你想要的任何语言版本的效果。
最初,该公司希望将该技术用于改进译制影片或本地化视频游戏的配音,但后来,他们表示希望最终能够实时翻译演讲,比如说Skype通话。微软已经做了一段时间,即实时翻译Skype语音电话,但是BabelOn承诺,它的翻译声音听起来就像你本人说的,而不是一个匿名的Siri或Cortana等数字声音。
时机造就BLIP
联合创始人Daisy Hamilton的父母早期就注意到了电影行业需要更好的各种语言配音的需求,后来在语音合成和智能系统领域的专家的帮助下,他们获得了核心专利,这是第一个类似的视觉和声音翻译的过程和系统。
随后,他们试图用软件为这种新技术构建一个原型,但很快碰壁,因为支持这项核心技术的其他技术和设备都无法实现,那时还是2004年,运动捕捉技术连昙花一现都算不上。很快他们意识到没有必要推进技术,因为当时不可能取得进展。直到2011年,Hamilton认识到时机成熟。纵然明白支持该核心技术的其他技术和硬件设备十分复杂,困难重重,BabelOn公司依然决定开始将核心技术的扩展和整个系统的研发付诸实践。
合成过程的核心部分是创建一个BabelOn语言信息配置文件(BLIP)。据悉,在该公司的旧金山工作室里,通过让参与者阅读各种情感状态的特定文本,个人的BLIP就可以在约两小时的时间内创建。并且声音一旦录制,系统就能够根据相应情感需求来复制脚本,将个人的声音转换成其他语言,生成相应版本的语音,而无需重新找母语者录制。
核心优势:捕捉技术
在语言开发方面,该公司专注于英语、法语、西班牙语、德语、葡萄牙语、普通话、日语和印地语,其他语言也将根据需求上线。
在硬件上,BabelOn是与劳伦斯利弗莫尔国家实验室合作开发的,该实验室是一个专注于开发科学和技术的联邦机构。Hamilton没有提供许多其他细节,但表示,希望最终可以在旧金山以外的地方设立多个工作室。
值得关注的是,不同于传统的语音捕捉技术,BabelOn并不单单只捕捉声信号这一项因素,该公司的定制硬件还可以捕捉和分析呼吸,声信号如何在你的胸部和喉咙、嘴巴移动以及各种其他关键因素。
技术发展前景与潜在问题
Hamilton表明,虽然目前完全处理脚本需要几个小时的时间,但是,随着进一步的改善,系统将会在近期实现实时工作。不言而喻,这将大大扩展在电影和游戏领域的功能,并且可以用自己的声音,使多语言对话变得更加个性化,更具表现力。
但也存在很多潜在的危险,其中最重要的是有人的声音被“偷走”,并以她不同意的方式使用。所以安全因素将成为向消费者推广该技术过程中的一巨大障碍,即使Hamilton已经就此做出一定的努力,但仍需要进一步优化和大量的努力。
总结
该技术本身很有趣,但有一点需要我们注意:这是BabelOn的早期,我们还没有看到这个软件的应用,而且公司目前还没有客户端,所以具体应用效果尚未可知。不过就应用前景和公司透露的信息来看,该项技术依然是值得关注和期待的。
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新