智能语音加速落地,离线方案如何实现破局突围?

IM2Maker 3年前 (2021-07-02)

TimesVoice的目标是在成本可以接受的前提下,追求最好的用户体验,同时无需收集专门的语料,即可支持对自定义命令词的快速定制。

方兴未艾 -智能语音交互风起云涌

人工智能技术发展到今天,智能语音已经成为公认的最重要的人机交互方式之一,是人工智能的核心技术,也是最早在人们的日常生活中得到落地和应用的技术之一。特别是近十年来随着深度学习在语音识别领域的使用,机器语音识别的准确率得到了长足的发展,已经达到或者超过了人类水平。

2015年亚马逊智能音箱Echo和2016年谷歌的GoogleHome相继推出以来,各种以语音交互作为人机交互方式的终端设备得到了快速的落地和普及,这其中既有经历了2017年“百箱大战“的智能音箱这样的全新产品形态,也有集成在手机、车载等设备的语音助手,同时也在逐步渗透到空调、洗衣机、油烟机等白电和各种各样的小家电中。

智能语音加速落地,离线方案如何实现破局突围?

纵观国内外人工智能企业,以智能语音为主要方向的也占据了相当的比例,与机器视觉、自然语言处理等赛道并驾齐驱。这其中既有BAT等互联网巨头,也包括科大讯飞、思必驰、云知声等一众国内语音领域的领跑者和独角兽。

相应的,智能语音整体市场容量也水涨船高。根据ReportLinker预测,到2024年全球智能语音市场规模将得到215亿美金,覆盖了智能家电、智能家居、可穿戴设备、智能音箱、语音助手等生活类场景,以翻译机、录音笔、会议宝为代表的办公场景,和车载语音等各类消费级应用。

各有千秋离线在线方案百家争鸣

在智能语音识别中,技术方案路线分为离线方案和在线方案两个大的类别。所谓离线语音识别,它无需联网,完全在本地运行,因而可以不受网络环境影响,不需要app,也不需要后台服务器。设备可以根据用户的语音指令做出快速的响应,相对而言具有更低的成本和功耗。另外不可忽视的是,在目前这样一个数据爆炸的时代,不联网意味着用户数据可以完全可以在本地进行处理和存储,使得用户的隐私安全可以得到更好保障。

智能语音加速落地,离线方案如何实现破局突围?

当然,由于终端设备功耗和成本的限制,计算和存储资源有所局限,无法完成复杂的语义理解,基本上还是只能识别和处理预先设定的命令词词条或着短语,数量一般在200个以内,且每个命令词长度一般在2-6个字。

相对应的,在线方案由于对语音的处理和识别在云端进行,对于命令词的长度和条数没有限制,也可以处理较为复杂的语义理解和交互对话。但是,在线方案需要依赖网络环境,相应延时较大,整体方案成本较高。用户数据和隐私安全,也是一个不容忽视的隐患。

正是由于离线方案和在线方案有着鲜明的互补特点,离线语音和在线语音各自也有着明确的应用场景。以智能音箱、语音助手为代表的终端中,由于其作为家庭智能控制中心的地位,以及与云端进行内容交互的天然需求,在线方案是不二的选择。随着2017年智能音箱市场的风起云涌,各大厂商逐渐从作为入口的音箱硬件本身的比拼,进入到背后的内容、流量和生态的较量,也很快形成了以亚马逊、谷歌、阿里、百度、小米等巨头公司来主导的竞争格局。

当然,即便是在这样的场景中,也会有本地处理的需求。比如说,对麦克风采集的语音数据进行前端的处理和降噪,以及通过唤醒词将设备唤醒进入到工作模式,像亚马逊的“Alexa”,以及“小度小度”、“天猫精灵”、“小爱同学“,对这些耳熟能详的唤醒词的识别,就是在设备的本地来实时完成的。

与集中但品类有限的“入口”和“内容交互”类设备相比,离线语音背后代表着更为广大的潜在市场机会。各种品类的白电或者小家电,都可以通过语音代替传统的按键或者遥控器来进行控制,而诸如儿童玩具、可穿戴设备也有越来越多的语音交互的需求。此外,也可以与图像和视觉相结合,应用在更多的多模态交互场景中。因为这只是一种更加贴近于人类自然的方式进行人机交互,只涉及人机交互方式的智能化变革和升级,而不是创造新的产品形态,因此几乎可以跟所有品类的产品应用相叠加发生化学反应,这其中的想象空间是非常之巨大的。

雾里看花离线语音面临推广困局

任何一个新技术或者新产品的推广和普及,市场的培育和用户习惯的养成,肯定是需要一个时间过程的,更何况人机接口这种最基本的使用方式,更加不可能是一朝一夕就可以改变的。这个过程的发展,必须要在合适的场景中,以足够好的用户体验作为基础,而可以接受的成本和可复制的商业模式,则是真正能够推广落地的驱动力。上述四个环节,可以说是缺一不可,但又存在相互依赖和制衡的关系。

发掘到真正需要解放双手的场景,而不是为了语音控制而创造的伪需求,当然是最重要的基础。实际上,让用户可以摆脱“永远找不到”的遥控器或者繁琐的手机app,也不用在不愿、不方便起身的时候去操控开关按钮,这种要求在我们日常的日常办公和生活起居中,的确是广泛存在的。

有了客观存在的需求,接下来就需要把产品的用户体验做好,最终通过语音交互的方式,带给用户交互化繁为简而不是相反的体验。想象一下,如果粗暴的丢给用户几十上百个命令词,亦或听不懂、听不清、甚至听错用户的指令,很快难逃被束之高阁的命运。好在随着技术的成熟,无论是多麦阵列的各种声学前端处理技术,还是后端的关键字识别和ASR语音识别,在技术上都已经相对成熟。

智能语音加速落地,离线方案如何实现破局突围?

多麦阵列的语音声学前处理流程图

到此为止,一切看上去都很完美。然而,事实上,自2017年陆续有专用的智能语音芯片问世以来,整个离线语音市场的发展似乎一直不愠不火。在一些品类的产品中虽然得到了陆续的试水,但更多的是作为一种附加的产品卖点甚至是噱头而存在,与预期的成为主要的人机交互方式,还存在着很大的距离,似乎离真正的市场爆发前夜,还若即若离。

人工智能新技术的落地的前提是成本可以落地。因为在大多数场景真正落地的时候,还是会面临很大的成本压力,特别是对价格极度敏感的消费类产品尤为重要。对广泛的端侧设备来说,算力和存储的两头,一头是成本及背后的市场接受度,另一头则是性能及背后的用户体验。很多时候,这个跷跷板的平衡点,并不是那么容易找到的。

另一个重要的障碍是可复制性,或者说把智能语音方案做成标准化产品的可行性。众所周知,只有当一种产品成为“标准品”之后,才有可能真正大规模去推广和应用。而智能语音本身的特点决定了,不仅仅是不同品类,就算是相同品类的不同品牌,它们的控制命令也会各不相同,往往需要进行有针对性的定制。基于目前主流的技术,可以产品化的效果往往需要大量的语料作为训练的基础,而这些都意味着高昂的成本和以周为单位的交付周期。这几万元到几十万元不等的开发费用,毫无疑问会成为阻碍智能语音在很多应用上落地的鸿沟。

突出重围时擎声瀚携手技术破局

所谓解铃还须系铃人,要想突破困局,最终还是要依赖于技术的进步。时擎科技与声瀚科技近日联合发布的,基于时擎科技AT1611芯片,搭载声瀚科技最新一代本地语音识别引擎的TimesVoice离线语音方案,就在努力尝试去解决上述两个难题。

据了解,TimesVoice的目标是在成本可以接受的前提下,追求最好的用户体验,同时无需收集专门的语料,即可支持对自定义命令词的快速定制。从客户需求到形成产品级标准的语音方案,只需要几个小时的时间,几乎做到了“立等可取”,也不需要额外的定制开发费用。大大缩短了设计导入的时间周期和开发成本,让很多品类的设备插上语音的翅膀成为了可能。

智能语音加速落地,离线方案如何实现破局突围?

时擎科技是一家专注于端侧自然人机交互的芯片公司,致力于为各类端侧应用提供高能效比和高性价比的芯片和解决方案。他们针对端侧应用场景的特点和算法需求,研发了Timesformer系列DSA智能处理器,可以友好高效地支持各类DSP或者神经网络的端侧语音、图像和视觉算法。

声瀚科技则专注于智能语音技术的自主研发与应用,致力于将高端的语音识别技术真正融入到人们的日常生活里。声瀚科技连续数年上榜国内语音识别技术十强榜单,其语音识别方案已经成功进入海尔、美的等国内家电龙头企业的产品中。

AT1611是时擎科技2020年推出的一款端侧智能处理芯片,搭载了其自研的TimesformerBlaster100智能处理器,具备百GOPS的人工智能算力和多核心的DSP处理能力,同时支持MB级的片上高速SRAM,具有灵活可扩展的DRAM和NorFlash等丰富的存储资源。时擎和声瀚团队在长达半年多的时间内,组成了技术联合攻关团队,紧密配合,充分发挥了AT1611灵活强大的DSA处理性能和丰富存储资源,成功地将声瀚科技包括了完整的多麦克风前端处理在内的最新一代语音识别引擎无缝落地在AT1611芯片上。

智能语音加速落地,离线方案如何实现破局突围?

时擎科技AT1611芯片

谈及这次合作研发的过程,时擎科技研发副总裁仇健乐表示,声瀚科技提供的端侧算法和模型之前运行在应用处理器上,得益于时擎特有的DSA处理器和灵活的芯片架构设计,经过双方团队的紧密配合,对运算和存储资源做到了寸土必争、锱铢必较,才让声瀚的算法和时擎的芯片浑然一体,最终在在性价比方面体现出竞争优势。

智能语音加速落地,离线方案如何实现破局突围?

时擎科技研发副总裁仇健乐

目前,TimesVoice快速定制语音方案已经开始小试牛刀,在短短一个月内,完成了电动车、跑步机、按摩椅等多个“非典型”智能语音场景的设计导入,而这些场景的噪音和应用环境各有不同,命令词更是千差万别,在传统的基于语料收集进行训练的方案中,至少需要3个月到6个月的研发时间。

在人工智能行业中,技术和市场很多时候就像一个人的两条腿,不断通过Tick-tock式的迭代演进,我们有理由相信,智能语音技术将会一步一个脚印地,逐步渗透到我们生活的方方面面,真正迎来爆发的那一天。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到