深度|当所有的语音都可以被识别和搜索,将对你意味着什么
如果你能够听听人类迄今记录在案的语料库,你会认为我们是一个奇怪的物种。
我们将开始记录和自动转录我们谈话的大部分内容。我们说过的话,不是消融在记忆里,而是固化成文本整合为一个记录,以供引用、搜索和挖掘。这将发生在我们意愿和允许的标准之内。它会实现,它能实现。这来得比我们想象得要快。
这将使得难以置信的事情成为可能。回想你搜索邮件的所有原因。突然间你自己说过的话能以同样的方式搜索回顾。「给我看看去年一月前我和 Michael的对话。妈妈推荐的那家餐馆的地址是什么?我何时首次提到Rob的现任?哪些人出席了那次会议?」乔治梅森大学经济学家、一本即将出版的关于进化心理学的书的合作者Robin Hanson猜测说,我们可能会养成给我们说的话加关键字习惯来帮助我们事后回顾。或者,当你讲话的时候,一个软件代理将搜索你此前的谈话寻找相关内容。当你需要它们的那一刻,那些细节就会浮现。
我们说出来的大部分内容将会公开并成为网络的一部分。现在没法保存的大量的专业知识、意见、抖机灵和文化将变得和现在任何文章和评论线程一样有迹可循。你可以随收听飞行员的谈话、理发店的谈话或者研究生院的大型会议。你可以搜索你公司名字被提及的每个瞬间。你可以听到父子相承的故事,同事间的解释。人们会因为健谈而成为网红。广告人、律师和学者将深度挖掘这一纪录。可以品鉴的词汇数量将爆炸式增长——这不过是因为人们说的比他们写的多得多得多。
在电脑的帮助下,你可以追踪说话者的话语,或者标记出你最常用的短语,来找出那些你比一般人用得多的那些不太常用的短语,来看看还有谁和你说话方式类似。你可以检测到,哪些人在和你记录一样的内容——在音乐会或者电视节目上,并且自动整理你的评论。
如果你能够听听人类迄今记录在案的语料库,你会认为我们是一个奇怪的物种。
谷歌员工Bill Schilit曾经从事过谷歌图书语料库的最初挖掘工作,他说,你甚至可以通过引用来发现科学学科之间的联系。「科学领域存在着这样一个问题,不同的人用不同的名词来描述同一件事情,但引用可以打通不同学科之间的术语」,他说。他介绍了一个项目,谷歌观察了不用领域研究者的引用情况。在每份文件中,他们会抽出引用前面的那个句子——就是带出引文的那个句子——然后对两种语境进行比较,这样他们就能发现引文所指了:对不同作者而言,它意味着什么,不同学科的作者怎么称呼同一件事情。
但是这些对我们是好是坏呢?Nicholas Carr在他的书《浅薄》中指出,旨在增强我们大脑的新技术实际上会让他们恶化。我们越是依赖工具,我们就越少锻炼大脑。这是在说,我们大脑的一部分工作原理像肌肉一样:用进废退。 Carr 援引了针对伦敦出租车司机的关于何为知识的研究,如果他们要拿到运营执照他们就必须通过严格的考试,考察他们对街道地图和景点的了解。当出租车司机了解更多关于伦敦街道的知识,他们大脑负责空间信息的部分就越来越发达。而且,大脑这一部分占据了此前其他大脑灰质的空间。
矛盾的是,长期记忆似乎并不是以同样的方式运行的;它并不会「装满」。它将记忆的需求卸载到记录上,可能并不是在为其他更重要的思考腾出空间。我们可能只是在剥夺大脑有用的部分。Carr写道:「当一个人不能在长期记忆中巩固事实、想法或经验,他就不能『清空』大脑,也不能为其他功能腾出空间……当我们开始使用互联网来作为个人记忆的替代品,绕过了巩固的内在过程,我们是在冒着没有好好利用大脑的风险。」
接下来的担忧是双重的——如果你停止锻炼大脑中负责回忆语言或名字或「那天足球比赛后你和布莱恩聊天时他向你推荐的那本书的名字」的部分,有可能这部分就会萎缩。更可怕的是,如果你越来越依赖记录来存储事件和想法,你就会决定越来越少地用你的长期记忆来承担这部分工作。所以,你的思维会变得越来越无趣。
如果这就听起来令人恐惧,不妨再想想,如果生活在一个一切都记录在案的社会里会怎样。英国科幻电视剧《黑镜》(Black Mirror)就虚构了一个世界,类似谷歌眼镜的音频视频记录设备简直无处不在。地狱也不过如此。在机场安检时,特工要求你高速重播过去24小时的经历,这样他们可以看清所有和你互动的人脸。在聚会上,人们不再进行新的对话,而是将注意力聚焦在「回放」(redo)过去的经历,并要求朋友分享经历。孤身一人时,他们并不会像往常一样,在脑海中追忆那些模糊的、非线性的往昔,而是播放视频,并放大那些他们一开始曾忽略掉的细节。他们似乎还生活在过去,就像被困住了一样。过去则因保存在过于完美和公开的记录中,而显得扭曲不堪和光怪陆离。在这部电视剧里最生动、最黑暗的片段,我们看到一对夫妻在激情地做爱,却发现,最美好的性爱只存在于他们正用眼部植入屏幕观看的「回放」中;在现实中,他们却像两头被毒品吸干的僵尸,在冰冷的床铺上毫无感情地机械耸动。
这些对未来的想象,有的像天堂,有的像地狱。但最有可能出现的现实,却躺在天堂和地狱之间——当真有某种像「记录」的东西出现时,并不会重塑我们生活和相爱的基本模式。它并不会把我们的大脑变成浆糊,也不会把我们变成超人。我们将会一直扮演着那个惯常的、沉闷的自己,有时虚伪,偶尔坦率。是的,我们将会拥有新的能力——然而,我们的欲望会比能力改变得更加缓慢。
语音识别久已成为人工智能研究的一座圣杯。 贝尔实验室(Bell Labs)的工程师J.R.Pierce在1969年写到:「它也许就像是将水变成汽油,从海水中提取金子,治愈癌症或者去月球这些计划一样吸引人」。他认为我们提出这个问题并拿出资金研究它并不因为它是简单的甚或是有用的,而仅仅是因为和电脑进行对话会是一件伟大的事情。它会像是一部科幻小说,机器会因此看起来像是活过来。
事实上,语音识别之中似乎包含了人类理解的所有困难。毕竟,为了分析一个含混的音节,我们不仅需要关于语言的知识而且需要关于世界的知识,但这反而让它更迷人。语音识别的发展进程大体上代表了人工智能的进程。它也因此成为了一个基准和奖励。
最早的工作系统将他们自己限定在一个简单的词汇上,比如说,依次发出从「0」到「9」的读音,然后通过寻找他们音波中独有的特征来分辨词语。你也许预料到,随着词汇量增加,不同词语间的音波的区别变得更含糊了——这种方法崩溃了。研究者们意识到他们需要某种更稳定的方法。
他们终于在上个世纪70年代发现了一些门道。具体是是将语句在多个层面上同时组成结构。具体点说,他们想象识别系统在每个时间点上会在语调,音节,单词,语句等各层面会处于某种特定状态。而它的工作是预测每个层面接下来的状态。为了达到这个目的,它运用了大概率表。它的原理基本上是:「如果出现状态A,那么状态B发生的概率是0.1%,状态C发生的概率是11%,状态D发生的概率是30%」诸如此类。这些表格是研究人员通过训练系统对标定数据(这些手工录入的数据已经确认为真)的识别能力得到的。其中的机巧在于如果单词层面的预测是模糊的(也许是因为背景环境太嘈杂,或者是说话者语音失真),其他层面的预测能够被用来帮助排除错误的概率,达到正确的选项。这是一个巨大的进步。这就像是从一次用一条线索去理解一个字谜发展到在纵横字谜表去理解它:每条线索都能提示其他的谜语,这相当于简化并分解了整个谜题。
这个方法与以指数速度发展的训练数据(training data)和计算能力共同导致了过去四十年中语音识别中的大部分进展。它让我们获得了可用却易错的听写软件,比如说第一版的Siri——Dragon Naturally Speaking,以及那些可以让你用语音在给定选择项中做出选择(「账单查询」或是「计划检修」)的树型自动语音系统。但是在2010左右,这个过程看起来仿佛总是渐进式的——像是语音识别领域中没有可供发现的重大观念了。这个领域像是进入了稳定阶段。深度学习开始吸引人们的注意力。
Geoffrey Hinton和他的工作伙伴们(他们有段时间在多伦多大学工作,现在就职于Google)曾对深层神经网络模型(deep neural nets)进行试验。神经网络模型的工作原理类似于大脑的电脑程序:它们由层层的像神经元一样的单元构成,这些单元可以接收来自其他单元的信息并对这些信息作简单的函数计算(像求和或是求平均值),之后基于函数产出值选择是否给网络中更深层次的的单元传递刺激。网络模型可通过向最底单元层键入输入值并且检视最高单元层输出值来训练;如果输出值不是期望值,你可以通过一个简单的学习算法去调整单元间的联结( 「突触」)到你想要的强度。经过数百万的案例训练之后,你的网络模型也许能够成功的将你手头上问题的重要特征进行编码,并成为一个出色的组织者。
大部分神经网络模型是没有特定状态的。意思是针对特定输入值的输出值仅取决于输入值。这限制了它们在模块化语音识别中的效用。但是Hinton实验室里的Alex Graves好奇如果用输出值取决于一系列输入值的神经网络模型来处理语音识别问题会怎样,这个想法造就了 「递归神经网络模型」(recurrent neural nets)。这种模型效用显著。Grave的RNNs被给予远少于这个领域中主流多层预测系统拥有的语言信息,但它不久后或将赶上并超越那些老方法。
当我向Hinton问到这么简单的程序怎么能如此有效的识别语音时,他说这个问题让他想到了他喜欢的达芬奇的某些素描,这些素描描绘了骚乱的水流流过水闸的场景:画中的水流奔涌,涡旋中泛起白色的泡沫,完全是一幅混乱的场景。但是Hinton说: 「水流的行为却能够被极其简洁的纳维—斯托克斯方程描述。」 几个简单的原理产出了所有的复杂性。他认为同样的事发生在神经网络模型学习识别语音时。 「你不必手工将许多复杂的语音现象键入到系统中」,Hinton说到。
Hinton和他的同事们在Google从事计算机科学的基础研究,用他的话来说是: 「检验学习算法顺利运行的空间。」他们的发现会有许多应用成果,但是语音识别会首当其冲,并且不仅是因为它是学习算法合适的试验场所,Hinton告诉我说: 「重要的是谈话是和事物互动的最自然的方式。」
目前,谷歌、苹果、亚马逊与微软都对记录并转述我们所说的话没有兴趣。他们感兴趣于声音可以作为一个交互界面。例如Amazon Echo会坐在那里等着你发出指令;寻找歌曲或找一些其他琐事,说比打字容易得多,尤其是当你可以在房间里任何角落这样做的时候。当计算机变得更小,小到了我们的手腕上或鼻梁上,也许有一天到了我们的耳朵里,键盘就不再实用了——但是我们仍然需要一种方法去告诉计算机怎么做。那么为何我们不说出来呢?为什么不就说:「Okay,Google,带我回家」呢?
这就是未来可见的事情。语音识别技术被AI的基本研究——因为它是一个模型问题——和谷歌的需求与它要为新设备开发更好的语音界面所驱动。无论人类是否刻意推动,科技会很快发展到一个引爆点——记者Matt Thompson叫做语奇点(Speakularity)——到那时「记录语音立即可检索并可读是一个心照不宣的期盼。」而唯一一个问题,就是我们决定要记录什么。
不在此处:科幻电视剧《黑镜》描述了「一对在床上的恋人,都在用着植入技术,重温着过去的某个时刻」。
如果你听了人类所说的一切的记录,你会认为我们真是个奇怪的种族。你会听到所有的喋喋不休的电台,配音演员的多次录音,你还会发现记者采访他们的对象,机长对电塔的控制员——而这些仅是声音之海的一滴水而已,「为了质量的目标而记录」。你不知道人类的生活声音真正是怎样的,或者我们真的在谈论什么。
Megan Robbins是加利福尼亚大学河滨分校的助教,他比任何人听到的谈话都要多。他的研究基于一个设备,叫做ERA(电子激活录音),设计来「自然背景下抽样行为」。研究目标同意整天戴这个设备。它在一个小时后有规律的启动五次,记录30秒戴着它的人所说的和所听到的。目标可以回听所有记录,并任意删除,再把它交给Robbins以研究。
有了EAR,Robbins可以成为研究日常生活的科学家。比如说,她可以听一对夫妇怎么指称自己:他们是说 「他/她和我」还是 「我们」 ?她可以听人们笑,并且试着理解为什么。一个研究发现: 「绝大多数的笑不是发生在幽默刺激出现时。」大体上来说,笑是一种用来发送信息的社交工具,像是: 「我觉得你的地位比我高,」或是 「我想和你交往。」
Robbins目前在使用EAR研究夫妻是怎样应对癌症诊断结果的。他们会谈些什么?他们会讨论癌症么?他们会笑的少一些么?Robbins说: 「你绝不会想到从事对乳腺癌患者发笑频率的研究的。」但是有了记载一个小时又一个小时谈话的文字副本和录音带,许多关于我们基本行为的问题被揭示了。统计表明,7%的癌症患者会对着他们的视频剪辑发笑,这和大学生的概率相当。他们讨论癌症的频率也和常人接近。Robbins解释说人们的日常生活似乎有某种稳定性——即便是当你被确诊患了癌症。 「不继续每天的习惯活动对人们来说真的很困难 。」
她解释到人们的谈话平均起来有40%是关于他们的日常生活的。她的学生研究助理,以前对听人们谈话的录音很激动,「现在却心碎的发现日常生活有时很世俗。它就是由看电视和关于你晚饭会吃什么的谈话这种事情构成的,当然还有关于电视的谈话。」 Robbins说她惊讶于普通人每天会看多少电视。「这是一个几乎完全被心理学所忽视的话题,但是在EAR研究中却显示出重要性……它只是在面对癌症的夫妇谈话中才占第二位。」
人们通常不会讨论的一件事就是EAR。「自我报告对他们的生活没有造成任何影响。他们通常忘记了他们正戴着它。」 事实上,你可以在文字副本上查询提及到EAR的谈话。引人注目的是,仅在两个半小时后,他们就放下姿态。「生活依旧如常,」 Robbins说到。
我们也许会认为人们意识到被录音时将不会进行一场平常的谈话,因为他们会忙于表演。但是任何曾对一个人录过音的人都知道一直关注于自己说话的样子能让人精疲力尽所以这种自我意识监管不可能持续很久。Robbins的数据帮助验证了这样的直觉:不过一段时间之后,你就会回到日常状态。
Hanson认为一旦语音转录普及,「日常」 也将仍会是对其恰当的形容词。他不觉得它将会像一些人认为的那样改变世界。「一旦你注意到我们的世界和1000年前是多么的不同,那就很难对这些感到很兴奋。」 他说到。
他解释道:1000年前,人们几乎没有隐私。住宅稠密,房间狭小且没有锁,房子里没有门厅,其他人能听到你xxoo的声音。当你外出时,你几乎不会独行;你在小群体里闲逛。大多数住在小城镇里,那里每个人都认识其他人,每个人都会说别人的闲话。那时的生活方式和现今的生活方式迥异,然而我们却适应了这种变换。「我必须要找到一些比较起来变化很小的事情。」他说到。比如人们总是能够区分亲密朋友和普通朋友;他们总能决定要相信谁;他们总是有办法亲密交谈 ;他们总是能说谎。
他说:「即便我们那些身为粮秣征收员的祖先也很擅长向别人隐瞒信息。按规定,粮秣征收员应该分享食物,但是他们私藏大量食物。他们在回营地的路上胡吃海喝,他们在营地中也私藏,他们会选择性的把特定的食物给特定的人。」即便是在30个人的营队中(里面每个人一生中会见到几个其他营队),并且每个人晚上会待在同一个营房中——即便是在那样的环境下,我们的祖先也能够偷漏食物,并且利用语言和肢体语言获取利益。
对人们的谈话进行录音只会给我们一个绘制我们既有能力的新维度。被持续录音的人们会通过掌握什么在脚本上什么不在脚本上而让自己适应这个事实。他们会像在孩子身边谈话的父母;他们会变成花言巧语、推诿搪塞的大师。他们会使用讽刺,或会扮鬼脸,或会露齿而笑,或会向后点头,或会假笑,抑或向某处凝望,这样他们就能不发一语的进行交流。
这听起来让人疲惫,但是我们已然流畅的适应了私密、小团体以及公共范围的谈话——不信去一个办公室看看,派对也行。我们总是在询问和回答关于我们听众的微妙的问题,然后根据答案调整我们的谈话。(Jack能听到吗?Jack的老婆能听到么?)
Hanson认为:「这并不意味着我们说的每件事现在都一目了然了。我们直白的说出来的话语中有一个层面…..但是我们总是在多个层次同时交谈。」
每当我们考虑一种新技术的时候,我们倾向于管窥蠡测,仿佛世间的一切都必须从这个技术的角度来加以解读。我们生活在一个杞人忧天的社会中。但事实上我们大脑的硬件几乎没什么改变,而大脑软件在一代代的传承中变化也非常缓慢。
全纪录不会把我们的大脑变成浆糊。是的,我们会花更少的精力来把精彩言论存入长期记忆。脚本将会把我们从记住谈话中的某些细节中解放出来。但是我们不必就因此担心失去记忆细节的能力——就像我们不必担心因为发明了日历就失去了计划的能力,或者发明了笔就失去了记忆的能力。我们将会以其他的方式扩展我们的长期记忆(比如说研读借由脚本得以实现的大量新资料。)我们的大脑适应了书写、图书馆以及网络。他们会适应全纪录的。而且无论怎么说,人们不像关注他们的仪表那样关注他们的言辞。比起记录独白,他们更有可能停下来自拍。
生活也不会变成《黑镜》里描述的那样,因为要配合剧情就需要所有的场景和台词都紧扣最新科技。当然,全纪录会加剧我们的自恋、怀旧、急躁和偏执。它甚至会让我们一股脑堕落和麻木。但即便此前这样的情况发生过,无论是由于智能手机、电视、镜子还是烈酒,不管怎么说毕竟我们成功做回了自己。
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新