在深度学习之上,百度还需做些什么?

韩璐 8年前 (2016-07-20)

再次爆出“赌博网站深夜推广上线”丑闻,基于深度学习的百度搜索引擎,这次又是哪里出错了呢?

近日,百度“深夜赌博网站”事件占据了各大网络媒体的头条。百度的解释是他们在搜索引擎中一直为之自豪的机器学习似乎出现了bug,但事实真的如此吗?

在深度学习之上,百度还需做些什么?

事件回顾:赌博网站深夜推广上线,国家介入调查

据报道,此前如果在夜间(21:00—9:00之间),在百度搜索框内输入“新葡京”、“威尼斯”等关键词,页面就会跳出一些推广网站,但在逐一打开后就分别显示为“澳门新葡京赌场”、“明升亚洲网投”、“威尼斯人娱乐赌场”、“太阳集团”等4家网站子。而这些网站的子栏目中均涉及赌博电子游艺项目,并介绍了如何存款及提现;另外,有时打开的一个页面看起来很正常,但杀毒软件也会发出警告,提示为赌博欺诈网站。

回想此前的“魏则西”事件,只能说百度用于搜索引擎的深度学习算法还不够完善,以至于给自己挖了一个又一个的坑!

在深度学习之上,百度还需做些什么?

最大祸首:“深度学习算法”的滞后性

在网站审核方面,据百度官方回应,他们每天采取“机器+人工”的方式来对4.7亿条推广内容进行审核,其中包括对推广内容以及网站内容的审核,而这里的机器可能就是指“深度学习算法”。

一般来讲,基于人工质量评估员对网站的评测数据、敏感词汇库以及对于网站点击率、跳出率、停留时间等数据的监测等等,深度学习可以进行大量的数据训练,从而产生自己的一套方法,进而对网站的内容等方面进行审核,区分哪些是高质量的网站,哪些是低质量的网站,在此基础上,深度学习算法着实为人工审核节省了不少的时间与繁琐的过程。百度搜索引擎中深度学习算法的应用应该大类相同。

但从结果,我们也可以看出,“深度学习算法”在内容审核方面出现了滞后性,对于“敏感词汇”的辨识度以及网站名称与内容的匹配度还没有达到人类那样的精确,比如说让俄罗斯总统普京躺枪的“新普京”等。

在深度学习之上,百度还需做些什么?

添加“剔除”功能,或可有助于避免类似事件

据百度官方回应,这些推广网站多数早在4月就进行了开户,虽如此,但直到6月25日突然开始推广,期间一直没有进行任何相关的推广工作,因而,这些网站一上线就打的百度一个措手不及,从而没有及时进行处理。

针对这种突发状况的发生,百度应该引起重视,并采取措施,做好一个防范准备,比如在算法的设置上添加一个“剔除”异常网站等链接的功能。拿这次事件作例,从开户到推广,此次所涉及的网站已然沉寂了两个月之久,这种现象不仅显得异常,从侧面也显得这些网站链接毫无价值。既然如此,何不干脆从数据库移出去?

题外话:百度还需要接受监管

据百度非企渠道业务员刘明(化名)透露,以今年一季度为例,有百度推广业务代理商为完成任务,给非企渠道业务员的回扣达80%;且其所展示的企业资质大多造假,多家赌博网站在百度的推广费用一晚累计超过30万元。

面对如此局面,百度需要面对的问题不仅是自家搜索引擎深度学习算法的漏洞,还有社会舆论和国家相关主管部门的监督和管理。

在深度学习之上,百度还需做些什么?

扩展阅读:深度学习在百度搜索的应用

在百度,深度学习被成功地用于包括搜索引擎优化、图像识别、语音识别和广告点击率预估等在内的多个产品,并大幅度地提升了这些产品的准确度。

此前,百度技术委员会理事长陈尚义曾表示,在引入深度学习后,他们用GPU的训练系统来实现深度神经网络。而在此基础上,百度的新一代搜索显现了四个特征:一是搜索结果精准展现;二是拥有更智慧的交互体验;三是全面的信息网络;最后提供了更加丰富的搜索模式。

具体来讲,就是当我们在词条框中输入关键词之后,系统会根据关键词提供精准的、全方面的详细信息,比如搜一下北京故宫,页面就会出现百科普及、门票购买渠道以及路线查询等信息,包含了我们可能需要了解的所有东西。此外,基于深度学习的语音识别以及“以图搜图”等功能,大大提升了搜索效率,也为人们信息的搜索提供了不少便利。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到