重磅!图灵获 NLPCC2018 竞赛用户画像和推荐任务第1名
图灵在用户画像和智能推荐上已经达到行业顶尖的水平,并赋能到国内 Top 50 的儿童玩具品牌,帮助他们实现智能化的产品体验。
近日,NLPCC 2018 竞赛公布评测结果,图灵机器人NLP研究员在用户画像与好友推荐任务中均获得第 1 名!
另据悉,用户画像与好友推荐这两项新技术将在7月1日随着图灵OS新版正式上线!
NLPCC 是国内首个 NLP 领域的国际会议,是国际上中文计算领域的顶尖会议。会议由中国计算机学会(CCF)主办,CCF 中文信息技术专业委员会(CCF TCCI)及高校(每年通过投票选举)承办。会议内容主要围绕自然语言处理(NLP)和中文计算(CC)两方面来进行。
本次竞赛,包含 8 项任务评测,涉及情绪识别、语法纠错、自动文摘、对话系统中的口语理解、多轮人机对话、知乎问题标注、智能问答、用户画像与推荐等。凭借多年的技术和数据积累,图灵参加并拿下了用户画像与好友推荐任务第一名。
用户画像和好友推荐是什么?
用户画像是在给定了用户的一些基本信息,例如:性别、地理位置、好友关系、微博信息,以及用户的标签信息,需要根据用户的基本信息来预测用户的标签。
好友推荐任务目的是基于用户历史好友、用户的个人信息、微博文本、到过的地点等,为用户推荐新的好友。该任务中一个用户可能和多个标签相关联,是一个典型的多标签分类任务,目前比较流行的有三类方法来解决多标签分类问题:
(1) 问题转换,该方法的思想是将多标签问题转换为单标签问题,例如二元关联、分类器链、标签Powerset等方法都是早期提出的方法,但是该方法没有考虑标签之间的相关性。
(2) 改编算法,该方法的思想是将多标签分类问题转化为多分类问题。该方法跟问题转换方法一样没有考虑标签的相关性,而且当标签数量比较大的时候,分类组合的数量会很大,增加了模型的复杂性,并降低了精确度。
(3) 集成方法,该方法的思想通过组合多个模型,以获得更好的效果,使集成的模型具有更强的泛化能力,但是该方法需要大量的维护工作。
由于之前的方法都有各种各样的缺点,考虑到任务中标签之间有比较强的关联性,利用深度学习能够自主学习特征的特性,我们提议了新的模型,考虑到用户基本信息的组合特征和标签之间的相关性,从而提高了预测的准确率。
好友推荐任务在大部分研究好友推荐的文章中,大部分是基于特征挖掘实现的,需要充分的用户和好友的微博文本,个人信息,兴趣爱好甚至生活习惯等信息,还有一些基于社交信息进行图挖掘。
在准备过程中,我们首先寻找了相似的数据,并尝试了从专门用于好友推荐的多种,包括传统的FOF、协同过滤、矩阵分解等。在发布正式数据后,对适用各类特征的方法进行了评估和比较。最终根据用户历史社交信息的多少,分别选择了合适的方法。
就像人类的智慧行行程需要依赖于知识和经验,机器人想要聪明也需要有足够丰富的“知识”和“经验”。
为此,图灵建立了大量的知识图谱——在这其中,图灵不仅有知识图谱数量上的累积,更强调图谱中每个节点的关联性和跳跃性。在对话过程中,机器利用知识图谱来理解人的话题,并找到话题图话题的关联性,实现在相互关联的话题之间自然跳转。
你是谁?我们发生过什么?
搭载了图灵大脑的机器人,可以把每一个用户作为一个实体,在使用中不断关联与用户相关的信息,反向刻画出精准的用户画像。基于和人的交互数据,机器人会再形成新的知识图谱,并完成跨越间维度的上下文对话。
——换句话讲,你家的机器人不再是个没有故事的“傻孩子”,它不仅知道自己是谁,也知道你是谁,甚至记得你喜欢什么、你说过什么话,并有可能在日后的对话中,用你的说过的话“怼”回你。
你喜欢什么?我能为你做什么?
在解决“我是谁”、“你是谁”这样的认知问题之后,接下来就需要考虑“聊得来”的问题了——机器人需要知道你喜欢什么,并根据你的兴趣向你主题推荐聊天话题和内容服务。
在对话状态下,基于前面的精准用户画像,图灵会通过智能推荐算法,按照用户的特征来选择其感兴趣的话题。而在非对话状态下,图灵则会主动筛选内容和服务,帮助用户快速找到。
简单来讲,就是同一款搭载了图灵大脑的产品,在不同用户的家里可能会有完全不一样的表现——小女孩的机器人喜欢讲白雪公主和哆啦A梦的故事;小男孩的机器人对超级飞侠和奥特曼的故事如数家珍。
在人机交互的过程中,精准的用户画像可以为机器「理解」用户打下基础,帮助机器更加清晰地了解用户的意图;同时,通过智能推荐的方式,在操作层面上,可以减少用户的操作成本,而在对话过程中,可以预先圈定意图范围,避免了“答非所问”之类的尴尬。
凭借图灵在人工智能领域多年的积累,图灵在用户画像和智能推荐上已经达到行业顶尖的水平,并赋能到国内 Top 50 的儿童玩具品牌,帮助他们实现智能化的产品体验。
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新