「人物特写」电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

镁客 7年前 (2017-08-10)

千人千面，任何的样本，都是小样本，任何的数据，都是小数据。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

陈建文

电子科技大学视觉智能研究中心主任

在国内AI人的印象里，陈建文是一名创业者，也是一位学者。

但他最在意的，还是学者的身份——电子科技大学人工智能研究中心主任。

不过，显然他这个学者不是严肃型的，而是跳脱型、开放型，那主要是因为他想得深、说得多。

因此，第一次见面，我们就被他的言论给“吓”到了。

那是在7月9号的一次国内顶级AI创新峰会上，当时作为主办方特邀嘉宾的陈建文就不时的爆出“骇人听闻”的论断。

时隔半月，在2017CJ上我们又见到了他，于是就有了下面的谈话。又经过一周左右零零散散的整理，终于成文：

支撑AI复兴希望的是人类对未来的向往

在很多人的印象中，人工智能技术有着长达61年历史、经历过三起两落的曲折历程，而其之所以会一直保留着复兴的希望，很大程度上依赖于某些关键性技术的不断升级和突破。

这些关键性技术，既有感知技术、深度卷积神经网络，也有大数据、模式识别等等。

但在AI领域浸淫了十多年的陈建文看来，事实却并非如此，他似乎有着自己独特的判断。

科幻电影也是技术突破的动力

“人工智能之所以会长盛不衰，或是能够不断的复兴，首先是因为它是未来的趋势，是科技发展的大势所趋，这个谁也抗拒不了。

“就像我们在70年代、80年代看的科幻片，到零几年的《阿凡达》，甚至是近几年的《星际迷航》、《骇客帝国》。基本上，大家看到的未来几乎都差不多，大同小异。”

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

除此之外，陈建文认为，只有一个原因，那就是人类对未来的向往。正是这种向往，才推动着技术的不断进步。

“想象一下，在未来，会有机器人跟你说话，陪你做各种事情——你看今天我们看到的科幻片，很多地方都描绘了这样一幅令人向往的画面。

“我昨天下午在四川参加了一场AI的学术会议，会议上一个参会者说：我们以前读比尔盖茨，他讲的未来和他描述的东西，当时觉得像科幻片，但今天看上去，很多都已经实现了。

“所以我觉得，在眼下这个时间点看AI的未来，不管是三起两落还是螺旋式上升，都是有迹可循的。”

技术的发展往往有自己的轨迹和规律，每个时间点都会有不同的技术出来，随着计算能力、硬件条件等各方面的东西越来越完善，每个时间点的技术成就都不一样。

“就像几年前、十年前我们讲模式识别，后面又说机器学习，这些其实都是随着计算能力的增长，随着算法的突破，而自然逐步出现和逐步实现的。例如神经网络已经被用于解决各种各样的问题，例如机器视觉和语音识别。这些问题都是很难被传统基于规则的编程所解决的。

因此在陈建文看来，AI的复兴并不仅仅得益于一两个关键性技术的延续和突破，它更大的原因其实是人类对未来的向往。

而人类对未来的美好向往和心里的渴望，这些都在支撑着AI技术和各种应用场景的深入发展。

整个《哆啦A梦》就是一场虚拟世界的直播交互

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

说到直播和交互，就不能不提到虚拟世界和现实世界的差距和界限。而在这里，我们会发现一个非常有趣的现象。

就像很多70后、80后最喜欢看的一部日本动画片《机器猫》（现在叫《哆啦A梦》），最终的结局什么？就是主角某一天大梦初醒，发现头上插了个东西。而剧中所谓的康夫、小静等所有的人其实都是在一个虚拟世界里的虚拟人物。

他们可以在天上飞来飞去，可以打开一个任意门，穿梭到另外一个地方去。这跟我们看到的magic（就是骇客帝国里面看到的，躺在床上忽然就到了一个虚拟空间），和我们看到的《盗梦空间》、《阿凡达》所描绘的场景，有本质区别吗？

似乎并没有。

“所以在我看来，多年以后甚至未来的100年，技术都是会一直演进的，唯一不变的是人类对想象中的未来的向往。而这种向往让所有的研究员、工程师、博士、资本趋之若鹜，都在往这个方向去努力。

“大家觉得这就是未来，我们就要达到那个目标。至于说要怎么达到这个目标，这就是算法要解决的问题。所以我跟朋友们讲，看待现在的直播，你应该反过来想一个问题。

举个例子，我在上海，你在南京，只要我们俩一直播一连线，我就可以看到你我在旁边了，这是视频直播；如果是VR直播呢？你会感觉到我就在你旁边，但是那是另外一种截然不同的形态；而如果未来是全息的直播呢？又会是另一幅画面了。

因此陈建文认为，视频直播技术也是虚拟现实一种阶段性的技术。从广义来讲，所有的AR/VR都属于人工智能范畴，它们的核心技术也都是AI技术。虚拟现实完成的是AI的视觉应用场景和用户接口。这也是为什么Facebook扎克伯格认为，VR应用还需要至少十年以上时间才能进入普通人的生活，但是依旧在重兵押宝这个领域。

“2015年业内讲直播视频，2016年讲VR，未来可能会讲的更多。像很多科幻片里的场景一样，按键一按，我就“嗖”的一声出现在你房间里，而且就在你旁边。

“然后等聊天结束了，‘哥们，我回上海了’，我一按，又回来了。

“其实，传输的是人吗？不见得是人，而有可能是我的影像，在你那边呈现出来而已。”

未来，智能家居、音箱等产品一定是家里的标配

时光放到30年前，人们对智能家居、智能音箱还没有一个成熟的概念，或者说不会奢望这些将会出现在日常生活中。但现在，情况显然发生了变化。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

对于家庭生活的智能化产品，陈建文一直持积极态度。他认为，在未来的场景下，智能家居、智能音箱等必然会成为家里的标配。

中国的智能家居太独立，背后没有完整产业链

“当我们还小的时候，当时都不敢想象家里会有汽车，而现在，我们的儿女一出生，往往家里就已经有了一辆或几辆车了！智能家居产品也是一样，虽然目前还未普及，但未来一定会是家里的标配。

“从算法、环境等因素来看，智能家居、智能音箱它都属于接口设备，它未来可能不一定会是我们目前所熟知的这个形态。”

关于这一点，业内其实有很大的想象空间。智能家居、智能音箱等，可能会是音箱的形态，也可能只是个贴在墙上的按钮，甚至可能是个机器人、虚拟人。

“想象一下，你在家里只要往那儿一站，旁边就会出现一个标准的全息美女。她就跟你问好、陪你聊天、听你指挥，那也是智能家居啊，对不？单单是她跟你说话，就意味着已经把音箱和家居给全部做到一起了。”

对现在市场上大行其道的智能音箱产品，如亚马逊的Echo、谷歌的Google Home、苹果的HomePod、还有小米的小爱同学、阿里的天猫精灵X1等，陈建文认为，它们是一场革命，一场针对传统音箱和家居市场和理念的革命。

有句话叫做：只要方向是对的，就不怕道路有多遥远。这其中的核心点就是商业化的技术和应用场景，陈建文认为，智能音箱的应用场景将会非常的广、非常的大。

但是它爆发的时间点，或者说它在什么时间里被需要，将是另外一大课题。

“在目前看来，中国的智能家居、智能音箱还都太独立，背后没有形成一个产业链。这样的话，到最后，整合市场就依然还是巨鳄的事，只有它们才有对应的体量和实力。

“今后，哪个公司能完全以智能音箱为接口，整合家居里面所有的东西，那么它就是未来。”

智能家居的核心是有什么用，而不是长什么样

陈建文认为AI，更多的是一个工具，比如怎么帮助盲人看到路，怎么帮助别人快速的找到一个东西。

AI，也包括AR/VR，它不应该是一种玩具，它应该多一些工具的属性。相应的，应用到家居领域的智能家居和智能音箱等，它的核心只能是工具性，而不在于外在的形态。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“智能家居、智能音箱的行业背景和应用场景很大，商业化技术需要过程，需要时间去形成一个完整的产业链，形成完整的东西的，我觉得这是一个很好的点。

“现在的音箱还是有固定形态的，而理想中的，或者说在未来，它应该是没有固定形态的。它可能只是贴在墙上的一个danse，你在房间里面说一句话，比如说music，它就开始放音乐。

“这个东西它可能跟音箱这个形态完全没关系（它属于语音识别的一部分），它仅仅是一个传感器。但遗憾的是，我们现在这个阶段，中国的房子里还没有把这种传感器做进去。

“所以，国内老讲智能家居，某种程度上太概念化太虚了。我在美国的家里面，卫生间里面，买这个房子的时候，人家就已经提前安装湿度检测器、温度检测器，甚至语音识别设备等等。当你洗完澡之后，从来就不用管家里所有的湿度、温度等的调节，全部都是自动的。那你说，这个是不是智能家居呢？

“现在国内怎么干呢，就是买一个加湿器放在那，就算了事儿。而欧美国家早就已经把智能这块固化在墙壁里面的传感器中了。”

所以说，目前所谓的智能音箱等只是阶段性的产品。在人工智能大数据、云计算、智能算法的加持下，这种阶段性的产品也将很快会迎来更大的发展契机。

没有完美的大数据，现实世界都是小数据

研究AI的人都知道一个基本的原则：数据越大越全面，输出的结果就越精准。

但问题是，我们始终找不到理论上完整的大数据，所以业内有小数据和小样本学习，即推理和规则体序。而这二者的结合，似乎就是AI未来的重心所在。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“务实一点说，我们很多人，甚至包括一些professer，对大数据的理解是错误的。我在很多会议上都说过，这个大数据的大是什么意思呢？不是说数据有多大，也不是说数据有多么海量。

“我曾经跟一个教授谈，他就说，我们是做三维全息的，我一秒钟几个G的数据，你看我数据大不大？还有人说，我一天采集了很多很多东西，我的这个sense很多很多......

“其实，按照学术界的说法，大数据我们更多讲的是数据的维度。”

一个人，如果说只有一个维度，不管你再大，你就是一个人。只有当你具备很多不同维度的时候，你才是一个丰富的人，精彩的人。

实际上，数据永远不可能是完整的。

“举个例子来说吧：你想要了解我，因此你去搜了一下，搜到了一些信息。但是，你搜到的一定是一个子集。然后另外一个人也去搜，他搜到的也是一个子集。你们搜的都是一个子集，都是不完整的。

“但是有一千个人搜的数据合在一起的时候，我根据这一千个人的数据，我基本上可以断定这个人的基本情况了。

“所以你看，越多个不完整的子集，就越接近事实真相。但是，核心的点是你永远不可能拿到完整的数据，这个世界上又有什么数据是完整的吗？怎么会有完整的数据呢？

“任何一件事情，你往深的挖，它都是不完整的。中国古语也有云，‘大道五十，天衍四九’，也有一点这么个意思。”

大数据的意义在于，数据的维度要很多。如果这个数据本身就没有什么维度，就是个一维、二维或者三维的东西，那大数据也就没有意义了。

当数据采集的维度很多、角度更多、采集的源泉更多的时候，日积月累，我们往往就能从统计意义上得到一个概念。

这是第一层，独立数据的结果。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“还有另外一个情况，你从网上整理了很多信息，另外一个人也整理了很多信息，你们只是把信息汇总在了一起，最后得出一个结论，这是第一步；第二步呢，基于这个信息你要去做预测和分析。根据你喜欢吃辣椒、喜欢踢足球等特征，从而预测出这个人性格应该是什么样子的，你就又往前走了一步。”

就像人们常说的的小样本、小数据、大数据的学习，就我看到的所有的样本，光靠采样是永远不可能采全的。

千人千面，任何的样本，都是小样本，任何的数据，都是小数据。

我们现在看到的所有互联网上的数据，都是小数据集合成的大数据，小数据的内容聚合成一个大数据的整合。

对单独的样本来说，数据都是小数据，没有所谓的大数据，完整的数据只存在于理论当中。在研究采集中，我们所得到的永远只是一部分。从这个层面来讲，它是属于小数据和小样本。

小数据多了之后，它会形成一个大数据，再通过梳理、预测，算法，它会得出一定的结论。

这个能力是目前我们讲的大数据里最大的行业应用，就是规则推理。

“真实世界里没有大数据，你看到这个人，你描述他，十个词、二十个词，都是小数据。但是，你站在宏观上，不去测量这一个独立人，而是去描述这一类人的时候，它就是大数据了。

“所有的东西都是这样，你测量的时候，获取、真实的采集这个数据的时候，这个数据就已经被你固定成小数据、小样本了。”

解决好多维度、多任务的学习，AI才有大未来

目前人工智能技术，不可能是最终形态。那么在现阶段，它的技术缺陷在哪些方面？

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“我觉得是这样的，就像《机器猫》那个愿景一样，我们所说的AI第一大缺陷是：不管你今天看到的所有的场景，所有的东西，你依然不会觉得它跟你的人是完全一样的。”

就像你跟机器人谈话，你能感觉到他是假的；你跟AlphaGo下棋，你也能感觉到它只是一台机器。

“想要解决这个问题，实际上有两种不同的途径，一种是我们把这个算法干的更牛，我要有大量的数据，然后我给你反馈，这是一种人类不断去逼近的方式。

“目前人工智能的另一大缺陷，是在单维度方面取得了长足的进展，但是在多维度、真实的场景里面的技术潜力，还有很遥远的路要走。

“比如说，我们希望这个机器人又有语音识别，又有图像识别，又有各种各样的东西的，包括业务逻辑、语义识别等。但是，目前的状态却是，多维人工智能领域的发展还很差，基本上目前还没有看到希望。”

以目前的技术阶段来看，我们仅仅达到了通用型人工智能的初级水平而已。

自动驾驶领域的竞争结果，巨头依然还是巨头

智能家居、智能音箱市场的格局，跟现在的自动驾驶有很高的相似度。

在自动驾驶领域，我们看到特斯拉很牛。而实际上，那些大型的传统主机厂，他们现在只是没发声而已，而并不是闷声憋大招，更不是像很多人以为的无所作为。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

智能家居也好，智能音箱也好，说到底，它还是一个传统家居行业。我们能说智能家居是互联网行业吗？就像无人驾驶一样，以后是什么情况，谁也不能妄下定论。

“只要能够提供自动驾驶核心模块的，就会有市场的一席之地，而并不会因为产品的差异化而导致竞争失败。还是拿汽车举例，我们说汽车很火、汽车市场足够的大，但是也没见到全世界的汽车发动机、变速箱都是一样的。

“无人驾驶也有这样的问题。无人驾驶是L1、L2、L3、L4，能提供L4的当然牛。可能L4的你要卖两万美金，那便宜点的我1000美金就能搞定，毕竟我只要可以上路就行了，甚至是可以半自动一点的。

“从这个意义上讲，这个市场将是足够大大，大到以后也不可能有哪一家能够单独吃得下。而一旦标准统一化之后，我们就会发现，原有的巨头依然还是巨头。

“就像现在一年产千万辆级别的主机厂，如丰田，它只是把它里面的一个元器件和电脑系统对接上去，换成自动驾驶的模块就可以了。”

所以说这就回答了很多人疑问：

既然百度要做无人驾驶了，为什么很多人还要投自动驾驶呢，就不怕被无情的碾压吗？

“思维逻辑就是这样。虽然已有科技巨头押宝自动驾驶，但这却并不妨碍，依然有层出不穷的自动驾驶创业企业获得投资就是这个原因。”

虚拟重建和情绪感知，将对Live直播带来划时代的改变

未来的世界，不管科技怎么改变，一定还是“以人为本”的。针对于人的人工智能技术才是核心关键。把人重建进一个虚拟的世界中，如何让这个虚拟的世界真实起来呢？人最基本的情感是必须有的，但是这个问题要怎么解决呢？

一个是重建，另一个是情感的感知。

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

“你现在打游戏可能感觉不到，但是我要是讲旁边站了个范冰冰，你就需要她跟你交互，跟你说话，跟你有眼神的互动，等等。

“那么，这就是带来另一个问题，我们需要准确的识别动作和人脸及情绪，才能实现真正的交互。

“也就是说，我不仅要识别你的脸，还要识别你的情绪感知，把这些东西全部放进去，你才能跟范冰冰愉快的玩耍。

“这也是我们易联视讯现在在干的事。”

想要在虚拟的世界里，把真正的“人”装进去，就是要做到两个点：第一是把人重建进去，第二是让人的情绪、动作、表情、神态等全部跟着本人同步而动。

如果可以完成这两件事，就将是一个划时代的改变。

“因为那个时候你会发现，一回家你就可以跟别人约会去了，都是真人，绝对不是假人。能看到人，外形也能感知到情绪，就是心灵交互。

“这种情况下，你今天看到的场景，包括视频会议，都将发生巨大的改变。这也是我觉得人工智能在短期内可以预期的一个点。”

在陈建文看来，AI在每一个垂直点上，机会都是有的，而且很大。

举例一下：可以预见的是，AI技术一旦实现实质性突破，现在的这些社交、医疗、教育等，都不再是在线教育，而是真实教育、智能教育。

“你按一下按键，就有老师教你家孩子弹钢琴，而我只需要搞一架钢琴就可以了。你家孩子坐在那，老师不用到你家里也可以指挥孩子手上的动作，就像真的在上钢琴课。

“同样的，上完钢琴课，我们可以随时更换课程，换成绘画或者舞蹈。”

以上帝的视角来看AI的发展，陈建文认为，这将是全人类的梦想所在。

“比较高兴的消息是什么呢？谷歌告诉我们，到2030年我们就可以活一百岁了，然后大家就可以在我上面所描绘的愿景里，想干嘛就干嘛了。

“因此，对于AI这个产业，我就是一句话：有的干！”

电子科技大学陈建文：没有完美的大数据，现实世界都是小数据

做AI，不幻想，不吆喝

我不希望变成资本方，一天到晚讲人工智能马上就能改变人类，那是不可能的。

资本可以去尽情吆喝，但做公司的人必须脚踏实地，一味的幻想反而不好。

陈建文和他那一句小小的“豪言壮志”

我曾经看过一篇文章，说改变世界有两种人：一种是科学家，一种是工程师。我在想，为什么科学家不能是工程师呢？这样不就会更好的改变世界了吗？

哈哈，我觉得我就是个科学家，还是个工程师！

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

「人物特写」电子科技大学陈建文：没有完美的大数据，现实世界都是小数据