爱数智慧张晴晴:采用人机协作模式,为智能世界提供充足数据生产力
在张晴晴看来,数据服务商若想很好的在市场存活,需要做到“多快好省+专业”。
“大数据本身处于一个原始状态,那些还没有经过清洗和整理的非结构化数据是价值极低的,只有经过结构化处理,数据才能够被真正用起来。”爱数智慧创始人兼CEO张晴晴表示。
图 | 爱数智慧创始人兼CEO张晴晴
众所周知,AI的发展需要满足三个基本(必要)条件:算法、算力和数据。数据作为其中重要的一环,随着5G时代到来,重要性愈加凸显。促进AI行业的发展,用好数据很重要。但是在这之前还有一个环节不可忽视,即数据采集和标注,目的是让数据变得“能用”。
增速快,数据采集与标注市场未来可期
什么是数据采集与标注?简单来讲,就是收集包括文本、图像、视频、、语音等在内的数据,继而对这些数据进行清洗和标注。
数据显示,2018年我国数据标注行业的市场规模已达到60亿元。对于数据采标的市场规模,张晴晴表示,短期来看,数据采集标注市场可能只是百亿量级,但从长远角度来看,让数据从非结构化进化到结构化的精加工过程是一个非常庞大的市场,预计将达到千亿。
“现如今,大家对智能化、信息化、标准化需求的渗透率还没有那么高,随着渗透率的逐步扩大,数据采标的市场也会越来越大。”
落实到具体的需求,客户究竟想得到怎样的服务、达到什么样的目的?对于这个问题,张晴晴也给出了答案。她表示客户的核心需求主要有两个,一个是搭建系统用的基础数据库,另一个则是数据的精加工。“公司会从我们这里购买一些标准化的数据产品,来搭建基础系统。随着系统搭建完成,源源不断的新数据开始产生,这些数据是非结构化的,而企业需要收集它们并进行精加工,去做结构化的标注,公司这时候也会需要我们的服务。”
充分利用人机协作优势,为智能世界提供数据生产力
张晴晴介绍,她本人之前所从事的是声学研究,而团队的背景也多在语音语义领域,因此在业务层面,爱数智慧主要集中在语音方面,包括智能客服、智能家居、智能教育等等。另外在图像、文本等领域,他们在主营业务之外也有所涉猎。
按照属性来划分,爱数智慧应该归类于专门做数据采标的第三方公司,而一些公司往往还会选择在内部设立标注部门。对此,张晴晴认为从公司角度出发,出于数据安全考虑,这种做法是合理的。但是“公司自己来做的话,往往在数据结构化的专业度等方面会有所损失。”她指出,现在的企业自己做数据大多是利用纯人工的方式对数据进行采集和标注,这样处理数据具有四个特点,就是少(处理数据少)、慢(速度慢)、贵(成本高)、差(质量差)。
镁客网采访过程中,张晴晴强调“爱数智慧是一家专业数据服务商,能充分利用人机协作的优势,将人在数据处理上举一反三的能力与机器良好的记忆能力相结合,让数据处理的过程更快且处理效果更好“。“人机协作”是爱数智慧的最大优势,而这一模式能够节省数据处理的时间和成本,并提高数据处理的精度。
“数据采标过程中有很多环节是可以由机器来完成的,但是在精度方面会存在一些问题,尤其是当数据存在异常的情况下,机器的精度是完全不能够保证的。”张晴晴表示。当机器不能解决问题时,就需要人工进行介入。“总体来看,人工介入的比例还是比较少的,可以这样理解,人工更多承担的是‘质检工作’,是对机器的结果进行质检,而不是从零开始对数据进行标注。”
目前,爱数智慧的智能化数据处理平台包括智能采集判断、标注效率优化、智能质检、智能任务拆解技术、智能画像技术等。人工方面,这一平台在全世界各地拥有30万C端数据处理员,基于用户画像技术,平台能够“知悉”每位数据处理员的长处,继而通过智能任务拆解技术将项目分拆,并分发给最适合某子项目的数据处理员,做到人员的配置最优化。
“我们的定位是为智能世界提供充足的数据生产力。”张晴晴表示。
最后
在张晴晴看来,要想能够很好地站立在数据采标市场,除了做到“多快好省”,还需要做到“足够专业”。“做到多快好省中的一两点还不能够获得一个明确的胜利,如果同时做到四点,那是非常不容易的。另外作为一家数据服务公司,还需要在数据处理维度上体现自己的专业度,做到给客户提供更加专业的方案建议。”
目前,爱数智慧已经与微软、阿里、腾讯、滴滴等签署了长期战略合作计划,也曾为中国移动、联想、百度等八大行业的近百家客户提供过数据服务。
可以看到,爱数智慧过往所服务的公司多是行业内头部企业,而在接下来,“我们将会为发展中的AI企业及其他布局AI的传统企业客户提供数据服务,为智能世界提供充足的数据生产力,为国内外AI企业发展助力,为传统企业智能化赋能”。
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新