4月9日发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)中,首次将数据与土地、劳动力、资本、技术等传统要素并列为要素之一。《意见》具体指出,发挥行业协会商会作用,推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化。
“数据采集的标准化是数据存储、交易、加工及数据服务等一系列数据治理的前提,而且这件事只能由政府来主导。”中科院自动化研究所研究员、视语科技创始人王金桥表示,“数据的治理涉及政府机关、运营企业、人工智能公司、用户等方方面面,要想规范交易使用,充分利用沉睡的数据资源,必须先从数据采集的源头来做标准化和规范化。”
王金桥介绍,采集标准化的最大价值是解决数据采集重复建设的问题。交通、保险、医疗、天气、教育等,各行各业都在生产数据,数据采集存在非常多的重复建设。比如各地有不同的采集标准,每个地方的关注点、区域特色、数据分布都不一样,对数据的诉求不一样,采集的数据也不一样,这直接导致数据的不完备、噪音大,影响数据效能的释放。
“因此,政府驱动是非常重要的。”王金桥说。比如现在出门避开拥堵靠导航软件,但导航软件依靠使用它的用户的定位信息,事实上相当于采样,结果并不可靠。去年底,交通运输部印发通知,决定开展全国高速公路视频联网监测工作,充分利用新一代云计算和人工智能技术,建设科学先进、高效统一的视频云联网监测体系。这一监测体系将全面提升高速公路信息化、智能化水平,提高出行服务保障能力。按照通知要求,今年12月底,将完成全国高速公路视频接入工作,建设部级视频云平台并全国联网运行。“高速公路视频上云后,全国高速公路的标准化数据都会集成到云平台,交通部门也能像气象部门提供天气预报一样提供准确的信息服务,这是充分发挥交通数据生产力的有效手段。”王金桥说。
由于数据治理还处在探索阶段,数据采集的标准化工作也还处于起步阶段。各行各业数字化程度千差万别,很多行业还没有实现数字化,高速公路视频上云就相当于刚刚连入互联网,距离真正的数据处理和服务还很远。在国家的统一要求下,不同行业也需要适配各自业务和场景的采集标准。
“更重要的是,伴随技术的进步,数据采集标准也会随之变化,标准化工作需要一个长期的不断完善的过程。”王金桥说,以人脸数据的采集为例,直播、售票、征信等不同场景对人脸数据的要求不同,各个场景需要根据应用划分采集标准,如人证同一性认证、人员身份网络远程验证、人脸门禁、人脸布控等。比如按照国家制定的标准证件照的数据采集标准——中脸部宽207±14像素,头顶发迹距照片上边沿7—21像素,眼睛所在位置距照片下边沿的距离不小于207像素,按这个标准采集的证件照图像目前已经广泛用于机场、火车站等地的身份认证。
另外,数据采集的边界也需要界定:什么数据能采集,什么数据不能采集;如何对隐私数据进行规避;如何正确采集数据(比如在采集人的行为数据时必须把脸部模糊);如何平衡数据的有效和去隐私。“数据的重要性已经充分展现出来,但数据治理的问题特别复杂。数据是可以被操纵和改变的,数据传输特别碎片化,数据交易的利益诱惑极大……数据采集是为数据共享和交易服务的,数据的标准化要为采集划定边界。”王金桥说。