在人工智能领域,为了便于交流和分享,往往会由学术机构或产业巨头主导形成一些通用的开放规范或标准,并在此规范基础上共享和开源相关成果及资源,我们称之为人工智能开放平台,如英特尔针对计算机视觉应用推出的OpenCV、机器学习和数据挖据库Weka、谷歌的Tensorflow、Facebook的PyTorch、亚马逊的MXNet、微软的CNTK等。
这些AI开源平台连接底层硬件(CPU、GPU、ASIC、FPGA以及各种XPU等)和AI模型算法(深度神经网络模型、机器学习算法等),为AI应用开发和运行提供极大便利,对AI产业和生态的发展有着重要影响(如图1所示)。
所有的开源平台都会遵循某个开源协议。不同的开源协议对开源代码知识产权、修改、商用等方面作了规范和约定。现有的几种主流开源协议包括BSD、Apache、GPL等。由于不同的开源开放平台采用了不同的协议,因此具有不同的开源特性,对其商业化路径形成了重要影响。
当前,我国的很多研究工作都是基于国外开源平台基础上进行研发,这也就意味着,主导方实质上对平台有很强的掌控权利,一旦发生商业策略变化或者商业纷争,主导方有可能修改规则或关闭平台,从而对相关的产业链造成重大影响。
图1. AI平台与AI生态关系图
国内平台影响力亟待提升
深度学习作为此次人工智能浪潮的主推手和关键技术,是人工智能开放平台中内容最多、影响力最大的主题之一。中国的学术机构和公司很早就开始注意到AI平台的重要性, 比如百度推出的paddlepaddle深度学习框架、阿里巴巴的PAI平台、腾讯的NCNN和pocketflow深度学习平台、中科院自动化所的"诸葛·深知"深度学习平台和 QEngine深度学习量化加速框架、 鹏城实验室的OpenI平台等。
总体来看,这些平台无论在影响力和用户数量方面与国外平台都有较大差距,各个机构本身对平台的投入和重视程度也不够。究其原因,首先,平台的建设周期漫长;其次,平台无法快速产生盈利,一般机构很难持续支持;此外,国内的学术界和工业界缺乏足够的分享驱动力,不愿意把好的算法和代码贡献出来。
掌握话语权需加速布局
人工智能开源开放平台是人工智能领域创新和产业赋能的助推器,已成为国际大公司竞争焦点。中国的企业和学术界也推出了少量的深度学习相关平台,但用户数量较少,对生态的影响力较小。同时,深度学习平台技术发展很快,当前,人工智能开源平台正在往下一代迈进,脸书(Facebook)、苹果和微软等公司联合制定了ONNX标准的中间表示语言,在动态结构、应用模块、硬件计算等方面又得到了提升。
AI平台按照云端和轻量级终端演化,向着"操作系统化"发展的趋势日益明显。人工智能产业已成为国家重点发展的领域,平台对产业的发展极其重要,要提早布局,避免"卡脖子"问题出现。
打造自主可控新生态
我国应加速启动人工智能开放平台建设,以下几个方面值得重点关注:
开源开放,拆除藩篱,联合企业和学术界共同打造建立在开放环境下的人工智能平台。借鉴WinTel联盟形式,让"平台—芯片—应用"相互支撑,发挥综合优势,建立应用生态。瞄准人工智能平台发展趋势(通用化、轻量化、模块化等),提前部署相关前瞻性技术研发。
从新应用、创新的垂直领域等薄弱地带入手,"农村包围城市"。总之,从中短期看,需要建立顶层的标准设计,从应用(开放创新平台)、芯片(围绕芯片的开发工具链)和基础算法(开源基本模型)协同入手,形成完整创新链和强大合力,建立独立自主、相互支撑的人工智能平台新生态。
从中长期看,人工智能理论和应用还处在高速发展阶段,未来会不断涌现出新的方法和应用,我国应抓住机遇,集中力量发展开放开源的人工智能平台,奠定良好的人工智能底层基础,打造自主可控的人工智能产业生态。
作者:
程健 中国科学院自动化研究所模式识别国家重点实验室研究员、南京人工智能芯片创新研究院常务副院长
徐波 中国科学院自动化研究所所长、中科院脑科学与智能技术卓越创新中心副主任、中国科学院大学人工智能学院院长、中国人工智能产业联盟副理事长
来源:《前沿科学》2019年第2期《人工智能》专刊