人工智能(AI)技术在行业应用中,大多依赖海量的训练数据和大规模服务器的算力支持,存储暴涨、数据堰塞、隐私泄露、能耗高企等问题也随之而来。随着近5年来摩尔定律的逐步放缓,IT硬件的发展愈发难以满足当前人工智能模型动辄万亿级规模的存储和算力需求。因此,当前对人工智能设备和应用的快速响应、隐私保护以及节能减排的需求越发凸显。如何将人工智能模型及其计算载体前端化、轻量化,成为亟待解决的问题。 

  轻量化人工智能(Tiny AI)的兴起正在改变这一点。 

  Tiny AIAI更普惠、更主流 

  剖析智能化应用,我们可以看到,人工智能使能架构是由芯片(硬件)、AI操作系统(深度学习框架平台)和算法三个部分组成。而Tiny AI恰是以一系列轻量化技术为驱动提高芯片、平台和算法的效率,在更紧密的物理空间上实现低功耗的人工智能训练和应用部署,不需要依赖与云端交互就能实现智能化操作。 

  轻量化人工智能所带来的突破是显而易见的。《麻省理工科技评论》在2020年将“Tiny AI”列为全球十大突破性技术,其在评选理由中写到:轻量化智能使现有的服务比如语音助手、手机拍照等变得更好更快,不必每次都需要连接云端才能运行深度学习模型;此外,轻量化人工智能也将使新的应用成为可能,比如基于移动端的医学检测分析、对反应时间要求更快的自动驾驶汽车;最后,本地化的人工智能更利于隐私保护,用户的数据不再需要离开设备就能实现服务功能的进化。 

  更重要的是,Tiny AI将人工智能推向更主流,它大大降低了AI系统的部署难度和成本,把AI从一场高门槛的科技巨头竞赛变成普惠民生的智能生态。 

  在人工智能领域的角逐中,以“轻量化”为赛点的下半场已经来临。 

  Tiny AI的外 

  Tiny AI对外表现是在做减法,降低能耗、降低对硬件平台性能指标的要求、降低与云端的通讯需求等,而实质上,轻量化的内核却是在做加法。产业需求决定了要完成的AI任务越来越复杂,轻量化人工智能必须通过加速运算效率、提高计算密度才能实现极致的效率。 

  在精度接近无损的前提下,将AI模型及其计算载体微型化,是一个极具挑战性的任务,需要对神经网络轻量化设计、计算加速以及设计新的计算架构实现模型的硬件化。 

  这需要从软件和硬件两方面来着手。软件方面,要进行模型和算法创新,通过轻量化模型设计、矩阵分解、稀疏表示、量化计算来实现模型的微型化和计算加速。而在硬件方面,则须通过流水线设计、存储模式设计等手段进行硬件架构的创新。 

  虽然执行神经网络计算的是硬件,但神经网络结构和AI平台决定着计算量的大小和运算方式。所以,极致的轻量化必须是软件和硬件的协同轻量化:基于复杂的AI应用场景,将芯片、平台和算法充分结合以联合加速。 

  首先,AI芯片作为人工智能的硬件载体,必须达到更高的性能、更高的效率、更低的功耗和更小的体积,足够平价高效的计算平台才能满足产业需求承载复杂的AI任务,并且使推理和运算从云端迁移到终端成为可能。  

  其次,轻量化的AI平台需要以更低的功耗来训练和运行人工智能算法,最大化的发掘硬件的能力。  

  最后,应用轻量化技术的神经网络模型以小规模、少运算量并保持良好的精度。 

  AI三层使能架构决定了追求单一算法、平台或者芯片轻量化并不能最大化实现极致效率,而需要针对应用场景中复杂的AI计算系统全面去考虑,将三者进行协同轻量化。 

  自动化所:Tiny AI“先行者 

  2014年,在卷积神经网络大规模迈向应用之初,中国科学院自动化研究所(以下简称自动化所)就在国际AI顶会发表了多篇神经网络模型轻量化领域的重要论文,成为国际上最早开始AI轻量化研究的机构之一,相关成果引起包括英伟达公司创始人兼CEO黄仁勋等在内的诸多专家的广泛关注。 

  自动化所很早就开始了软硬协同轻量化的技术研究,走在国际的前列。自动化所设计开发的轻量化AI平台QEngine及轻量化算法已经在数十万终端上部署。2019年,在国际神经信息处理系统大会(NeurIPS)上举行的MicroNet Challenge竞赛中,自动化所与ARMIBM、高通、Xilinx等国际一流芯片公司同场竞技,设计的轻量化神经网络架构获得了图像类双冠军。 

  2020年,自动化所自主研发的世界首款极低比特量化神经处理芯片(QNPU)成功流片,解决了芯片计算领域备受关注的内存墙难题,在芯片成本、功耗、计算结构、边缘计算等方面实现革命性变革。该芯片的面世,也标志着自动化所成为了全球为数不多的拥有“AI芯片平台算法全栈轻量化AI技术机构之一。 

  面向行业应用的Tiny AI 

  未来,以AI驱动的小型化设备会越来越多地出现在我们身边。同时,由AI芯片、平台和算法组成的Tiny AI智能终端将始终围绕应用场景而生。 

  对此,自动化所率先做了一些尝试。 

  MCU单片机以低价低功耗的优势,在各种终端上有着大规模的应用。但是单片机的计算性能极低,一直不被看好是可以实现人工智能的硬件。自动化所在几元钱的STM32单片机上成功的部署了四十层网络的人脸检测模型,运行功耗仅800毫瓦,做了开创性的尝试——其背后就是基于Tiny AI技术。 

  在教育行业,自动化所的“轻量化指尖点读解决方案”颠覆了教育终端的人机互动模式,并成功突破硬件性能瓶颈,赋予低端硬件平台高端AI算力。 

  在消费电子行业,自动化所设计的轻量化的算法及轻量化神经网络计算架构可有效实现暗光增强、超分辨率等,为手机终端、安防终端提供了影像增强效果。 

  在电力行业,我国的输电线路覆盖广,野外自然环境复杂,检修维护作业危险系数高难度大。自动化所基于Tiny AI研制的自主巡检无人机、缺陷识别分析便携终端、通道可视化智能感知摄像头等,具备多种智能识别、检测和分析功能,可有效保障输配电线路的安全和电力系统稳定。 

    

  (作者系中国科学院自动化研究所冷聪副研究员) 

附件: