人工智能提出至今已经有接近60年历史,随着人类所掌握的计算能力飞速增长、机器学习基础算法取得突破性进展和结构化数据的大量积累,人工智能行业在二十一世纪的第二个十年里再次焕发出勃勃生机。在国务院发布的《“十三五”国家科技创新规划》中,人工智能成为重中之重,规划中指出,发展自然人机交互技术的重点是智能感知与认知、虚实融合与自然交互、语义理解和智慧决策,要在基于大数据分析的类人智能方向取得重要突破,并在多行业形成示范应用。
在计算机、互联网、物联网、机器人等信息技术领域快速发展的支撑下,人工智能领域内部可以形成较为完整的产业链。人工智能产业链的上游为人工智能技术的基础层,包括计算能力、数据和基础算法等;中游为人工智能的技术层,包括基础应用算法、应用开发平台等;下游为应用层,主要是考虑到行业应用将较为通用的算法和硬件等相结合,涉及到医疗、金融、交通、安防、制造等各个领域。下文主要叙述人工智能基础层之深度学习专用芯片行业情况。
现状
深度学习智能芯片市场在现阶段处于培育和增长的初期,主要使用方向分为两类,第一类是应用于包括智能手机、无人机、智能摄像头等在内的智能终端硬件;另一类是应用于需要搭载高性能深度学习芯片的服务器产品。这两类产品都是互联网和智能时代发展过程中出货量最大的基础硬件,随着市场需求的不断提升,两类需求出货量都会快速增长。
分类
人工智能专用加速芯片目前主要有GPU、FPGA、ASIC几个发展方向。
GPU
GPU是为了应对图像运算的多点矢量操作而产生的,拥有众核架构,与CPU内部结构存在很大差别。GPU是由数以千计的更小、更高效的核心和大量高速内存组成,这些核心专为同时处理多任务而设计。每个核的缓存较小,逻辑运算单元简单,适用于通用计算领域的海量数据运算。CPU主要由专为顺序串行处理而优化的几个核心组成,适用于具有复杂计算步骤和复杂数据依赖的计算和控制任务。
2012年,研究人员发现GPU可以在一定程度上匹配神经网络训练所需要的要求:高并行性,高存储,没有太多的控制需求。配合预训练等算法,可以在一定程度上满足深度学习训练和应用的需要。这个发现很大程度上推动了人工智能产业进步的步伐,为人工智能算法的硬件加速找到了可用的选择。在可以预见的一段时间内GPU依然会是企业进行深度学习训练加速的主要选择之一。
FPGA
FPGA(Field Programmable Gate Array)即可编辑门阵列,在FPGA芯片内集成有大量的数字电路基本门电路和存储器,用户对FGPA编的程序并不是让其直接运行,而是通过烧录配置文件来自行定义FGPA的内部结构。神经网络发展迅速,有必要保持一定的灵活性。FPGA只需要几百毫秒就可以更新逻辑功能,有助于业务迭代并保护投资。数字电路的天然属性就是并行,FPGA同时拥有流水线并行和数据并行,性能不输GPU。
FPGA在用于深度学习的情况下其主要优点为算法可重复编写,硬件技术较为成熟,在小规模实验或使用中优势比较突出,不需要付出大规模流片的成本并对算法有较强的可编辑性。其缺点主要为主频过低,大规模出货成本高,可能会受制于硬件生产厂商。综上优缺点,FPGA是未来一段时间内深度学习加速芯片领域比较合适的临时性方案和一些开发性、实验性、科研型需求较多机构的选择之一。
ASIC
ASIC是一种专用芯片,与传统的通用芯片有一定的差异。是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。能耗比方面ASIC具有很强的领先优势,对于计算密集型算法,数据的搬移和运算效率越高的能耗比就越高。但同时AISC开发风险也较大,从研发到市场的时间周期较长,需要有足够大的市场规模来保证成本摊销。目前在人工智能领域采用ASIC的方案走在前列的产品包括Google的TPU、寒武纪的DianNao系列等。
竞争壁垒
深度学习加速芯片的门槛主要由三个壁垒组成,包括技术壁垒、市场壁垒和资金壁垒。
技术壁垒
芯片设计和生产行业历来都是信息技术和精密制造领域门槛极高的代表,其需要有强大的科研能力、长期的技术积累、完整的专利体系和丰富的行业经验。由于该行业技术密集、专利密集的特点,行业内一般形成头部参与者通吃的局面。
生态壁垒
由于该行业在未产生新技术革命的情况下市场基本已经被行业巨头所占领,而且在该行业底层芯片硬件和上层软件及整个体系有很强的相关性,在建立了完整的生态圈之后想要加入这个生态圈或者打破这种生态圈都要付出巨大的成本,想要进入该市场并建立自己的生态圈在时间成本和资金投入上都有很高要求。
资金壁垒
芯片设计行业是一个前期投入大,成熟周期长,资金回收慢的行业。芯片从设计到生产制造环节都会有巨大的资金需求,尤其是高水平人才的薪资,一次性流片成本,流片失败风险,市场推广和生态圈建设等方面都有很大的资金需求,所以作为后来者的中国集成电路产业要想占有一定的地位需要坚定的大规模投入。
参与方
国外主要厂商
NVIDIA
在人工智能创新公司和学术机构中,GPU加速的深度学习一直是许多项目的基础条件。NVIDIA所占据的市场份额意味着该公司将会在人工智能技术和产业的高速发展中获益。
作为业界领先企业,NVIDIA一直不遗余力的推进深度学习GPU的发展。Tesla P100基于16nm工艺的Pascal架构,是目前市场上训练能力最强的深度学习专用芯片之一。GPU目前正在以超摩尔定律的速度加速发展。Pascal和上一代Maxwell相比,性能在两年之内提升了10倍,4年内提升了65倍。可以预见在未来一段时间内GPU仍将是深度学习加速的主流硬件之一。
Intel
Intel在芯片行业长久以来保持着统治性的地位,近年来在人工智能领域Intel大手笔进行布局,打造了CPU、GPU、FPGA、ASIC、ADAS、5G通讯的完整产业链,构成了强大的计算和通信能力,完成了从感知到决策的计算和通讯完整解决方案,在智能硬件计算、自动驾驶等方面的综合实力瞬间大幅跃升。
公司在人工智能领域投入重金进行并购和整合,包括以3.5亿美元对价收购Nervana用以加强Intel的学习平台,167亿美元对价收购FPGA巨头Altera,154亿美元对价收购智能驾驶芯片公司Mobileye,同时Intel还收购了专注于机器人和无人驾驶汽车芯片的意大利半导体制造商Yogitech、无晶圆半导体公司Movidius等人工智能相关标的。
Google的“AI First”战略在近年里得到坚决的执行,使得Google成为世界人工智能领域的引领者之一。过去三年,被收购的AI公司中最知名的是DeepMind,它提升了Alphabet的神经网络功能并已经将其应用于各种人工智能驱动的项目中。在开源技术方面,2017年2月份,google举办了首届TensorFlow开发者峰会,并正式发布了TensorFlow 1.0。该系统运行更快,更加具有兼容性,并且加强了对高级编程语言的支持。芯片研发方面,2016年谷歌对外公布自主研发的第一代TPU已广泛用于自家的深度学习推理,包括机器学习系统RankBrain、图像搜索、Google翻译、语音识别、Google街景以及AlphaGo等,标志ASIC首次作为AI芯片并大规模应用。由于神经网络推理中对高精度浮点数的计算要求不高,Google设计的TPU不再对浮点数计算,而突出了其整数处理能力。公布的文章显示,TPU的模型推断速度是NVIDIA K80的13倍,而功耗却只有其10.6%,性能功耗比(TOPS/Watt)比CPU和GPU高出约30至80倍。
国内主要厂商
寒武纪
寒武纪科技成立于2016年3月,源自中国科学院计算技术研究所智能芯片课题组,公司的智能芯片主要用于深度学习相关算法的硬件加速。Diannao系列智能芯片一经提出,在学术界获得了广泛认同,从2012年开始,团队发表的相关论文多次获得体系结构国际顶级学术会议的最佳论文奖。
寒武纪科技是国内第一个成功流片并拥有成熟产品的人工智能芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。目前公司已经与华为海思签订了IP授权协议,最近发布的麒麟970芯片集成了寒武纪的NPU进行人工智能加速。
另外服务器加速芯片也正在与云计算厂商合作测试,获得了产业界的广泛认同。多年的积累让寒武纪公司走在了智能处理器学术研究和产业应用的最前列,形成了上百项深度学习芯片的关键性专利,覆盖了深度学习芯片的各个维度,构建了属于寒武纪自己的专利壁垒。
寒武纪科技于2017年完成了A轮融资,由国投创业领投,阿里巴巴创投、联想创投、国科投资等跟投。投资方认同寒武纪在本土智能芯片领域具有领先的核心技术,产业化程度较高,团队具有很强的开拓精神和技术水平,核心竞争力清晰,受到产业客户的高度认同。
深鉴科技
深鉴科技由清华大学等高校的研究者创立,立足于算法、软件、硬件的协同优化的发展方向,实现产品和用户的快速迭代。使用FPGA为深度学习算法和应用进行硬件加速,其在FPGA基础上进行算法的固化,加速深度神经网络算法的运行速度,从而得到比GPU更优质的能耗比,深鉴科技主要着眼的应用方向包括无人机、机器人等,目前在消费级无人机市场与零度科技合作有产品级应用。
地平线机器人
地平线机器人由原百度深度学习实验室主任余凯创立,致力于提供高性能、低功耗、低成本、完整开放的嵌入式人工智能解决方案。公司核心业务面向智能驾驶和智能生活等应用场景,是一家深度学习算法和解决方案提供商,同时于近期发布了两款人工智能专用加速芯片。
其他实现路径
脉冲神经网络芯片
脉冲神经网络芯片即一般称为的类脑结构芯片。包括IBM的TrueNorth,清华大学的“天玑”和浙江大学的“达尔文”等。类脑结构芯片借鉴了大脑的工作机理,神经元之间直接以脉冲的形式传递信息:神经元接收输入脉冲,导致膜电位升高,在达到一定阈值后将被激活产生输出脉冲。类脑结构芯片是未来人工智能芯片可能的发展方向之一,但目前需要大量的研究投入支持其继续发展。
忆阻器芯片
忆阻器是具有记忆功能的非线性电阻器,由于忆阻器与生物神经元具有天然的相似性,具有记忆功能,能够同时提供存储和逻辑,因而被认为是模拟神经元的重要器件。忆阻器芯片是未来人工智能芯片可能的发展方向之一,但仍处于早期,距离真正人类智能还有较大差距。
行业发展趋势思考
政策方面
各国政府在人工智能在现阶段都表现出很大的积极性,这主要是因为近年来人工智能技术的大幅进步和新的行业应用不断涌现改善了很多原本棘手的问题。从战略上考虑,人工智能大概率是信息技术领域的发展方向,而人工智能的发展将会给生产制造、航空航天、军事国防、安全认证等领域带来革命性的进步。这些方面的改变足以促使各国政府对该领域高度重视,并投入大量资金和人力进行支持。其中基础层的加速芯片是人工智能实现和应用的基础保障,预计各国政府会在政策和市场准入条件方面会予以倾斜和保护。
技术发展趋势
人工智能专用芯片的发展趋势主要向专用化、提升工艺制程和改进设计几个方向演进。其中从芯片发展的过程来看,当一种类型的需求在大幅增长时,原来采用通用处理器进行处理的进程将会逐步被效率更高的专用处理器所替代。比如在比特币矿机技术发展过程中,经历了CPU 到GPU 再到FPGA的过程,而目前主流的矿机芯片是基于ASIC的处理芯片。所以,尽管GPU在人工智能领域具有先发优势,但是当市场有足够大的特定需求时芯片很可能会朝着专用化的方向演进,其中如面向自动驾驶、图相处理等领域更加专用的芯片也可能大量出现。
制程工艺的提升对于芯片的能耗和功率比一直是重要的保障,随着芯片制造厂商工艺水平的提升,应用于深度学习专用处理器的制造工艺也会相应改进,从而提升运算速度和降低功耗。芯片设计是技术和经验密集型行业,设计水平、技术标准和指令集等的不断改进均在各个方面提升着芯片的计算能力和计算效率。