火了,我想最初的热点可能是来自《观察者》铁流的一篇深度报道。
但事实上,这并非借机炒作,早在2008年起,中国科学院计算技术研究所就在开始了“寒武纪”系列深度神经网络处理器的研发。后来“神经网络处理器”的热潮在2014年左右达到一次顶峰,当时不仅有陈天石和陈云霁研究员在2014年5月刊发的论文引起轰动,在网络上这个时间段也有大量深度讨论。
也许有人质疑,有几个人会真正会懂“神经网络处理器”?但就像前一阵大家对“引力波”产生的巨大关注和传播一样,时不时来这么一次全民科普也是挺好的。况且,神经网络处理器的实用意义比引力波大多了。爱学习的胡安从学习角度出发,问了自己七个问题,并尝试搜索得到答案,整理分享给大家交流。
寒武纪芯片的板卡
问一:什么是神经网络?
人工神经网络是一类模仿生物神经网络而构建的计算机算法的总称,由若干人工神经元结点(简称“神经元”)互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的强弱(权值)。
神经形态芯片尝试在硅片中模仿人脑以大规模的平行方式处理信息,几十亿神经元和千万亿个突触对视觉和声音等刺激物做出反应。作为对图像、声音等内容的反应,这些神经元也会改变它们相互间连接的方式,我们把这个过程叫做学习。
在学习之后,可通过习得的知识来解决特定的问题。
问二:神经网络从出现到现在都经历了什么?
神经形态晶片(模拟人眼与人脑神经元的晶片)是由超大型积体电路(VLSI)发明者之一的Carver Mead在1980年打造的。Mead的创举最终获得了美国太空总署(NASA)与国家卫生研究院(NIH)的重视,甚至将1990-1999年定为“大脑年代”(Decade of the Brain)。
中国科学院计算技术研究所研究员陈云霁教授两年前的一次公开演讲也简单介绍了其发展:
神经网络计算机在上世纪80年代提出了非常强有力的算法,那个时候神经网络进入了第一个热潮,有个公司推出了他们的产品,包括像TI这样很有名的公司都做了这方面的产品计算机。但是在90年代左右,当时这些计算机,所谓神经网络计算机基本上都死掉了,死掉的原因主要有三个方面。
1. 算法。
2. 智能机,随着第五代计算机的浪潮的失败,大家都去做智能机了,而不是专注于认知的意义。
3. 摩尔定律的红利。2000年你搭了摩尔定律的顺风车,性能就能提高1.5倍。现在的情况已经完全不一样了。
因为前面的三个原因,算法、应用、电路工艺,当时都有很大的问题,并且现在脑科学也是被大家看得越来越重。2006年开始到现在有一个著名的浪潮就是深度学习,这里边有一个技术,大家用得比较多,就是分层预训练,这可以成为最好的算法之一。
简单说一下深度学习的原理,比如说我们要识别一个树,对这个树的照片我们第一层可能就是把它的边缘提出来,第二层是缩放,第三层是锐角、形状弄出来,最后抽象出树这样的概念。
问三:都是神经网络芯片, “寒武纪”和 “真北”有什么不同?
对于这个问题,胡安这里分享来自知乎网友涂涂的观点:
二者虽然都是neuro-inspired chip,但是本质上是完全不同的。“寒武纪一号”(DianNao)应该定义为neural network accelerator,而IBM的“真北”(TrueNorth)应该定义为neuromorphic processor。
从名称上我们就可以看到二者直接的区别。DianNao是加速人工神经网络模型的,如传统的ANN和最近比较火的CNN。这些网络模型都是创造出来完成分类、识别等任务的工具。且模型简单易懂,基本单元都是我们容易理解的数值运算。而TrueNorth加速的模型是spiking neuron。这个模型与我们人脑的突触激发原理更接近,主要用来模拟人脑的一些生物特性。
北京Microchip微控制器服务商跟着物联网设备的广泛运用,以及和自动驾驶技能的越来越多的运用,纳米级节点尺度正敏捷成为技能前进的要害。以上便是英锐恩单片机开发工程师共享的有关的信息半导体职业的开展信息。以上就是英锐恩单片机开发工程师共享的有关嵌入式体系包含单片机项目安全的信息。英锐恩专心单片机运用计划规划与开发,供给8位单片机、16位单片机、32位单片机、运算放大器和模仿开关。
从应用领域来看,当前大红大紫的深度学习实际就属于DianNao的应用范畴,他们已经在ASPLOS’14的文章中实现了多个当前流行的深度模型,可以说在深度学习的硬件加速领域迈出了坚实的一步;TrueNorth源自IBM的SYNAPSE计划,他们的目标是将来能够完全地模拟大脑。个人认为,虽然后者在真正的图像、语音识别等比较“硬”的能力上不如前者,但有可能是未来真正推动“智能”的方向。当然,我们目前还没有把自己的大脑研究透彻,要从硬件上模拟,会有很长的路要走。
另外,知乎网友vbhome的比喻“寒武纪正在高速的发展当中,真北则已经结题”——这个听起来更简洁一些。
问四:传统处理器为什么不适合深度学习?
神经网络在训练时通过自动化调整神经元之间突触的权重来实现对已有知识的归纳总结,在使用时根据当前的突触权重计算出当前输入对应的输出结果。也就是说,神经网络中存储和处理是一体化的,都是通过突触权重来体现。
而冯•诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现。二者之间存在巨大的差异。当用现有的基于冯•诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,效率低下。
这就是研发专门用于人工智能的神经网络处理器的根源。
问五:神经网络处理器会替代GPU吗?
神经网络处理器和通用处理器、DSP、FPGA、GPU是不同计算器件,就如同GPU的存在不会使DSP完蛋一样,神经网络处理器与GPU不相冲突。
英伟达也一直在努力进入智能领域,但是它的图形处理架构和神经网络处理相去甚远,和寒武纪会有百倍以上的能耗劣势——以DianNao和DaDianNao为例,DianNao为单核处理器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm^2。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级;DaDianNao是在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。
在28nm工艺下,DaDianNao的主频为606MHz,面积67.7mm^2,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的高效能计算系统较主流GPU的性能提升甚至可达450倍,但总能耗仅为1/150。
问六:神经网络芯片的市场规模有多大?一般都用在哪里?
美国Transparency市场研究公司的报告指出,全球神经形态芯片市场规模将从2015年的3.96亿美元上涨到2023年的18亿美元,复合年增长率(CAGR)为19.1%。
调研公司Markets-and-Markets的预测则更加激进:“整体神经形态晶片市场在2016年时约有12亿美元的价值,并以26.3%的复合年成长率(CAGR)成长,在2022年时达到48亿美元的市场规模,”
人工智能是牵引神经形态芯片快速发展的主要原因,电路小型化也是推动力之一。而制约神经形态市场快速发展的原因则是将复杂的神经形态突触嵌入到电路硬件中的制造成本仍过高。
图:从2022年神经形态晶片市场来看,消费市场占据了大部份的比重
主要用途:神经形态芯片的用途主要有信号处理、数据处理、图像识别和其他。其中,信号处理市场利润最大,图像识别发展最快。图像识别市场迅速扩张的原因在于传感器用量的急速上升,后勤、军事、国防、汽车领域对图像识别需求量最大。
应用领域:神经形态芯片的主要应用领域有军事和宇航、汽车、医疗、工业和其他。北美主导神经形态芯片市场的发展,国防和宇航领域的需求是主要推动力,同时物联网的发展也对神经形态芯片提出巨大需求。
问七:哪些公司在做神经网络处理芯片?
目前涉足神经网络处理的公司包括英特尔、高通、IBM、HRL、GeneralVision、Brain、Vicarious、洛克希德马丁公司、惠普,以及韩国的三星等。
IBM:在全球神经形态芯片市场中处于绝对主导地位,已研发出多种创新性成果,包括“真北”神经突触芯片。
英特尔:位列IBM之后,是全球第二大神经形态芯片企业,研发出的基于自旋的神经形态芯片有力地帮助其保持了在神经形态芯片领域的位置。
高通: “Zeroth”处理器。在2018年以前,该公司计划扩展Zeroth平台的神经形态功能至嵌入式应用,例如穿戴式设备与无人机。
(本文部分内容整理自知乎、观察者)点击“阅读原文”进入作者博客