传统IP Vendor的AI加速器一览

Cadence Vision C5

也被称为是Tensilica C5,是Cadence的IP,架构延续自其VP6 DSP架构,扩展了MAC计算单元和Way的数量

C5 Block DiagramVP6 Block Diagram

其特点为:

1T 8bitMAC 1mm2,推测此时工艺为16nm工艺提供1204 8bit MAC 或 512 16bit MAC使用DSP的VLIW SIMD指令集,支持128 way 8bit SIMD/64way 16bit SIMD支持多核并发,以支持更强的计算能力使用DMA/AXI进行数据访问兼容VP6的软件工具集

其架构与Cadence 的图像处理DSPVP6极为类似

注意看:C5的MAC分拆方式与VP6不同,这里是否意味着其对原来VP6的MAC分拆方式有些不同看法呢?

CEVA家的最新加速器是NeuPro

官方介绍材料比较简单:

专为矩阵操作/全连接/激活/池化层优化的引擎允许用户自定义扩展支持8/16bit量化最大支持4K 8×8MAC,512/1024/2048/4096 MAC可配置CEVA XM+NeuPro

注意看:VPU和和加速器直接没有共享内存

PS:这个架构感觉没有什么特别让人眼前一亮的东西

Verisilicon Vivante VIP8000

这是一个GPU架构的加速器

Verisilicon VIP8000

Vivante作为传统的GPU厂家虽然没落了,但是其GPU架构还是有延续下来,官方信息显示其加速器引擎有如下特性:

最大3TMAC/s,能效比1.5TMAC/W at 16nm高度并发的多线程并行处理单元(看起来很像GPU的架构)支持多个NN Core,每个Core有384 8bit MAC/64 FP16 MAC支持常见的AlexNet/GoogleNet/ResNet/VGG/Faster-RCNN/Yolo/SSD/FCN/SegNet/RNN/LTSM网络支持多种层(Conv/Deconv/Dilaiton /FC/poolling/unpooling/normalization/activation/reshape etc.)支持 8bit &FP16计算(注意,能支持FP1持的IP不多)号称2个NN Core可以实现800×600的实时Faster-RCNN,这个能力不多见使用OpenCL和VopenVX作为编程接口。工具链使用Khronos定义的NNEF作为中间层

存疑的是:

一般认为GPU架构的MAC利用率会比DSP和ASIC专用架构低一些,不太清楚Versilicon是否能够解决这个问题。另外在扩展自定义层时,OpenCL和OpenVX接口与Intrinsic C相比可能还是略微麻烦一些。

Synopsys EV6X+CNN3.0 Engine

EV6X+CNN3.0

这是一个专为CNN网络设计的加速器,宣称支持4.5T MAC/s

产品目标为ADAS,安防监控,AR和其他应用支持常见的AlexNet, VGG16, GoogLeNet, Yolo, Faster R-CNN, SqueezeNet and ResNet网络比较奇特的是支持12bit MAC,可能和他的设计哲学有关。有工具直接将浮点网络映射为12bit网络。同样支持8bit网络,以节省带宽。能效比高达2T MAC/w at 16nm对于不支持的网络层或其他用户自定义层,可以通过Vision CPU(EV6X)辅助完成软件接口包括OpenCL,OpenVX,OpenCV,Intrinsic C曾经有传言,该加速器的上一版本不支持Faster-RCNN等16年以后的网络。从官网资料看CNN3.0已经改进了类似缺陷。

Imagination NNA

官方没有放出架构图,借用AnandTech上的一张图片来介绍,

从这个架构图看,Imagination使用的不是GPU架构,而是专用ASIC架构,这点与Verisilicon不同IP加速器MAC数量可配,从128 8bit /64Bit 16bit ~048 8bit/1024 16bit MAC可配置。支持4/5/6/7/8/10/12/16 bit weight(但考虑到实际支持8/16bit MAC,所以4/5/6/7/10bit时并不会有额外的算力提升,估计只是节省了带宽)中间计算结果的累加器保持FP32精度支持NNEF格式,支持Caffe/Tensorflow Model离线/retrain转换工具

接下来的这两家其实不能算传统IP Vendor,只是谈端侧AI IP又怎能绕开这两家呢?

Cambricon 1A

业界传言华为海思Kirin970使用的是Cambricon-1A的加速器。Cambricon的公开信息并不多,涉及商业秘密,此处只能用一些公开数据进行解释了。

广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域(既支持int,又支持float操作,可以参考其1H8产品的介绍)另外从其shidiannao,pudiannao的论文先后顺序来看,没有使用脉动阵列的架构其与其他加速器相比,可以支持多种机器学习方法(不局限在NN及其衍生模型)

上图:PuDianNao 下图:ShiDianNao

另外,有兴趣的同学可以去看一下鲁大师的AI评测得分,和高通835对比一下,大概可以推算一下Kirin970的实际MAC数量。

知乎上有两篇文章对寒武纪的IP分析的很不错,也列在这列一并参考。

Qualcomm Hexagon682

高通的材料非常有限,这里仅是我根据网上找到的资料给出的推测值:256 MAC /cycle。

下面这个链接中有这样一段话:

http://www.zdnet.com/article/vision-is-techs-next-big-challenge/

But Rick Maule, a senior director of product management at Qualcomm, said that over the past couple of years the company has learned that customers need more processor cycles and faster memory access. Qualcomm's solution is to double the number of compute elements, boost the frequency 50 percent, and embed low-latency memory in those compute elements. These "proposed changes" would increase performance from 99 billion MACs per second on the Snapdragon 820 to 288 billion MACs per second, resulting in a 3X speed-up on the Inception V3 image-recognition model.

考虑到骁龙820的工艺是14nm,一个比较合理的推测是骁龙820的Hexagon680的MAC数量是128,频率是770MHz。而10nm的骁龙835是256MAC,频率1.1GHz。

而845宣传的是相比835再增加3X,很可能采用的策略是类似的,再double MAC数量,同时提频。由于845和835都是10nm工艺,还算同一节点的产品,靠提频可能无法完全达到1.5X性能提升,在685中可能引入了其他诸如winograd之类的微架构改动。



Powered by vp加速器 @2013-2022 RSS地图 HTML地图