AI主流芯片，CPU、GPU、FPGA和ASIC。

2018-7-21 23:20| 发布者: 一生平安| 查看: 758| 评论: 0

摘要: 芯片定义了产业链和生态圈的基础计算架构，正如CPU是IT产业的核心一样，芯片也是人工智能产业的核心。截止到目前，业界公认的AI主流芯片，除了CPU以外，还有GPU、FPGA和ASIC。而熟悉芯片产业的业内人 ...

　　众所周知，芯片定义了产业链和生态圈的基础计算架构，正如CPU是IT产业的核心一样，芯片也是人工智能产业的核心。截止到目前，业界公认的AI主流芯片，除了CPU以外，还有GPU、FPGA和ASIC。而熟悉芯片产业的业内人士看到这些，就知道，所谓现在五花八门的AI芯片最终的基础架构（或者是流派）无非如此，当在上述这些基础架构上，格局已定。

　　CPU自不用说，英特尔占据着绝对领先的优势，基本在此架构之上突围的可能性微乎其微。

　　中央处理器（CPU，Central Processing Unit）是一块超大规模的集成电路，是一台计算机的运算核心（Core）和控制核心（ Control Unit）。它的功能主要是解释计算机指令以及处理计算机软件中的数据。

　　中央处理器主要包括运算器（算术逻辑运算单元，ALU，Arithmetic Logic Unit）和高速缓冲存储器（Cache）及实现它们之间联系的数据（Data）、控制及状态的总线（Bus）。它与内部存储器（Memory）和输入/输出（I/O）设备合称为电子计算机三大核心部件。

　　至于GPU，目前全球GPU行业的市场份额有超过70%被英伟达公司占据。而应用在人工智能领域的可进行通用计算的GPU市场则基本被英伟达公司垄断。据悉，世界上目前约有3000多家AI初创公司，大部分都采用了英伟达提供的硬件平台。

　　GPU英文全称Graphic Processing Unit，中文翻译为“图形处理器”。我们通常就叫它显卡，GPU是显示卡的“大脑”，它决定了该显卡的档次和大部分性能，对于传统PC上来说，GPU同时也是2D显示卡和3D显示卡的区别依据。

　　什么是 GPU 加速计算？

　　GPU 加速计算是指同时利用图形处理器 (GPU) 和 CPU，加快科学、分析、工程、消费和企业应用程序的运行速度。GPU 加速器于 2007 年由 NVIDIA? 率先推出，现已在世界各地为政府实验室、高校、公司以及中小型企业的高能效数据中心提供支持。GPU 能够使从汽车、手机和平板电脑到无人机和机器人等平台的应用程序加速运行.

　　GPU 如何加快软件应用程序的运行速度

　　GPU 加速计算可以提供非凡的应用程序性能，能将应用程序计算密集部分的工作负载转移到 GPU，同时仍由 CPU 运行其余程序代码。从用户的角度来看，应用程序的运行速度明显加快.

　　如何利用 GPU 实现加速

　　GPU 与 CPU 性能比较

　　理解 GPU 和 CPU 之间区别的一种简单方式是比较它们如何处理任务。CPU 由专为顺序串行处理而优化的几个核心组成，而 GPU 则拥有一个由数以千计的更小、更高效的核心（专为同时处理多重任务而设计）组成的大规模并行计算架构。

　　FPGA（Field－Programmable Gate Array），即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。

　　以硬件描述语言（Verilog或VHDL）所完成的电路设计，可以经过简单的综合与布局，快速的烧录至 FPGA 上进行测试，是现代 IC设计验证的技术主流。这些可编辑元件可以被用来实现一些基本的逻辑门电路（比如AND、OR、XOR、NOT）或者更复杂一些的组合功能比如解码器或数学方程式。在大多数的FPGA里面，这些可编辑的元件里也包含记忆元件例如触发器（Flip－flop）或者其他更加完整的记忆块。

　　系统设计师可以根据需要通过可编辑的连接把FPGA内部的逻辑块连接起来，就好像一个电路试验板被放在了一个芯片里。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者而改变，所以FPGA可以完成所需要的逻辑功能。

　　FPGA一般来说比ASIC（专用集成电路）的速度要慢，实现同样的功能比ASIC电路面积要大。但是他们也有很多的优点比如可以快速成品，可以被修改来改正程序中的错误和更便宜的造价。厂商也可能会提供便宜的但是编辑能力差的FPGA。因为这些芯片有比较差的可编辑能力，所以这些设计的开发是在普通的FPGA上完成的，然后将设计转移到一个类似于ASIC的芯片上。另外一种方法是用CPLD（Complex Programmable Logic Device，复杂可编程逻辑器件)。

　　FPGA虽然其市场前景诱人，但是门槛之高在芯片行业里无出其右。全球有60多家公司先后斥资数十亿美元，前赴后继地尝试登顶FPGA高地，其中不乏英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星这样的行业巨鳄，但是最终登顶成功的只有位于美国硅谷的四家公司：Xilinx（赛灵思）、Altera（阿尔特拉）、Lattice（莱迪思）、Microsemi(美高森美)，其中，赛灵思与Altera这两家公司共占有近90%的市场份额，专利达到6000余项之多，如此之多的技术专利构成的技术壁垒当然高不可攀。而赛灵思始终保持着全球FPGA的霸主地位。

　　正是由于芯片基础架构格局已定，所谓国内的AI芯片企业（包括初创企业）实际上做得只是基于上述基本架构的二次开发或者优化。

　　ASIC芯片是由于供专门应用的集成电路（ASIC，Application Specific Integrated Circuit)芯片技术，在集成电路界被认为是一种为专门目的而设计的集成电路。ASIC芯片技术发展迅速，目前ASIC芯片间的转发性能通常可达到1Gbs甚至更高，于是给交换矩阵提供了极好的物质基础。

　　ASIC芯片技术所有接口模块（包括控制模块）都连接到一个矩阵式背板上，通过ASIC芯片到ASIC芯片的直接转发，可同时进行多个模块之间的通信；每个模块的缓存只处理本模块上的输入输出队列，因此对内存芯片性能的要求大大低于共享内存方式。总之，交换矩阵的特点是访问效率高，适合同时进行多点访问，容易提供非常高的带宽，并且性能扩展方便，不易受CPU、总线以及内存技术的限制。目前大部分的专业网络厂商在其第三层核心交换设备中都越来越多地采用了这种技术。

　　目前，在集成电路界ASIC被认为是一种为专门目的而设计的集成电路。是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求，ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。

　　定制

　　ASIC分为全定制和半定制。全定制设计需要设计者完成所有电路的设计，因此需要大量人力物力，灵活性好但开发效率低下。如果设计较为理想，全定制能够比半定制的ASIC芯片运行速度更快。半定制使用库里的标准逻辑单元(Standard Cell)，设计时可以从标准逻辑单元库中选择SSI(门电路)、MSI(如加法器、比较器等)、数据通路(如ALU、存储器、总线等)、存储器甚至系统级模块(如乘法器、微控制器等)和IP核，这些逻辑单元已经布局完毕，而且设计得较为可靠，设计者可以较方便地完成系统设计。现代ASIC常包含整个32-bit处理器,类似ROM、RAM、EEPROM、Flash的存储单元和其他模块. 这样的ASIC常被称为SoC(片上系统)。

　　FPGA是ASIC的近亲，一般通过原理图、VHDL对数字系统建模，运用EDA软件仿真、综合，生成基于一些标准库的网络表，配置到芯片即可使用。它与ASIC的区别是用户不需要介入芯片的布局布线和工艺问题，而且可以随时改变其逻辑功能，使用灵活。

　　设计

　　ASIC的设计方法和手段经历了几十年的发展演变，从最初的全手工设计发展到现在先进的可以全自动实现的过程。这也是近几十年来科学技术，尤其是电子信息技术发展的结果。从设计手段演变的过程划分，设计手段经历了手工设计、计算机辅助设计（ICCAD）、电子设计自动化EDA、电子系统设计自动化ESDA以及用户现场可编程器阶段。集成电路制作在只有几百微米厚的原形硅片上，每个硅片可以容纳数百甚至成千上万个管芯。集成电路中的晶体管和连线视其复杂程度可以由许多层构成，目前最复杂的工艺大约由6层位于硅片内部的扩散层或离子注入层，以及6层位于硅片表面的连线层组成。就设计方法而言，设计集成电路的方法可以分为全定制、半定制和可编程IC设计三种方式。

　　全定制设计

　　全定制ASIC是利用集成电路的最基本设计方法（不使用现有库单元），对集成电路中所有的元器件进行精工细作的设计方法。全定制设计可以实现最小面积，最佳布线布局、最优功耗速度积，得到最好的电特性。该方法尤其适宜于模拟电路，数模混合电路以及对速度、功耗、管芯面积、其它器件特性（如线性度、对称性、电流容量、耐压等）有特殊要求的场合；或者在没有现成元件库的场合。特点：精工细作，设计要求高、周期长，设计成本昂贵。

　　由于单元库和功能模块电路越加成熟，全定制设计的方法渐渐被半定制方法所取代。在现在的IC设计中，整个电路均采用全定制设计的现象越来越少。全定制设计要求：全定制设计要考虑工艺条件，根据电路的复杂和难度决定器件工艺类型、布线层数、材料参数、工艺方法、极限参数、成品率等因素。需要经验和技巧，掌握各种设计规则和方法,一般由专业微电子IC设计人员完成；常规设计可以借鉴以往的设计，部分器件需要根据电特性单独设计；布局、布线、排版组合等均需要反覆斟酌调整，按最佳尺寸、最合理布局、最短连线、最便捷引脚等设计原则设计版图。版图设计与工艺相关，要充分了解工艺规范，根据工艺参数和工艺要求合理设计版图和工艺。

　　半定制设计方法

　　半定制设计方法又分成基于标准单元的设计方法和基于门阵列的设计方法。

　　基于标准单元的设计方法是：将预先设计好的称为标准单元的逻辑单元，如与门，或门，多路开关，触发器等，按照某种特定的规则排列，与预先设计好的大型单元一起组成ASIC。基于标准单元的ASIC又称为CBIC(CellbasedIC)。

　　基于门阵列的设计方法是在预先制定的具有晶体管阵列的基片或母片上通过掩膜互连的方法完成专用集成电路设计。半定制相比于全定制，可以缩短开发周期，降低开发成本和风险。

　　1.基于标准单元的设计方法

　　该方法采用预先设计好的称为标准单元的逻辑单元，如门电路、多路开关、触发器、时钟发生器等，将它们按照某种特定的规则排列成阵列，做成半导体门阵列母片或基片，然后根据电路功能和要求用掩膜版将所需的逻辑单元连接成所需的专用集成电路。

　　单元库中所有的标准单元均采用定制方法预先设计，如同搭积木或砌墙一样拼接起来，通常按照等高不等宽的原则排列，留出宽度可调的布线通道。CBIC的主要优、缺点：※用预先设计、预先测试、预定特性的标准单元库，省时、省钱、少风险地完成ASIC设计任务。※设计人员只需确定标准单元的布局以及CBIC中的互连。※标准单元可以置放于芯片的任何位置。※所有掩膜层是定制的；※可内嵌定制的功能单元；※制造周期较短，开发成本不是太高。※需要花钱购买或自己设计标准单元库；※要花较多的时间进行掩膜层的互连设计。

　　2.基于门阵列的ASIC门阵列

　　是将晶体管作为最小单元重复排列组成基本阵列，做成半导体门阵列母片或基片，然后根据电路功能和要求用掩膜版将所需的逻辑单元连接成所需的专用集成电路。用门阵列设计的ASIC中，只有上面几层用作晶体管互连的金属层由设计人员用全定制掩膜方法确定，这类门阵列称为掩膜式门阵列MGA（maskedgatearray）。门阵列中的逻辑单元称为宏单元，其中每个逻辑单元的基本单元版图相同，只有单元内以及单元之间的互连是定制的。客户设计人员可以从门阵列单元库中选择预先设计和预定特性逻辑单元或宏单元，进行定制的互连设计。门阵列主要适合于开发周期短，低开发成本的小批量数字电路设计。

　　可编程器件的ASIC设计

　　可编程ASIC是专用集成电路发展的另一个有特色的分支，它主要利用可编程的集成电路如PROM,GAL,PLD,CPLD,FPGA等可编程电路或逻辑阵列编程，得到ASIC。其主要特点是直接提供软件设计编程，完成ASIC电路功能，不需要再通过集成电路工艺线加工。

　　可编程器件的ASIC设计种类较多，可以适应不同的需求。其中的PLD和FPGA是用得比较普遍得可编程器件。适合于短开发周期，有一定复杂性和电路规模的数字电路设计。尤其适合于从事电子系统设计的工程人员利用EDA工具进行ASIC设计。

　　成本评述

　　ASIC设计需要根据电路功能和性能要求，选择电路形式、器件结构、工艺方案和设计规则，尽量减小芯片面积、降低设计成本、缩短设计周期，最终设计出正确、合理的掩膜版图，通过制版和工艺流片得到所需的集成电路。

　　从经济学的角度看，ASIC的设计要求是在尽可能短的设计周期内，以最低的设计成本获得成功的ASIC产品。但是，由于ASIC的设计方法不同，其设计成本也不同。

　　全定制设计周期最长，设计成本贵，设计费用最高，适合于批量很大或者对产品成本不计较的场合。

　　半定制的设计成本低于全定制，但高于可编程ASIC，适合于有较大批量的ASIC设计。

　　用FPGA设计ASIC的设计成本最低，但芯片价格最高，适合于小批量ASIC产品。

　　现在的大部分ASIC设计都是以半定制和FPGA形式完成的。半定制和FPGA可编程ASIC设计的元件成本比较：CBIC元件成本IC价格的2－5倍。但是半定制ASIC必须以数量取胜，否者，其设计成本要远远大于FPGA的设计成本。ASIC设计生产不单单要考虑元件成本，ASIC元件的批量大小、生产周期的长短，产品利润、产品寿命等等因素，也是决定采取哪种设计方法、生产工艺和成本限制的重要因素。

　　在国外大厂几近垄断CPU、GPU和FPGA市场的情况下，再加上技术壁垒很高，中国AI芯片厂商在芯片领域一直缺乏关键核心自主技术，仅凭市场、企业单方面的力量难以在CPU、GPU和FPGA方面有所突破，只能另辟蹊径。从目前来看，中国AI芯片厂商更多的是以中小公司为主，与实际应用需求结合，集中于设备端的AI ASIC开发，就某一垂直领域进行优化，以低功耗低成本取胜。例如中国知名的AI芯片初创企业寒武纪就是此类。

　　这里我们并非说ASIC在AI芯片领域没有前景，恰恰相反，此前名扬业内的谷歌TPU就是基于ASIC。不过需要说明的是，谷歌之所以开发TPU，是基于其自身数据中心的应用规模，而规模是决定采用ASIC效益的关键。

　　尽管自身庞大应用规模的TPU在业内引起了好评，但谷歌首席科学家Greg Corrado在此前召开的谷歌AI技术分享会上还是提出了不同的观点，他说，“至少迄今为止，我也没有看到完全不同于传统计算芯片的成功案例。相反，我们认为应对现有的芯片做AI方面专门的优化，使现在的芯片完成AI任务时速度更快，功耗更低，整体的效益更高。”这也是为何谷歌有了TPU，但依然会在其数据中心采用CPU和GPU的原因。言外之意，TPU只是针对数据中心某些应用相对于CPU和GPU的补充和优化，并不能成为主流。

　　具体到中国，为了规避ASIC开发周期长和投入大的风险，基于ASIC开发的所谓AI芯片基本是采取SoC+IP的模式，即相比ASIC，SoC+IP模式的上市时间短，成本较低，并且IP可以更灵活地满足用户需求。IP公司专注于IP模块的设计，SoC公司则专注于芯片集成，分工合作，提高效率。此前华为麒麟芯片与寒武纪IP结合在智能手机上的应用就属此种模式。但前提是规模（华为手机巨大的出货量）及SoC的支持。那么对于中国市场而言，能有多少像华为这样的规模用户。ASIC独木难成林。

　　更让ASIC前景难料的是，业内有一种分析和观点认为，FPGA受益于芯片NRE费用指数级上升带来的规模效应。随着制程工艺不断提高，芯片NRE费用指数级上升，越来越多的ASIC芯片将由于达不到规模经济而被迫放弃，从而转向直接基于FPGA开发设计。

　　据Tractica估计显示，到去年为止，深度学习应用中还几乎找不到FPGA的身影，但是，到2025年，它的部署会和CPU的部署量相当(如果不能超过CPU的话）。其结果就是，到2025年，FPGA将会在总规模达122亿美金的深度学习芯片组市场获得显著的市场份额。

　　所谓万变不离其宗。虽然目前AI芯片的叫法五花八门，但依然没有脱离CPU、GPU、FPGA和ASIC这些核心，而在这些核心中，显然仍是那些传统芯片厂商，例如英特尔、英伟达、赛灵思等国外厂商的天下。

鲜花

握手

雷人

路过

鸡蛋

收藏分享邀请

上一篇：公安部拟将网络分为五个安保等级严禁泄露个人信息下一篇：苹果手机被人捡能报警吗，如何保护自己的id锁，有什么办法能够找回手机呢

下级分类

网络安全

		自动登录	找回密码
密码			立即注册

AI主流芯片，CPU、GPU、FPGA和ASIC。

相关分类

下级分类