一文看懂人工智能芯片的产业生态及竞争格局
作者:乐鱼体育发布时间:2024-12-27
近日,国内人工智能芯片公司寒武纪科技(Cambricon)获得了一亿美元A轮融资,是目前国内人工智能芯片领域初创公司所获得的最高融资记录,如果要说这桩融资对人工智能领域的最直接意义,或许是让人工智能芯片逐渐走入了更多人的视野。
深度学习不仅在传统的语音识别、图像识别、搜索/推荐引擎、计算广告等领域证明了其划时代的价值,也引爆了整个人工智能生态向更大的领域延伸。由于深度学习的训练(training)和推断(inference)均需要大量的计算,人工智能界正在面临前所未有的算力挑战,而其始作俑者,是摩尔定律的失效。
由于结构所限,CPU性能近年来未能呈现如摩尔定律预测的定期翻倍,于是具有数量众多计算单元和超长流水线、具备强大并行计算能力与浮点计算能力的GPU,成为了深度学习模型训练的标配。GPU可以大幅加速深度学习模型的训练速度,相比CPU能提供更快的处理速度、更少的服务器投入和更低的功耗,并成为深度学习训练层面的事实工具标准。
但是,随着人工智能产业链的火速延伸,GPU并不能满足所有场景(如手机)上的深度学习计算任务, GPU并不是深度学习算力痛点的唯一解。算力的刚需,吸引了众多巨头和初创公司纷纷进入人工智能芯片领域,并形成了一个自下而上的生态体系,本文希望通过不太长的篇幅,系统呈现这个缤纷而有趣的人工智能芯片生态。
一项深度学习工程的搭建,可分为训练(training)和推断(inference)两个环节:训练环境通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型乐鱼体育官方网站。训练过程由于涉及海量的训练数据(大数据)和复杂的深度神经网络结构,需要的计算规模非常庞大,通常需要GPU集群训练几天甚至数周的时间,在训练环节GPU目前暂时扮演着难以轻易替代的角色。
推断(inference)环节指利用训练好的模型,使用新的数据去“推断”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然推断环节的计算量相比训练环节少,但仍然涉及大量的矩阵运算。在推断环节,除了使用CPU或GPU进行运算外,FPGA以及ASIC均能发挥重大作用。
FPGA(可编程门阵列,Field Programmable Gate Array)是一种集成大量基本门电路及存储器的芯片,可通过烧入FPGA配置文件来来定义这些门电路及存储器间的连线,从而实现特定的功能。而且烧入的内容是可配置的,通过配置特定的文件可将FPGA转变为不同的处理器,就如一块可重复刷写的白板一样。因此FPGA可灵活支持各类深度学习的计算任务,性能上根据百度的一项研究显示,对于大量的矩阵运算GPU远好于FPGA,但是当处理小计算量大批次的实际计算时FPGA性能优于GPU,另外FPGA有低延迟的特点,非常适合在推断环节支撑海量的用户实时计算请求(如语音云识别)。
ASIC(专用集成电路,Application Specific Integrated Circuit)则是不可配置的高度定制专用芯片。特点是需要大量的研发投入,如果不能保证出货量其单颗成本难以下降,而且芯片的功能一旦流片后则无更改余地,若市场深度学习方向一旦改变,ASIC前期投入将无法回收,意味着ASIC具有较大的市场风险。但ASIC作为专用芯片性能高于FPGA,如能实现高出货量,其单颗成本可做到远低于FPGA。
在深度学习的训练和推断环节,常用到的芯片及特征如下图所示:乐鱼体育
从市场角度而言,目前人工智能芯片的需求可归纳为三个类别:首先是面向于各大人工智能企业及实验室研发阶段的训练环节市场;其次是数据中心推