时代变了!NVIDIA A100 GPU推理性能237倍碾压CPU

  • 时间: 2020-10-23 04:52:32

  MLPerf 组织今天发布最新的推理基准测试(Benchmark)MLPerf Inference v0.7 结果,总共有 23 个组织提交了结果,相比上一个版本(MLPerf Inference v0.5)的 12 个提交者增加了近一倍。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  结果显示,今年 5 月 NVIDIA(Nvidia)发布的安培(Ampere)架构 A100 Tensor Core GPU,在云端推理的基准测试性能是最先进 Intel CPU 的 237 倍。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  MLPerf Inference V0.7 部分结果截图 

  最新的 AI 推理测试结果意味着,NVIDIA 未来可能在 AI 推理和训练市场都占据领导地位,给云端 AI 推理市场拥有优势的 Intel 带来更大压力的同时,也将让其他追赶者面临更大挑战。

  MLPerf 推理基准测试进一步完善的价值

  与 2019 年的 MLPerf Inference v0.5 版本相比,最新的 0.7 版本将测试从 AI 研究的核心视觉和语言的 5 项测试,扩展了到了包括推荐系统、自然语言理解、语音识别和医疗影像应用的 6 项测试,并且有分别针对云端和终端推理的测试,还加入了手机和笔记本电脑的结果。

  扩展的测试项从 MLPerf 和业界两个角度都有积极意义。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  MLPerf Inference v0.5 测试项

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  MLPerf Inference v0.7 数据中心测试项

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  MLPerf Inference v0.7 边缘端测试项

  任何一个基准测试都需要给业界具有参考价值的指标。MLPerf 基准测试是在业界缺乏对 AI 芯片公认的评价标准的 2018 年诞生,因此,MLPerf 组织既需要给出各方都认可的成绩,还需要根据 AI 行业的发展完善评价标准。

  不过,AI 行业发展迅速,AI 模型的参数越来越多,应用的场景也越来越广泛。评价 AI 芯片和系统的推理性能需要涵盖可编程性、延迟、准确性、模型大小、吞吐量、能效等指标,也需要选择更具指导价值的模型和应用。

  此次增加的推荐系统测试对于互联网公司意义重大。在王喆的《深度学习推荐系统》一书中提到,2019 年天猫“双 11”的成交额是 2684 亿元,假设推荐系统进行了优化,整体的转化率提高1%,那么增加的成交额大约为 26.84 亿元。

  另外,MLPerf Inference v0.7 中增加医疗影像 3D U-Net 模型测试与新冠大流行以及 AI 在医疗行业的重要性与日俱增密切相关,比如一家初创公司使用 AI 简化了超声心电图的采集工作,在新冠大流行初期发挥了作用。

  基准测试从 v0.5 到 v0.7,能够为要选用 AI 芯片和系统的公司提供更直观和有价值的参考是 MLPerf 基准测试的价值所在,比如,帮助金融结构的会话式 AI 更快速回答客户问题,帮助零售商使用 AI 保证货架库存充足。

  与此同时,这也将促进 MLPerf 组织在业界的受认可程度,从接近翻倍的提交成绩的组织就能看出来。

  GPU 云端推理性能最高是 CPU 的 237 倍

  过去几年,云端 AI 训练市场 NVIDIA 拥有绝对优势,云端 AI 推理市场被 Intel 赚取了大部分利润是事实。这让不少人都产生了 GPU 更适合训练而 CPU 更适合推理的认知,但 MLPerf 最新的推理测试结果可能会改变这一观点。

  MLPerf Inference V0.7 的测试结果显示,在数据中心 OFFLINE(离线)测试模式下,赛灵思 U250 和 IntelCooper Lake 在各个测试模型下与 NVIDIAT4 的差距不大,但 A100 对比 CPU、FPGA 和自家的 T4 就有明显的性能差距。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  在 SERVER 模式下的推荐系统 DLRM 模型下,A100 GPU 对比 IntelCooper Lake 有最高 237 倍的性能差距,在其他模型下也有比较显著的差距。值得注意的是,Intel 的 Cooper Lake 系统的状态还是预览,其余三款芯片的系统都已经可用。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  A100 GPU 的优势也在边缘推理中也十分明显。在单数据流(Singel-Stream)测试中,A100 对比 NVIDIAT4 和面向边缘终端的 NVIDIAJetson AGX Xavier 有几倍到十几倍的性能优势。在多数据流(Multi-Stream)测试中,A100 对比另外两款自家产品在不同 AI 模型中有几倍到二十多倍的性能优势。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  在边缘 OFFLINE 模式下,A100 对比 T4 和 Jetson AGX Xavier 也有几倍到二十多倍的性能优势。

  这很好地说明 A100 的安培架构以及其第三代 Tensor Core 优势的同时,也表明了 NVIDIA 能够覆盖整个 AI 推理市场。

  在此次提交结果的 23 家公司中,除了 NVIDIA 外还有 11 家其合作伙伴提交了基于 NVIDIA GPU 的 1029 个测试结果,占数据中心和边缘类别中参评测试结果总数的 85% 以上。

  从提交结果的合作伙伴的系统中可以看到,NVIDIAT4 仍然是企业的边缘服务器推理平台的主要选择。A100 提升到新高度的性能意味着未来企业边缘服务器在选择 AI 推理平台的时候,可以从 T4 升级到 A100,对于功耗受限的设备,可以选择 Jeston 系列产品。

  特别值得注意的是,NVIDIA GPU 首次在公有云中实现了超越 CPU 的 AI 推理能力。

  临界点到来?AI 推理芯片市场竞争门槛更高

  五年前,只有少数领先的高科技公司使用 GPU 进行推理。如今,NVIDIAGPU 首次在公有云市场实现超越 CPU 的 AI 推理能力,或许意味着 AI 推理市场临界点的到来。NVIDIA 还预测,基于其 GPU 的总体云端 AI 推理计算能力每两年增长约 10 倍,增长速度高于 CPU。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  另外,NVIDIA 还强调基于 A100 高性能系统的成本效益。NVIDIA 表示,一套 DGX A100 系统可以提供相当于近 1000 台双插槽 CPU 服务器的性能,能为客户 AI 推荐系统模型从研发走向生产的过程,具有极高的成本效益。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU

  同时,NVIDIA 也在不断优化推理软件堆栈,进一步提升在推理市场的竞争力。

  最先感受到影响的会是 Intel,但在云端 AI 推理市场体现出显著变化至少需要几年时间,因为企业在更换平台的时候会更加谨慎,生态的护城河此时也更能体现出价值。

  但无论如何,我们都看到 NVIDIA 在 AI 市场的强势地位。雷锋网七月底报道,在 MLPerf 发布的 MLPerf Training v0.7 基准测试中,A100 Tensor Core GPU,和 HDR InfiniBand 实现多个 DGX A100 系统互联的庞大集群 DGX SuperPOD 系统在性能上开创了八个全新里程碑,共打破 16 项纪录。

  安培架构 A100 在 MLPerf 最新的训练和推理成绩表明 NVIDIA 不仅给云端 AI 训练的竞争者更大的压力,也可能改变 AI 推理市场的格局。

  NVIDIA 将其在云端训练市场的优势进一步拓展到云端和边缘推理市场符合 AI 未来的发展趋势。有预测指出,随着 AI 模型的成熟,市场对云端 AI 训练需求的增速将会降低,云端 AI 推理的市场规模将会迅速增加,并有望在 2022 年超过训练市场。

  另据市场咨询公司 ABI Research 的数据,预计到 2025 年,边缘 AI 芯片市场收入将达到 122 亿美元,云端 AI 芯片市场收入将达到 119 亿美元,边缘 AI 芯片市场将超过云端 AI 芯片市场。

  凭借强大的软硬件生态系统,NVIDIA 和 Intel 依旧会是 AI 市场的重要玩家,只是随着他们竞争力的不断提升,其他参与 AI 市场竞争的 AI 芯片公司们面临的压力也随之增加。

时代变了!NVIDIA A100 GPU 推理性能 237 倍碾压 CPU