www.55.am娱乐,官网,备用网址
热门关键字:  
当前位置 :| 首页 > 开户免费送彩金38元

业界 - 微软推出深度进修减速平台「Project Brainwave」:FPGA驱动及时人工智能

来源: 作者: 时间:2017-10-04 点击:
业界 | 微软推出深度进修减速平台「Project Brainwave」:FPGA驱动及时人工智能

原题目:业界 | 微软推出深度学习减速平台「Project Brainwave」:FPGA驱动实时人工智能

选自微软博客

机械之心编译

参加:路雪、黄小天、蒋思源


近日在 Hot Chips 2017 上,微软团队推出了一个新的深度学习减速平台,其代号为脑波筹划(Project Brainwave),机器之心将扼要介绍该计划。脑波计划在深度学习模型云效劳方面完成了性能与机动性的宏大提升。微软专为实时人工智能设计了该系统,它可以超低延迟地处理接受到的恳求。云基本架构也可以处理实时数据流,如搜寻查问、视频、传感器流,或许与用户的交互,因而实时 AI 变的更加主要。


迩来,FPGA 对深度学习的训练和利用变得越来越重要,因为 FPGA:

  • 性能:低批量巨细上的优良推感性能、在古代 DNN 上效劳的超低延迟、>10X 且比 CPU 和 GPU 更低、在单一 DNN 效劳中扩展到许多 FPGA。

  • 灵活性:FPGA 非常适适合应快速开展的 ML、CNN、LSTM、MLP、强化学习、特征提取、决议树等、推理优化的数值精度、利用稀少性、更大更快模型的深度紧缩。

  • 规模:微软在 FPGA 上领有寰球最大的云盘算投资、AI 总体才能的多实例操作、脑波计划运转在微软的规模基础设备上。

所以我们宣布了脑波计划(Project BrainWave),一个可扩展的、支持 FPGA 的 DNN 效劳平台,它有三个特征:

  • 快速:小批量 DNN 模型有超低延迟、高吞吐量效劳

  • 灵活:顺应性数值精度与自定义运算符

  • 友爱:CNTK/Caffe/TF/等的交钥匙(turnkey)安排


脑波计划


脑波方案系统的重要内容包含以下三个层面:

  • 一个高性能的分布式系统架构;

  • 一个集成在 FPGA 的硬件 DNN 引擎;

  • 一个用于已训练模型的低摩擦(low-friction)部署的编译器和运转时光。

首先,脑波计划利用了微软这些年始终部署的大量 FPGA 基础架构。经过把高性能 FPGA 直接衔接到我们的数据核心网络,我们可以把 DNN 作为硬件微效劳,其中 DNN 可以映射到一个近程 FPGA 池,并被轮回中没有软件的效劳器挪用。这个系统架构不只可以下降延迟(因为 CPU 并不须要处理传入的请求),还可以容许无比高的吞吐量,并且 FPGA 处理请求可以如网络的流式传输一样快。




第二,金博娱乐城,脑波计划使用了一个壮大的在贸易化可用的 FPGA 上分解的「软」DNN 处理单元(DPU)。大批的公司,包括大型公司和一大量草创公司,正在结构硬化的 DPU。只管此中一些芯片具备顶峰值性能,但它们必需在设计时抉择运算符和数据类型,这限度了其灵巧性。脑波计划采用了另一种方法,提供了一个可在一系列数据类型上缩放的设计。这个设计联合了 FPGA 上的 ASIC 数字旌旗灯号处理模块和可分解的逻辑,以供给一个更大更优化数目的功效单位。这一办法以两种方法应用了 FPGA 的灵活性。起首,我们曾经定义了高度自定义、窄精度(narrow-precision)的数据类型,无需丧失模型精度即可提升性能。第二,我们可以把研讨翻新疾速整合进硬件平台(凡是是数周时间),这在快捷挪动的空间中至关重要。因此,我们获得了可媲美于甚至超越良多硬编码(hard-coded)DPU 芯片的性能,并在明天兑现了性能方面的许诺。



脑波软 DPU 架构


中心特征

  • 单线程 C 编程模型(不 RTL)

  • 存在专门指令的 ISA:密集矩阵乘法、卷积、非线性鼓励值、向量操作、嵌入

  • 独占的可参数化的窄精度格局,包括在 float16 接口中

  • 可参数化的微架构,而且扩展到大型 FPGA(~1M ALMs)

  • 硬件微效劳完整整合(附设收集)

  • 用于 CPU 主机跟 FPGA 的 P2P 协定

  • 易于扩展带有自界说运算符的 ISA


矩阵向量单元


特点

  • 优化以适用于批量为 1 的矩阵向量乘法

  • 矩阵逐行散布在 BRAM 的 1K-10K 个内存块上,最高 20 TB/s

  • 可扩大以应用芯片上一切可用的 BRAM、DSP 和软逻辑(soft logic)

  • 将 float 16 权重和激活值原位转换成外部格式

  • 将密集的点积单元高效映射到软逻辑和 DSP




第三,脑波计划归入了一款支持多个流行深度学习框架的软件栈(software stack)。我们曾经支持微软 Cognitive Toolkit 和谷歌的 Tensorflow,并且计划支持其余框架,金博娱乐城。我们曾经定义了一个基于图的中间表示(intermediate representation),我们将在风行框架中训练的模型转换成旁边表现,而后再将其编译成我们的高性能基础架构。



  • 编译器 & 运转时:框架中破的结合编译器和运转时,用于将预练习的 DNN 模型编译至软 DPU

  • 架构:自顺应 ISA,用于窄精度 DNN 接口;灵活、可扩展,可支撑倏地变更的人工智能算法

  • 微架构:BrainWave Soft DPU 微架构;高度优化,实用于窄精度和小批量

  • 扩展分歧性:在 FPGA 芯片内存中分歧的模型参数;可在多个 FPGA 中扩展以支持大模型

  • 英特尔 FPGA 上的 HW 微效劳:英特尔 FPGA 大规模部署,带有硬件微效劳 [MICRO'16]


脑波编译器和运转时


我们构建该系统,以展示其在多个复杂模型中的高性能,同时无须履行批处理(batch-free execution)。公司和研究职员构建 DNN 减速器通常使用卷积神经网络(CNN)展示性能 demo。CNN 是计算密集型,因此它取得高性能绝对比拟简略。那些成果通常无奈代表其他域的更复杂模型上的性能,如天然言语处理中的 LSTM 或 GRU。DNN 减速器常常用来提升性能的另一项技术是用高度批处理运转深度神经网络。尽管该技巧对基于吞吐量的架构和训练等离线场景无效,但它对实时人工智能的后果没有那么好。使用大批量,一个批次中的第一个查询必须等候该批次中的其他查询实现。我们的系统适用于实时人工智能,毋庸使用批处理来降低吞吐量,即可处理复杂、内存密集型的模型,如 LSTM,金博娱乐城


即便在晚期 Stratix 10 silicon 中,移植的 Brainwave 系统可运转大型 GRU 模型,它们可能比不使用批处理的 ResNet-50 还要大 5 倍,同时该系统也完成了创纪录的性能。该演示使用的是微软定制的 8 位浮点格式(「ms-fp8」),它在很多模型中都不会遭遇到均匀正确度损掉。我们展现了 Stratix 10 在大型 GRU 模型中保持了 39.5 Teraflops,并且每一个要求的运转时间都在毫秒内。在性能方面,脑波架构每一个周期坚持了超越 130000 个计算操作,并且由每 10 个周期发布的宏指令驱动。脑波在 Stratix 10 上运转,完成了实时 AI 的强大性能,特别是在十分拥有挑衅性的模型上。我们将在接上去的多少个季度调剂系统,盼望它可能完成明显的性能提升。



传统的减速方式:Local Offload and Streaming



经过批处置晋升硬件功效



FPGA 上的窄精度接口


结语


咱们正将这种强盛的实时 AI 系统先容给大师,特殊是 Azure 平台的用户。如许,我们的用户才干从脑波打算中直接获益,并直接弥补了拜访我们的效劳的门路,如 Bing。在未几的将来,我们将详细阐明 Azure 用户能够怎么使用该平台运转他们庞杂的深度学习模子,并到达创记载的机能。由于脑波规划体系是年夜范围集成系统并对我们用户是可用的,所以 Microsoft Azure 在实时人工智能上有行业当先的性能。

原文地址:https://www.microsoft.com/en-us/research/blog/microsoft-unveils-project-brainwave/

本文为机器之心编译,转载请接洽本大众号取得受权。

?------------------------------------------------

最新评论共有 位网友发表了评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
验证码:
匿名?
相关文章
无相关信息