072-83758374
072-83758374
时间:2024-09-29 点击数:
用于架顶式交换机从每个分开的平台扩展到单个机架中的多个服务器。随着Facebook AI训练的规模和复杂性大大快速增长,Zion平台也可以随之拓展。Zion系统分成三个部分:8插槽服务器8加速器平台OCP加速器模块Zion将系统的内存、计算出来和网络密集型组件解法耦,容许每个组件独立国家拓展。
系统为映射SparseNN表等内存容量密集型组件获取了8x NUMA CPU模块和大容量DDR内存池。而对CNN或者SparseNN密集部分这样的内存比特率密集型和计算出来密集型工作阻抗,每个CPU模块都相连了OCP加快模块。Zion系统有两个高速结构:相连所有CPU的连贯结构和相连所有加速器的结构。鉴于加速器存储比特率低但存储容量较低,Facebook期望通过对模型展开分区来有效地用于能用的单体内存容量,使得更加频密采访的数据待命在加速器上,而采访频率较低的数据待命在带上CPU的DDR内存。
所有CPU和加速器之间的计算出来和通信都是均衡的,并且通过高速和短距离连接有效地展开。通过Kings Canyon继续执行推理小说在训练完了模型之后,就必须将其部署到生产环境中,从而处置AI流程的数据,并号召用户的催促,这就是所谓的推理小说。推理小说的工作阻抗于是以急遽减少,这体现了训练工作的大量减少,目前用于的标准CPU服务器已无法很好的拓展规模以符合市场需求。
Facebook于是以与Esperanto、Intel、Marvell和Qualcomm等多个合作伙伴合作,研发可在基础架构上部署和拓展的推理小说ASIC芯片。这些芯片将为工作阻抗获取INT8半精度的运算,从而获得理想的性能,同时也反对FP16单精度的运算,从而构建更高的精度。
整个推理小说服务器解决方案分成四个有所不同的部分,它们利用了早已公布到OCP的现有建构块。利用现有组件可以减缓开发进度,并通过通用性减少风险。该设计的四个主要组成部分为:Kings Canyon推理小说M.2模块Twin Lakes单插槽(single-socket)服务器Glacier Point v2载卡(carrier card)Yosemite v2机架在系统级别,每个服务器皆由M.2 Kings Canyon加速器和相连到Twin Lakes服务器的Glacier Point v2载卡构成。
将两组组件加装到改版的Yosemite v2机架中,并通过多主机NIC相连到架顶式交换机。改版后的Yosemite sled是目前Yosemite v2 sled的递归升级,它将Twin Lakes主机的其他PCI-E通道相连到NIC,以取得更高的网络带宽。每个Kings Canyon模块都包括ASIC、涉及内存和其它反对组件,其中CPU主机通过PCI-E通道与加速器模块通信。Glacier Point v2还包括一个构建的PCI-E交换机,容许服务器同时采访所有模块。
深度自学模型是储存密集型阻抗,如SparseNN模型具备十分大的映射密切相关表格,它不会闲置好几GB的存储空间,并且还可能会持续增长。这样的大模型有可能不合适读取到分开设备的内存中,不论是CPU还是加速器都敢,这就拒绝在多个设备内存上展开模型拆分(model partitioning)。当数据坐落于另一个设备的内存中时,拆分将产生很多通信成本,好的拆分算法不会应用于捕捉局部的概念,从而减少通信成本。
在展开适合的模型拆分后,就可以运营如SparseNN模型这样大规模的深度自学模型。如果单节点的内存能力足以反对等价的模型,可以在两个节点之间更进一步拆分模型,从而减少模型能用的内存量。
这两个节点可以通过多主机NIC相连,并反对高速信息处理。这将减少整体的通信成本,可以利用横跨多个映射表格不存在采访差异的特性,适当地对表格展开排序而减少通信延后。
神经网络硬件加速器编译器ASIC不运营标准化代码,它们必须专门的编译器将图形切换为可以在这些加速器上继续执行的指令。Glow编译器的目标是将供应商的特定硬件从更加高级的软件堆栈中抽象化出来,使基础设施不不受供应商容许。它拒绝接受来自PyTorch 1.0等框架的计算出来图,并为这些机器学习加速器分解高度优化的代码。
用于Mount Shasta展开视频转码自2016年以来,Facebook Live直播的平均值数量每年翻一番。自2018年8月在全球发售以来,Facebook Watch的月浏览量早已多达4亿,每天有7500万人用于。
为了优化所有这些视频,使其能适应环境多种网络环境,Facebook区分了多种不同分辨率和比特率的输入质量,这个过程称作视频转码。已完成转码所必须的计算出来是高度密集型的,标准化处理器的效率已无法符合日益增长的视频必须。为了回头在市场需求的前面,Facebook与博通和芯原微电子合作,设计了针对转码工作阻抗展开优化的自定义ASIC。
视频转码流程被分解成为许多有所不同的步骤,为了提高效率,Facebook与供应商为转码流程的每个阶段皆创立了自定义ASIC模块。专用硬件来已完成这些工作阻抗可以使该过程更为高效,并可反对动态4K 60fps流媒体等新功能。
单个视频编解码器是标准化的,且会常常改动,因此在这种情况下,自定义芯片缺少灵活性的特征并不是一个明显的缺点。视频转码的第一个阶段称作解码,在解码过程中,上载的文件被可执行文件,以取得由一系列图像回应的完整视频数据。随后对这些未压缩的图像展开操作者,以变更它们的分辨率,而后再度用于优化设置展开编码,将它们新的传输到视频流中,并将输入视频与完整视频展开较为,计算出来质量指标。所有的视频都采行这种作法,以保证所用的编码设置可以输入高质量的视频。
视频编码和解码用于的标准称作视频编码方式,H.264、VP9和AV1都是目前用于的主流编码协议。在ASIC上,除了每个软件算法都被芯片内的专用模块所代替外,其他步骤都是完全相同的,Facebook期望视频加速器可反对多种分辨率和多种编码格式,并构建比目前服务器高达许多倍效率,目标是10W功耗内最少处置2个4K 60fps的分段输出流。
视频转码ASIC一般来说有以下主要逻辑块:解码器:接管上载的视频,输入解压缩的完整视频流图形器(Scaler):变更视频分辨率编码器:输入传输(编码)视频质量检测:计算出来编码后的视频质量PHY:芯片与外界的模块,相连到服务器的PCI-E和内存地下通道控制器:运营固件并协商转码流程的标准化块与推理小说一样,Facebook利用现有的OCP建构块在数据中心内部署这些视频转码ASIC。加速器将加装在构建了散热器的M.2模块上,这种少见的电气外形在有所不同硬件平台上均可以标准化。
模块被加装在Glacier Point v2(GPv2)载卡上,该载有卡具备和Twin Lakes服务器一样的物理外形,可容纳多个M.2模块,可兼容 Yosemite v2机架,并在其中与Twin Lakes服务器筛选。由于视频转码ASIC拒绝功耗较低且体积小,因此Facebook期望通过将尽量多的芯片与单个服务器相连接来节约成本。高密度的GPv2可实现这一目标,同时还可获取充足的加热能力以忍受数据中心的工作温度。
已完成软件构建工作后,Facebook可将视频转码工作负载平衡产于到有所不同数据中心方位的异构硬件上。为了在与各种机器学习和视频空间供应商的合作过程中不断扩大规模,他们还希望保证软件以对外开放的形式研发,并推展和使用标准化的界面和框架。Facebook在文中回应,公司将步入激动人心的未来,期望Zion、Kings Canyon和Mount Shasta能购分别解决问题在AI训练、AI推理小说和视频转码方面大大快速增长的工作量。Facebook将通过OCP公开发表获取所有设计和规格,青睐其他公司的重新加入以加快基础架构建设的进程,并通过硬件和软件协同设计之后希望改良这些系统。
原文链接:Accelerating Facebooks infrastructure with application-specific hardware版权文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:太阳城官网-www.xuekaiwen.com.cn