/方案中心 | GPU池化技术,推动AI快速发展

方案中心 | GPU池化技术,推动AI快速发展

一 、产业痛点

从产业链来看,人工智能分为基础层、技术层、应用层三个部分,我国在技术层、应用层发展良好,但在基础层特别是算力环节仍有待夯实实力。其中的硬件部分主要为 GPU 服务器。
算力提升是人工智能行业发展的核心驱动因素。人工智能有三大要素:算力、算法和数据,构成人工智能的基础层。算力是核心,向上为应用和算法提供支持,向下对器件和电路、工艺和材料提出需求。算力的提升,事实上提高了算法效率和算法的演进节奏。算力的支撑是人工智能芯片(AI 芯片),包括以 CPU、GPU、FPGA为代表的传统芯片,和通用型智能芯片、专用型智能芯片(即 ASIC)。
算力模块的智能服务器的国产化率逐步提升,AI芯片虽然仍以英伟达的GPU为主导,但国内部分企业开始自研AI芯片,产生了一批针对通用GPU、ASIC与FPGA的先行玩家。总的来说,基础层全栈的自主可控建设还处在萌芽阶段,未来将在“可用”的建设要求上打好根基,向“好用”的状态演变, 并且从以政府政策引导为主的局面向以企业产品自由竞争的局面转变。
最近几年,算力需求强劲但利用率较低:各业务实时性算力需求攀升,业务与算力适配难度较大。算力资源部署难、调度难:硬件采购成本高以及交付周期不可控,计算资源调度门槛高。算力集群操作系统复杂:各类异构算力的操作系统自动化水平低,交互友好性低。除以上三点之外,当前疫情环境下,全球AI芯片短缺,英伟达的GPU交货周期平均需要近26个月。
另一方面,在大部分的AI业务发展过程中,往往都是以业务场景和项目的方式立项,例如:智能风控,智能营销,智能客服,智能投研,身份识别,智能保险,智能监管等等,往往都采购带GPU的算力资源。这些项目的建立,容易出现资源孤岛,底层资源没有打通,导致调用不灵活,造成浪费和效率低下。

二 、产业需求趋势

业界一直在对如何更优化的使用GPU资源进行探索。然而,大多数方案都没有解决上述最关键的问题。
这条不断探索的道路,可按技术突破分为简单虚拟化、任意虚拟化、远程调用和资源池化四个阶段。

阶段一,简单虚拟化:将物理GPU按固定比例切分成多个虚拟GPU,比如1/2或1/4,每个虚拟GPU的显存相等,算力轮询。
阶段二,任意虚拟化:仍然是以单机GPU虚拟化为目标,但是通过一些技术手段支持物理GPU的从算力和显存两个维度灵活切分,实现自定义大小,满足AI应用差异化需求。
阶段三,远程调用:重要技术突破在于支持GPU的跨节点调用,AI应用可以部署到数据中心的任意位置,不管所在的节点上有没有GPU。在该阶段,资源纳管的范围从单个节点扩展到由网络互联起来的整个数据中心,是从GPU虚拟化向GPU资源池化进化的里程碑。
阶段四,资源池化:关键点在于按需调用,动态伸缩,用完释放。借助池化能力,AI应用可以根据负载需求调用任意大小的GPU,甚至可以聚合多个物理节点的GPU;在容器或虚机创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用。

通过以上技术分析可见,传统的GPU虚拟化技术,或者叫GPU切片技术,基本上还是基于硬件的思维,只能对本地物理机上的GPU进行虚拟切割。而基于整个数据中心范围的GPU资源池化,不仅可以支持本地GPU虚拟化,而且还能打破单机资源调度的物理边界,让用户透明使用任意物理机上、任意数量的GPU资源,按需灵活调用,用完立即释放,极大地提升了昂贵GPU的利用率和业务的灵活度。


三 、解决方案

GPU在数据中心经过资源池化之后,可以在如下的方面提升资源利用率,提高运维效率,帮助企业提高ROI:
  • 改变GPU算力资源使用方式

通过软件定义算力的方式,将传统GPU资源以整卡为单位进行分配,变为以算力1%,显存1MB为基本单位进行资源提供。
  • GPU算力资源池化

支持GPU的跨节点调用,AI应用可以部署到数据中心的任意位置,不管所在的节点上有没有GPU。GPU资源供应范围从单个节点扩展到由网络互联起来的整个数据中心。
  • GPU资源云化

数据中心内GPU资源按需调用,动态伸缩,用完释放。AI应用可以根据负载需求调用任意大小的GPU,甚至可以聚合多个物理节点的GPU;在容器或虚机创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用。
  • 异构算力统一管理

OrionX支持异构算力的统一管理,除了支持市面上主流的全系列GPU卡之外,还积极适配国产芯片,助力打造中国“芯”生态,当前已全面支持寒武纪MLU芯片,帮助用户统一纳管异构算力,提升多算力平台管理能力及效率。

四 、 客户评价

“趋动科技的 OrionX 算力资源池化方案在容器化、云原生的技术浪潮中极具先进性,通过与 Kubernetes 良好的可集成能力,OrionX 成为携程 AI 训练产品体系重要的组成部分。”

——携程平台部门技术专家

本文来自微信公众号“上海市人工智能行业协会”(ID:saia2021)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。