加速深度学习项目的默认方法是增加 GPU 集群的大小。然而,成本却越来越令人望而却步。根据 Andreessen Horowitz 的说法,许多投资人工智能的公司“将其筹集的总资金的 80% 以上用于计算资源”,这是正确的。GPU 是人工智能基础设施的基石,应为其分配尽可能多的预算。然而,在成本高昂的情况下,还有其他提高性能的方法值得考虑,并且变得越来越必要。
扩展 GPU 集群绝非易事,尤其是在生成型人工智能加速了短缺的情况下。NVIDIA A100 GPU是受到影响的产品之一(据WCCFtech 报道,其价格比建议零售价高出 40% ),而且现在它们非常稀缺,以至于某些版本的交付时间长达一年。这些供应链挑战迫使许多人考虑使用更高端的 H100 作为替代方案,但满载的服务器将伴随着明显更高的价格标签。
可以理解的是,超大规模厂商正在挑选他们能得到的每一块硅片,因为他们不太关心价格点。但对于那些投资自己的基础设施以为其行业创建下一个伟大的生成式人工智能解决方案的人来说,这一发展揭示了充分利用现有 GPU 每一滴效率的重要性。
让我们看看企业如何通过对具有网络和存储的人工智能基础设施的设计提出修改建议,从其计算投资中获得更多收益。
数据问题 如果一个项目不能等到短缺降温,或者其预算不能提供全权委托,那么一个有用的方法是考虑现有计算基础设施的低效率以及如何缓解这些资源的利用。限度地提高 GPU 利用率是一项挑战,因为数据传输速度通常太慢,无法让 GPU 保持忙碌。有些用户的GPU利用率低至20%,这显然是不可接受的。对于人工智能团队来说,这是一个开始寻找化人工智能投资的方法的好地方。
GPU 是人工智能环境的引擎。正如汽车发动机需要汽油才能运行一样,GPU 也需要数据来运行。限制数据流会限制 GPU 性能。如果 GPU 仅以 50% 的效率工作,AI 团队的工作效率就会降低,项目完成时间将增加两倍,投资回报率也会减半。基础设施设计必须确保 GPU 能够高效运行并提供预期的计算性能。
您如何将数据传输到 GPU?
值得注意的是,DGX A100 和 H100 服务器的内部存储容量高达 30 TB。然而,考虑到平均模型大小约为 150 TB,这种容量对于绝大多数深度学习模型来说是不可行的。因此,需要额外的外部数据存储来为 GPU 提供数据。
虽然额外的存储有时可能仅仅意味着在某些环境中附加一个“JBOD”(只是一堆驱动器),但在人工智能中情况并非如此。那么,需要什么样的存储呢?
存储性能 AI存储由服务器、 NVMe SSD和存储软件组成 ,通常打包在一个简单的设备中。正如 GPU 经过优化,可以与数十万个核心并行处理大量数据,为网络提供数据的存储也需要具有高性能。人工智能存储的基本要求是——以及存储整个数据集——能够以线速(网络允许的快速度)将数据传输到 GPU,以便使 GPU 饱和并保持其高效运行。任何不足都意味着没有充分利用这一非常昂贵且宝贵的 GPU 资源。
以能够跟上全速运行的 10 或 15 个 GPU 服务器集群的速度提供数据,将有助于优化 GPU 资源并在整个环境中提高性能,从而充分利用预算来获得性能。大部分来自整个基础设施。
事实上,挑战在于未针对人工智能进行优化的存储供应商需要许多客户端计算节点才能从存储中提取全部性能。如果从一台 GPU 服务器开始,则相反需要许多存储节点才能达到为单个 GPU 服务器供电的性能。
不要相信所有基准测试结果;同时使用多个 GPU 服务器时很容易获得大量带宽,但人工智能可以从存储中受益,存储可以在需要时将其所有性能提供给单个 GPU 节点。坚持使用可提供所需超高性能的存储,但要在单个存储节点中实现此目的,并且能够向单个 GPU 节点提供此性能。这可能会缩小市场范围,但在开始人工智能项目之旅时,它是优先考虑的事项。
网络带宽
更强大的计算能力推动了对人工智能基础设施其余部分的不断增长的需求。带宽要求已达到新的高度,以便能够管理每秒从存储通过网络发送并由 GPU 处理的大量数据。存储设备中的网络适配器 (NIC) 连接到网络中的交换机,而网络中的交换机又连接到 GPU 服务器内的适配器。正确配置后,NIC 可以将存储直接连接到 1 或 2 个 GPU 服务器中的 NIC,不会出现瓶颈,但请务必咨询解决方案提供商以获取有关网络的建议。
确保带宽足够高,能够将数据负载从存储传递到 GPU,从而使它们在持续时间内保持饱和是关键,而在许多情况下,未能做到这一点就是我们看到 GPU 利用率较低的原因。
GPU编排 一旦基础设施到位,GPU编排和分配工具就可以极大地帮助团队更有效地汇集和分配资源,了解GPU使用情况,提供更别的资源控制,减少瓶颈并提高利用率。只有底层基础设施首先允许数据正确流动,这些工具才能按预期完成所有这些工作。
数据在人工智能中的作用 在人工智能中,数据是输入,因此用于企业关键任务应用程序的传统企业闪存存储的许多强大功能(例如库存控制数据库服务器、电子邮件服务器、备份服务器)与人工智能根本不相关。这些解决方案是使用遗留协议构建的,虽然它们已被重新用于人工智能,但这些遗留基础明显限制了它们在 GPU 和人工智能工作负载方面的性能,推高了价格,并将资金浪费在过于昂贵和不必要的功能上。
当前全球 GPU 短缺,加上人工智能领域蓬勃发展,找到化 GPU 性能的方法变得前所未有的重要——尤其是在短期内。随着深度学习项目的不断蓬勃发展,这些是降低成本和提高产出的一些关键方法。