NVIDIA 与 Meta 合作,宣布推出 Llama 3 的加速版本

类别:新品快报  出处:网络整理  发布于:2024-04-23 10:59:29 | 315 次阅读

  该版本针对 NVIDIA GPU 进行了优化,适用于云、数据中心、边缘和 PC 环境。
  开发人员可以在 ai.nvidia.com 上访问 Llama 3,它作为 NVIDIA NIM 微服务提供,具有标准 API,可实现部署灵活性。
  Meta 透露,其工程师在由 24,576 个NVIDIA H100 Tensor Core GPU组成的计算机集群上训练 Llama 3 ,该计算机集群与 NVIDIA Quantum-2 InfiniBand 网络相连。
  Meta 工程师在包含 24,576 个 NVIDIA H100 Tensor Core GPU(与 NVIDIA Quantum-2 InfiniBand 网络连接)的计算机集群上训练 Llama 3。在 NVIDIA 的支持下,Meta 为其旗舰法学硕士调整了网络、软件和模型架构。
  为了进一步推进生成式人工智能的水平,Meta 近描述了将其基础设施扩展到 350,000 个 H100 GPU 的计划。
  在 NVIDIA GPU 上加速的 Llama 3 版本现已推出,可用于云、数据中心、边缘和 PC。
  开发人员可以通过浏览器在 ai.nvidia.com上试用 Llama 3 。它被打包为 NVIDIA NIM 微服务,具有可部署在任何地方的标准应用程序编程接口。
  企业可以使用 NVIDIA NeMo 对其数据进行微调 Llama 3,这是一种适用于法学硕士的开源框架,是安全且受支持的 NVIDIA AI Enterprise 平台的一部分。自定义模型可以使用 NVIDIA TensorRT-LLM 进行推理优化,并使用 NVIDIA Triton 推理服务器进行部署。
  Llama 3 还在 NVIDIA Jetson Orin 上运行,用于机器人和边缘计算设备,创建像 Jetson AI 实验室中的交互式代理。
  此外,适用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 上的推理速度。这些系统为开发人员提供了超过 1 亿个 NVIDIA 加速系统的目标
  为聊天机器人部署 LLM 的实践涉及低延迟、良好的读取速度和 GPU 使用之间的平衡,以降低成本。
  这样的服务需要以大约用户阅读速度的两倍(大约每秒 10 个令牌)提供令牌(大致相当于法学硕士的单词)。
  应用这些指标,在使用具有 700 亿个参数的 Llama 3 版本的初始测试中,单个 NVIDIA H200 Tensor Core GPU 每秒生成约 3,000 个令牌,足以为约 300 个并发用户提供服务。
  这意味着配备 8 个 H200 GPU 的单个 NVIDIA HGX 服务器每秒可提供 24,000 个令牌,通过同时支持 2,400 多个用户来进一步优化成本。
  对于边缘设备,具有 80 亿个参数的 Llama 3 版本在 Jetson AGX Orin 上每秒生成高达 40 个令牌,在 Jetson Orin Nano 上每秒生成 15 个令牌。

关键词:NVIDIA

全年征稿 / 资讯合作

稿件以电子文档的形式交稿,欢迎大家砸稿过来哦!

联系邮箱:3342987809@qq.com

版权与免责声明

凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。

本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

热点排行

广告