滚动新闻

搭载Nvidia H100 GPU 谷歌推出A3超级计算机虚拟机

  近来大型语言模型和生成式 AI 兴起,需要大量算力训练模型、运算 AI,为此谷歌在开发者大会上发布 A3 超级计算机虚拟机器。


  「A3 GPU VM 专为现今机器学习工作负载提供最高性能的训练,配备最新 CPU、改善的主机内存、下一代 Nvidia GPU 以及主要网络升级」,谷歌 Cloud 官方部落格文章指出,新的虚拟机器配备 Nvidia H100 GPU,能与专门的数据中相互结合,以获得高吞吐量和低延迟的庞大算力。

  A3 VM 的关键规格包括8个具 Nvidia Hopper 架构的 H100 GPU、第 4 代 Intel Xeon 可扩展处理器、2TB 主机内存,及在 8 个 H100 GPU 之间透过 Nvidia NVSwitch 和 NVLink 4.0 达到 3.6TB/s 对等带宽。

  A3 VM 可以提供高达 26 exaFlops 的运算功率,应有助于训练更大型的机器学习模型,并减少训练时间和成本。 更重要的是,这些虚拟机的工作负载在谷歌 Cloud 专门的 Jupiter 数据中心网络架构中运行。

  谷歌 Cloud 将以几种方式提供 A3 VM,包括客户自己运行,或者将其作为托管服务,谷歌会为他们处理大部分繁重的工作。 客户自己动手运行 A3 VM 涉及了谷歌 Kubernetes Engine和谷歌 Compute Engine ,而采取托管服务是在谷歌的全托管机器学习平台 Vertex AI 上运行 A3 VM。

  A3 VM 可为谷歌 Cloud 客户提供庞大算力,满足更高的工作负载,无论是涉及复杂的机器学习模型还是运行生成式 AI 背后的大型语言模型,皆能带来成本效益。