全栈式SuperCluster包括气冷、液冷训练与云端级推理机柜配置,并搭载全新NVIDIA Tensor Core GPU、网络与NVIDIA AI Enterprise软件

美国圣何塞2024年3月22日 /美通社/ -- Supermicro, Inc.(纳斯达克股票代码:SMCI作为AI、云端、储存和5G/边缘领域的全方位IT解决方案制造商,宣布推出其最新产品组合,加速生成式AI部署。Supermicro SuperCluster解决方案能为目前及未来大型语言模型(Large Language Model,LLM)硬件基础设施提供核心建构组件。

Supermicro三款强大的SuperCluster解决方案现已上市并可被用于生成式AI工作运行。这些解决方案内的4U液冷系统或8U气冷系统是专为强大LLM训练性能以及高度批次大小且大量的LLM推理所设计。配备了1U气冷Supermicro NVIDIA MGXTM系统的第三款SuperCluster超级集群则针对云端级推理进行了优化。

Supermicro总裁兼首席执行官梁见后(Charles Liang)表示:"在AI时代,算力以集群来衡量,不再只用服务器数量作为依据。我们的全球制造产能已扩大到每月5,000台机柜,能比以往更快地为客户提供完整生成式AI计算集群。只需通过我们采用400Gb/s NVIDIA Quantum-2 InfiniBand和Spectrum-X Ethernet网络技术的数个可扩充型集群建构组件,一个64节点的计算集群能支持具有72TB HBM3e的512个NVIDIA HGX H200 GPU。结合了NVIDIA AI Enterprise软件的Supermicro SuperCluster解决方案非常适合用于针对现今企业与云端基础架构的LLM训练,且最高可达兆级参数。互连的GPU、CPU、内存、储存、以及网络硬件在被部署至机柜内的多个节点后形成现今AI技术的基础。Supermicro的SuperCluster解决方案为快速发展的生成式AI与LLM提供了核心建构组件。"

欲了解Supermicro AI SuperCluster的详细信息,请访问:www.supermicro.com/ai-supercluster

NVIDIA GPU产品管理副总裁Kaustubh Sanghani表示:"NVIDIA最新型GPU、CPU、网络与软件技术助力能让系统制造者为全球市场内不同类型的下一代AI工作运行实现加速。通过结合基于Blackwell架构产品的NVIDIA加速计算平台,Supermicro能提供客户所需要的前沿服务器系统,且这些系统可容易地被部署至数据中心。"

Supermicro 4U NVIDIA HGX H100/H200 8-GPU系统通过液冷技术使8U气冷系统计算密度加倍,同时降低功耗量与总体拥有成本(TCO)。这些系统旨在为了支持下一代NVIDIA的Blackwell架构GPU。Supermicro冷却分配单元(Cooling Distribution Unit,CDU)与冷却分配分流管(Cooling Distribution Manifold,CDM)是主要冷却液流动脉络,可将冷却液输送至Supermicro定制的直达芯片(Direct-to-Chip,D2C)冷板,使GPU和CPU处于最佳运行温度,进而实现效能最大化。此散热技术可使一整座数据中心电力成本降低最多40%,同时节省数据中心占地空间。欲深入了解Supermicro液冷技术,请访问:https://www.supermicro.com/en/solutions/liquid-cooling

搭载NVIDIA HGX H100/H200 8-GPU的系统非常适合用于训练生成式Al。通过NVIDIA® NVLink®技术高速互连的GPU,以及高GPU内存带宽与容量,将成为符合成本效益地运行LLM的核心关键。Supermicro的SuperCluster具备庞大GPU共享资源,能作为一个AI超级计算机进行计算作业。

无论是导入一个最初就以数兆级词元(token)数据集进行完整训练的大型基础模型,或开发一个云端级LLM推理基础架构,具有无阻式400Gb/s网络结构的脊叶网络拓扑(Spine and Leaf Network Topology)都能从32个计算节点顺畅地扩展至数千个节点。针对完全整合的液冷系统,Supermicro在产品出厂前会凭借经认证的测试流程彻底验证与确保系统运行有效性与效率。

采用了NVIDIA GH200 Grace Hopper Superchip的Supermicro NVIDIA MGX™系统设计将能打造出未来AI计算集群的架构样式以解决生成式AI的关键瓶颈:运行高推理批次大小的LLM所需的GPU内存带宽及容量,进而降低运营成本。具有256节点的计算集群能实现云端级大量推理算力引擎,并易于部署与扩充。

配置4U液冷系统的5组机柜或8U气冷系统的9组机柜型SuperCluster

  • 单一可扩充单元含256个NVIDIA H100/H200 Tensor Core GPU
  • 液冷技术可支持512个GPU、64个节点,而其体积空间等同于搭载256个 GPU的气冷式32节点解决方案
  • 单一可扩充单元含具有20TB HBM3的NVIDIA H100或具有36TB HBM3e的NVIDIA H200
  • 一对一网络传输结构可为每个GPU提供最高400 Gbps带宽,并支持 GPUDirect RDMA与GPUDirect Storage技术,实现最高兆级参数的LLM训练
  • 400G InfiniBand或400GbE Ethernet网络交换器结构采用高度可扩充型脊叶网络拓扑技术,包括NVIDIA Quantum-2 InfiniBand和NVIDIA Spectrum-X Ethernet网络平台
  • 可定制化AI数据管道储存结构具有业界领先的平行文件系统选项技术
  • 搭载NVIDIA AI Enterprise 5.0软件,可支持可加速大规模AI 模型部署的新型NVIDIA NIM推理微服务

配置1U气冷NVIDIA MGX系统的9组机柜型SuperCluster

  • 单一可扩充单元含256个GH200 Grace Hopper Superchips
  • 最高可达144GB HBM3e加480GB LPDDR5X的统一内存,适用于云端级、大量、低延迟和高批次推理,并能在单一计算节点中容纳超过700亿个参数规模的模型
  • 400G InfiniBand或400GbE Ethernet网络交换器结构采用了高度可扩充型脊叶网络拓扑技术
  • 每节点最多含8个内建E1.S NVMe储存装置
  • 可定制化AI数据管道储存结构搭配NVIDIA BlueField®-3 DPU与领先业界的平行文件系统选项,能为每个GPU提供高传输量、低延迟的储存装置存取
  • NVIDIA AI Enterprise 5.0软件

通过GPU间可实现的优异互连性能,Supermicro的SuperCluster解决方案针对LLM训练、深度学习,以及大量且高批次推理进行了优化。Supermicro的L11和L12验证测试结合了现场部署服务,可为客户提供无缝体验。客户收到即插即用的可扩充单元后能实现数据中心内的轻松部署,并可更快获取成果。