新兴云运营商转向AMD以构建AI基础设施

快速导读:市场上出现了一些专业的云运营商,其中一些选择使用AMD的Instinct MI300X加速器来构建他们的集群,而不是Nvidia的GPU。初创公司TensorWave计划到2024年底部署2万个MI300X加速器,称该芯片性能优越,内存容量也比Nvidia的H100大。该公司还正在实施先进的冷却技术,并计划引入类似云的编排层来进行资源调配。

TensorWave部署AMD的MI300X加速器

初创公司TensorWave选择在其集群中使用AMD的Instinct MI300X加速器,而不是Nvidia的GPU。该公司计划到2024年底在两个设施中部署2万个MI300X加速器。TensorWave的联合创始人Jeff Tatarchuk认为,MI300X加速器具有多个优势,包括能够直接购买。相比Nvidia的H100,这些加速器提供了更优越的性能和更大的内存容量。

先进的冷却技术和资源调配

TensorWave正在实施后门换热器(RDHx)来冷却其系统,这在数据中心运营商中越来越受欢迎。然而,该公司计划在未来部署直接冷却芯片的技术。TensorWave还计划引入类似云的编排层来进行资源调配,利用GigaIO的基于PCIe 5.0的FabreX技术。这项技术将允许在单个域中连接多达5,750个GPU,并具有高带宽内存。

挑战和资金支持

TensorWave面临的一个挑战是客户对AMD性能与Nvidia的比较的信心。尽管如此,该公司计划使用基于RDMA的以太网(RoCE)来快速启动其MI300X节点。TensorWave将通过将其GPU作为债务融资的抵押品来为其基础设施建设提供资金支持。这种方法已被其他数据中心运营商使用,例如Lambda和CoreWeave,他们获得了大额贷款来扩大其GPU部署。TensorWave预计将在今年晚些时候发布类似的公告。