AMD以Instinct MI250X AI加速器推动Frontier超级计算机的运行

Frontier超级计算机:释放前所未有的力量

Frontier超级计算机由AMD的第三代EPYC“Trento”处理器和Instinct MI250X AI GPU加速器提供动力,拥有惊人的869万9904个核心,提供了令人惊叹的1.194 Exaflop/s的性能。高性能计算(HPC)和人工智能能力的结合,以及Slingshot-11互连技术,使Frontier能够保持其在Top500.org排行榜上的领先地位。超级计算机的成功归功于团队采用的有效策略,用于训练LLMs并优化其内部硬件的利用。

扩展人工智能训练的边界

尽管Frontier超级计算机目前仅装配了3000个AMD Instinct MI250X AI GPU加速器,但整个系统配备了令人瞩目的37,000个加速器。团队通过对模型训练过程进行广泛测试和微调,成功地训练了一个拥有1万亿参数的模型。Frontier创造的记录展示了利用完整的37,000个加速器GPU池的巨大潜力,展示了训练LLMs的令人难以置信的能力。

令人印象深刻的GPU吞吐量和扩展效率

在追求LLMs的训练过程中,Frontier团队在拥有220亿、1750亿和1万亿参数的模型中实现了令人印象深刻的GPU吞吐量,分别为38.38%、36.14%和31.96%。在1024个和3072个MI250X GPU上训练1750亿和1万亿参数模型时,实现了100%的弱扩展效率。此外,这两个模型分别实现了89%和87%的强扩展效率,进一步突显了Frontier超级计算机的卓越性能。