西北640节点集群(千卡)
640台 H100GPU服务器,基于IB网络+存储节点基于RoCE网络
方案设计,场地工勘,IB交换机、线缆、光模块供应,组网,集成交付;
项目难点
涉及旧有集群的搬迁,新、旧集群合并,服务器和网络设备多品牌和多参数的复杂环境。
为客户带来的帮助
瀚数团队基于开源nccl定制化开发的集合通信库,让本项目超大规模集群通信能力在主流通信方式上均优于常规开源版本。增加的minipod 减少交换机设置,通过路由算法和轨道优化,减少了50几台交换机配置。集群增加8台GPU热备轮询,降低百分之95%业务停机风险。