特写｜万卡集群：管得好，才能算得强--人工智能技术网

在“人工智能+”行动深入推进的当下，算力基础设施已成为国家战略竞争力的核心，而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡超集群打造的智能管理体系，正以“能管住-管得稳-用得好”的进阶逻辑，重塑超大规模算力基础设施的运行范式，让万级节点协同从行业痛点变为高效常态。

集群管理的基石，始于数字孪生构建的“镜像世界”。曙光将物理集群的业务、节点、网络、供配电等全链路映射至数字空间，实现全域透明可视与精准管控。在此基础上，智能运维助手以“实时分析-智能诊断-根因定位-故障恢复”四步流程，为运维人员提供一体化视图，让集群状态“看得见、摸得着”。

三层闭环架构的智能化运维平台，推动集群从“可观测”升级为“可决策、可执行”。

在数据可观测层，全量采集指标与日志等数据，通过CMDB清晰呈现资产拓扑；在知识与算法层，结构化沉淀专家经验，以“规则+数据”双驱动实现精准异常检测；在场景自动化层，针对常见和关键场景，定义标准化流程，通过自动化工具实现故障自愈与复盘。

这套体系最终将集群长期可用性锁定在99.99%，意味着30天内不可用时间不足4分钟，将“故障”变成系统自动化处理的日常状态。

稳定性是底线，算力效率是核心竞争力。scaleX万卡超集群已实现单集群支撑15000+节点、服务12万+用户，每秒并发调度万级任务，背后离不开三大关键调度能力。数据亲和性算法优先“让任务找数据”，规避冗余迁移；智能调度引擎动态匹配任务与资源，平衡优先级、公平性与成本；多元融合调度则兼容HPC、AI、云原生任务，兼顾吞吐与隔离，配合存算传紧耦合优化，使AI加速卡利用率提升55%。

值得关注的是，这套管理体系与硬件创新深度协同。依托单机柜640卡的超高密度设计、浸没相变液冷技术及自主研发的高速网络scaleFabric，管理系统可充分释放5EFlops总算力，同时将PUE控制在1.04，实现高效能与低能耗的统一。作为“AI计算开放架构”成果，scaleX万卡超集群兼容多品牌加速卡，适配400+主流大模型，覆盖大模型训练、金融风控等多元场景。

曙光用技术实践证明，超大规模智算集群的终极目标，不是节点数量的堆砌，而是构建自感知、自诊断、自修复、自优化的智能算力基础设施，期待与更多产业伙伴携手，突破算力瓶颈，共建中国AI计算开放的新生态。

继续阅读：

人工智能技术网倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。！：首页 > 人工智能产业 > 智能物联 » 特写｜万卡集群：管得好，才能算得强

相关推荐