在“人工智能+”行动深入推进的当下,算力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡超集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超大规模算力基础设施的运行范式,让万级节点协同从行业痛点变为高效常态。

集群管理的基石,始于数字孪生构建的“镜像世界”。曙光将物理集群的业务、节点、网络、供配电等全链路映射至数字空间,实现全域透明可视与精准管控。在此基础上,智能运维助手以“实时分析-智能诊断-根因定位-故障恢复”四步流程,为运维人员提供一体化视图,让集群状态“看得见、摸得着”。
三层闭环架构的智能化运维平台,推动集群从“可观测”升级为“可决策、可执行”。
在数据可观测层,全量采集指标与日志等数据,通过CMDB清晰呈现资产拓扑;在知识与算法层,结构化沉淀专家经验,以“规则+数据”双驱动实现精准异常检测;在场景自动化层,针对常见和关键场景,定义标准化流程,通过自动化工具实现故障自愈与复盘。
这套体系最终将集群长期可用性锁定在99.99%,意味着30天内不可用时间不足4分钟,将“故障”变成系统自动化处理的日常状态。
稳定性是底线,算力效率是核心竞争力。scaleX万卡超集群已实现单集群支撑15000+节点、服务12万+用户,每秒并发调度万级任务,背后离不开三大关键调度能力。数据亲和性算法优先“让任务找数据”,规避冗余迁移;智能调度引擎动态匹配任务与资源,平衡优先级、公平性与成本;多元融合调度则兼容HPC、AI、云原生任务,兼顾吞吐与隔离,配合存算传紧耦合优化,使AI加速卡利用率提升55%。
值得关注的是,这套管理体系与硬件创新深度协同。依托单机柜640卡的超高密度设计、浸没相变液冷技术及自主研发的高速网络scaleFabric,管理系统可充分释放5EFlops总算力,同时将PUE控制在1.04,实现高效能与低能耗的统一。作为“AI计算开放架构”成果,scaleX万卡超集群兼容多品牌加速卡,适配400+主流大模型,覆盖大模型训练、金融风控等多元场景。
曙光用技术实践证明,超大规模智算集群的终极目标,不是节点数量的堆砌,而是构建自感知、自诊断、自修复、自优化的智能算力基础设施,期待与更多产业伙伴携手,突破算力瓶颈,共建中国AI计算开放的新生态。
人工智能技术网 倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。!:首页 > 人工智能产业 > 智能物联 » 特写|万卡集群:管得好,才能算得强