更新时间:2025-05-22 GMT+08:00
分享

不同机型的对应的软件配套版本

由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。

CCE集群维护策略说明

ModelArts Lite Cluster使用的CCE集群归属于用户,用户拥有对CCE集群的完全控制权。

  • 如果您的Lite Cluster使用了EOS的CCE集群,应遵照CCE发布的生命周期策略,尽快升级到ModelArts推荐的CCE版本。

    关于如何升级CCE集群,请参见CCE集群升级指导。

    关于CCE集群版本策略,请参见CCE集群版本公告

  • 如果您在LiteCluster场景遇到CCE集群相关的技术问题,请通过提交工单联系CCE技术支持进行问题的排查和解决。

裸金属服务器的对应的软件配套版本

表1 裸金属服务器

类型

卡类型

RDMA网络协议

操作系统

适用范围、约束

依赖插件

NPU

ascend-snt9b

RoCE

  • 操作系统:EulerOS 2.10 64bit(推荐)
  • 内核版本:4.19.90-vhulk2211.3.0.h1543.eulerosv2r10.aarch64
  • 架构类型:aarch64
  • 集群类型:CCE Standard
  • 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  • huawei-npu
  • npu-driver
  • volcano

插件版本匹配关系请见表3

RoCE

  • 操作系统:Huawei Cloud EulerOS 2.0 64bit
  • 内核版本:5.10.0-60.18.0.50.r865_35.hce2.aarch64
  • 架构类型:aarch64
  • 集群类型:CCE Turbo
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:ENI
  • 集群转发模式:iptables|ipvs

ascend-snt9

RoCE

  • 操作系统:EulerOS 2.8 64bit
  • 内核版本:4.19.36-vhulk1907.1.0.h619.eulerosv2r8.aarch64
  • 架构类型:aarch64
  • 集群类型:CCE Standard|Turbo
  • 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC|ENI
  • 集群转发模式:iptables|ipvs

GPU

gp-ant8

RoCE

  • 操作系统:EulerOS 2.10 64bit
  • 内核版本:4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64
  • 架构类型:x86
  • 集群类型:CCE Standard|Turbo
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    分布式训练时仅支持容器隧道网络

  • 集群转发模式:iptables|ipvs
  • gpu-beta
  • gpu-driver
  • rdma-sriov-dev-plugin

插件版本匹配关系请见表3

gp-ant1

RoCE

  • 操作系统:EulerOS 2.10 64bit
  • 4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64
  • 架构类型:x86
  • 集群类型:CCE Standard|Turbo
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    分布式训练时仅支持容器隧道网络

  • 集群转发模式:iptables|ipvs

gp-vnt1

RoCE|IB

  • 操作系统:EulerOS 2.9 64bit(仅上海一p6|p6s规格使用)
  • 内核版本:147.5.1.6.h1099.eulerosv2r9.x86_64
  • 架构类型:x86
  • 集群类型:CCE Standard|
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    分布式训练时仅支持容器隧道网络

  • 集群转发模式:iptables|ipvs
  • 操作系统:EulerOS 2.9 64bit(推荐)
  • 内核版本:4.18.0-147.5.1.6.h841.eulerosv2r9.x86_64
  • 架构类型:x86
  • RDMA:Remote Direct Memory Access(RDMA)是一种直接内存访问技术,将数据直接从一台计算机的内存传输到另一台计算机。
  • RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。
  • IB:InfiniBand (IB) 是一种高性能计算机网络通信协议,专为高性能计算和数据中心互连设计。

弹性云服务器的对应的软件配套版本

表2 弹性云服务器

类型

卡类型

操作系统

适用范围

依赖插件

NPU

ascend-snt3p-300i

  • 操作系统:Huawei Cloud EulerOS 2.0 64bit
  • 架构类型:x86arm
  • 集群类型:CCE Standard
  • 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  
  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard、CCE Turbo
  • 集群版本:v1.23(v1.23.5-r0及以上版本)|v1.25|v1.28(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC|ENI
  • 集群转发模式:iptables|ipvs
  • huawei-npu
  • npu-driver
  • volcano

插件版本匹配关系请见表3

ascend-snt3

  • 操作系统:EulerOS 2.5
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  • 操作系统:EulerOS 2.8
  • 架构类型:arm
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    集群转发模式:iptables|ipvs

GPU

gp-vnt1

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  • gpu-beta
  • gpu-driver
  • rdma-sriov-dev-plugin

插件版本匹配关系请见表3

gp-ant03

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs

gp-ant1-pcie40

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs

gp-tnt004

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25|v1.28|v1.31(推荐)
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs

驱动和插件版本与CCE集群版本适配关系

表3 驱动与CCE集群版本适配关系

类别

插件名称

插件版本

适配CCE集群版本

适用范围、约束

插件功能描述

npuDriver

npu-driver

7.1.0.9.220-23.0.6(推荐)

7.1.0.7.220-23.0.5

7.1.0.5.220-23.0.3

无约束

NPU(snt9b)

用于升级、回滚npu驱动

gpuDriver

gpu-driver

515.65.01(推荐)

510.47.03

470.182.03

470.57.02

无约束

GPU

用于升级、回滚gpu驱动,插件依赖gpu-beta版本

表4 插件版本与CCE集群版本适配关系

插件名称

插件版本

适配CCE集群版本

适用范围、约束

插件功能描述

gpu-beta

2.7.63(推荐)

v1.(28|31).*

GPU

支持在容器中使用GPU显卡的设备管理插件

2.6.4

v1.28.*

2.0.48

v1.(23|25).*

huawei-npu

2.1.53(推荐)

v1.(23|25|28|31).*

NPU

支持容器里使用huawei NPU设备的管理插件

2.1.22

v1.(23|25|28).*

volcano

1.16.8(推荐)

v1.(23|25|28|31).*

NPU

基于Kubernetes的批处理平台

1.15.8

v1.(23|25|28).*

os-node-agent

7.0.0

无约束

无约束

OS插件,用于故障检测。

icagent

default

CCE默认安装当前适配版本

无约束

CCE基础组件,用于日志和监控。

相关文档

    OSZAR »