- 笔者最近发现在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成。 并且执行nvidia-smi也明显变很卡顿。 笔者最近发现在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成。 并且执行nvidia-smi也明显变很卡顿。
- 对政企、金融客户来说,裸金属服务器相比于云服务器,更能满足他们对性能和稳定性的要求。但裸金属服务器的网络实现,却存在成本高、灵活性差、成熟度不足等问题。为解决这些问题,华为云Stack有一套增强版的网络方案。 对政企、金融客户来说,裸金属服务器相比于云服务器,更能满足他们对性能和稳定性的要求。但裸金属服务器的网络实现,却存在成本高、灵活性差、成熟度不足等问题。为解决这些问题,华为云Stack有一套增强版的网络方案。
- 从服务器选型、技术实力解密到应用案例,真正读懂华为云服务器如何为企业夯实数字底座。 从服务器选型、技术实力解密到应用案例,真正读懂华为云服务器如何为企业夯实数字底座。
- GPU A系列裸金属服务器GPU间是走NVLINK,本文给出使用pytorch2.0测试单服务器内GPU卡间带宽性能。 GPU A系列裸金属服务器GPU间是走NVLINK,本文给出使用pytorch2.0测试单服务器内GPU卡间带宽性能。
- GPU 裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML: Driver/library version mismatch GPU 裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML: Driver/library version mismatch
- 本文解决当GPU A系列裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本. 本文解决当GPU A系列裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本.
- 裸金属服务器使用Euler2.8操作系统, 由于yum update导致NetworkManagre-config-server升级,出现SSH网络链路故障。 裸金属服务器使用Euler2.8操作系统, 由于yum update导致NetworkManagre-config-server升级,出现SSH网络链路故障。
- 解决如何将GPU VNT1裸金属服务器纳管至已创建好的华为云CCE集群, 并且在集群安装gpu-device-plugin插件, 根据pytorch2.01镜像创建pod,验证cuda是否可用。 本文给出端到端详解的步骤, 助力读者快速部署业务。 解决如何将GPU VNT1裸金属服务器纳管至已创建好的华为云CCE集群, 并且在集群安装gpu-device-plugin插件, 根据pytorch2.01镜像创建pod,验证cuda是否可用。 本文给出端到端详解的步骤, 助力读者快速部署业务。
- 一个租户VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有弹性裸金属资源均可以通过该EIP进行公网访问和SSH登录。 一个租户VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有弹性裸金属资源均可以通过该EIP进行公网访问和SSH登录。
- 华为云GPU裸金属服务器,结合OBS、SFS两种云存储服务,提供了多种场景下的存储解决方案。 华为云GPU裸金属服务器,结合OBS、SFS两种云存储服务,提供了多种场景下的存储解决方案。
- Ubuntu 20.04内核自动升级会带来系统软件兼容性问题。建议在使用时,禁止自动内核升级,进行手动升级。 Ubuntu 20.04内核自动升级会带来系统软件兼容性问题。建议在使用时,禁止自动内核升级,进行手动升级。
- 进阶版ECS,它有什么亮点呢?有什么实际作用呢?本文给出参考答案 进阶版ECS,它有什么亮点呢?有什么实际作用呢?本文给出参考答案
- 通过配编译器等应用的来并行优化层面去综合优化,这样来提升WRF运行性能 通过配编译器等应用的来并行优化层面去综合优化,这样来提升WRF运行性能
- 用ServiceComb微服务框架为地基,在上面建一个天气预报,你可以通过一个实际的系统,以实战角度来完正搞下微服务应用的构建、部署、运维、以及治理是咋实现,万字长文预警,买不了吃亏的哈! 用ServiceComb微服务框架为地基,在上面建一个天气预报,你可以通过一个实际的系统,以实战角度来完正搞下微服务应用的构建、部署、运维、以及治理是咋实现,万字长文预警,买不了吃亏的哈!
- [HCS]831版本因裸金属主机组未配置资源类型及裸金属规格未配置vpc网卡数量导致集群下发失败定位解决过程 [HCS]831版本因裸金属主机组未配置资源类型及裸金属规格未配置vpc网卡数量导致集群下发失败定位解决过程
上滑加载中
推荐直播
-
华为云软件开发生产线(CodeArts)1月&2月新特性解读
2025/03/18 周二 19:00-20:00
阿星 华为云高级产品经理
不知道产品的最新特性?没法和产品团队建立直接的沟通?本期直播产品经理将为您解读华为云软件开发生产线1月&2月发布的新特性,并在直播过程中为您答疑解惑。
回顾中 -
基于能力图谱的openGauss项目闯关
2025/03/20 周四 19:00-20:30
华为开发者布道师
想成为顶级数据库开发者吗?本次直播将从银行业务系统的数据库设计出发,带你逐步掌握openGauss的建库表、数据封装、密态技术、性能调优及AI应用。通过实战案例,全面展示openGauss的强大功能,助你提升技能,为未来的职业发展打下坚实基础。立即报名,开启你的数据库进阶之旅!
回顾中 -
基于开源鸿蒙+海思星闪开发板:嵌入式系统开发实战(Day1)
2025/03/29 周六 09:00-18:00
华为开发者布道师
本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用,涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容,旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
热门标签