- 1 简介云计算项目开发过程中,技术选型通常既要看“算力/性能”也要看“生态/工程成本”的基本逻辑。本文从以下几个方面介绍AI模型训练:对 CANN(Huawei Ascend 软件栈)的初步评价;为什么在生态成熟度上仍落后于 CUDA+NVIDIA;对工程决策的实务建议(短期需投入的项、风险与缓解策略、检查表)。 2 对 Huawei CANN 的初步分析CANN定位与功能:CANN(Co... 1 简介云计算项目开发过程中,技术选型通常既要看“算力/性能”也要看“生态/工程成本”的基本逻辑。本文从以下几个方面介绍AI模型训练:对 CANN(Huawei Ascend 软件栈)的初步评价;为什么在生态成熟度上仍落后于 CUDA+NVIDIA;对工程决策的实务建议(短期需投入的项、风险与缓解策略、检查表)。 2 对 Huawei CANN 的初步分析CANN定位与功能:CANN(Co...
- 慧眼柔巡-基于昇腾AI的多场景线缆异常检测系统,该项目获得2024年度华为开发者大赛全国总决赛·学生赛道银奖。 慧眼柔巡-基于昇腾AI的多场景线缆异常检测系统,该项目获得2024年度华为开发者大赛全国总决赛·学生赛道银奖。
- “挑战杯”丨 2025年中国青年“揭榜挂帅”华为赛道擂主:707token/秒,挑战顶级硬件极限——基于昇腾NPU的训推一体加速优化方案 “挑战杯”丨 2025年中国青年“揭榜挂帅”华为赛道擂主:707token/秒,挑战顶级硬件极限——基于昇腾NPU的训推一体加速优化方案
- 面向眼科临床与基层筛查的真实需求,本项目构建“云-边-端一体化”的眼底医学影像分析全栈系统,依托昇腾算力与MindSpore生态,打通数据、训练、部署、应用闭环,实现从高质量数据集发布到轻量化模型落地再到多模态智能服务的系统化创新,该项目在2024年华为开发者大赛全国总决赛学生赛道中获得银奖。 面向眼科临床与基层筛查的真实需求,本项目构建“云-边-端一体化”的眼底医学影像分析全栈系统,依托昇腾算力与MindSpore生态,打通数据、训练、部署、应用闭环,实现从高质量数据集发布到轻量化模型落地再到多模态智能服务的系统化创新,该项目在2024年华为开发者大赛全国总决赛学生赛道中获得银奖。
- 本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。 本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。
- 单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。 单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
- 昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计 1. 昇腾 A2 处理器架构与 Embedding 优化策略昇腾 A2 处理器采用独特的达芬奇架构,具备完整的片上多级缓存系统。其缓存体系并非“以 CPU 为中心的多级缓存替代方案”,而是基于自身架构理念设计了高效的多级缓存机制,与 NVIDIA GPU 在缓存策略上存在差异,但具备相当的高效缓存能力。在整体架构上,多个 AI 节点通... 昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计 1. 昇腾 A2 处理器架构与 Embedding 优化策略昇腾 A2 处理器采用独特的达芬奇架构,具备完整的片上多级缓存系统。其缓存体系并非“以 CPU 为中心的多级缓存替代方案”,而是基于自身架构理念设计了高效的多级缓存机制,与 NVIDIA GPU 在缓存策略上存在差异,但具备相当的高效缓存能力。在整体架构上,多个 AI 节点通...
- 使用torch+mindspeed训练时,可能出现类似“wait socket establish timeout, role[0] rank[1] timeout[120]”的报错,plog日志内容如下:上图中给出以下信息:1,本端device id(5)、本端rank(1)、对端rank(2)。本端rank和对端rank表示的是在通信域内的rank编号,如果是子通信域,需要注意devic... 使用torch+mindspeed训练时,可能出现类似“wait socket establish timeout, role[0] rank[1] timeout[120]”的报错,plog日志内容如下:上图中给出以下信息:1,本端device id(5)、本端rank(1)、对端rank(2)。本端rank和对端rank表示的是在通信域内的rank编号,如果是子通信域,需要注意devic...
- MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI... MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI...
- MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI... MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI...
- 最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。上图是w8a8量化算法流程,主要包含4步:①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值的量化参数和 matmul 结果的反量化参数;②,推理执行过程中,把Matmul的激活值(也就是输入... 最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。上图是w8a8量化算法流程,主要包含4步:①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值的量化参数和 matmul 结果的反量化参数;②,推理执行过程中,把Matmul的激活值(也就是输入...
- 1、跑通样例 为避免原先的sample有冲突, cd ~ mv samples/ samples_bak/ git clone https://gitee.com/ascend/samples.git ... 1、跑通样例 为避免原先的sample有冲突, cd ~ mv samples/ samples_bak/ git clone https://gitee.com/ascend/samples.git ...
- DoPrebuildOp Failed to call prebuild_op, need to check op info PreBuildTbeOp Failed to prebuild op. Name=[-1_0_add1] Traceback (most recent call last): File... DoPrebuildOp Failed to call prebuild_op, need to check op info PreBuildTbeOp Failed to prebuild op. Name=[-1_0_add1] Traceback (most recent call last): File...
- OSError: [Errno 22] Invalid argument: 'protocol' 改为这样不报错,但是报别的错: def __init__(self, family=-1, type=-1, proto=-1, fileno=None): # For use... OSError: [Errno 22] Invalid argument: 'protocol' 改为这样不报错,但是报别的错: def __init__(self, family=-1, type=-1, proto=-1, fileno=None): # For use...
- 叮!你有一份华为计算@HC2020攻略待查收 叮!你有一份华为计算@HC2020攻略待查收
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签