昇腾_标签_开发者_华为云

博客(1.1k)
视频(22)
论坛(0)
云声(1.2k)
代码示例(0)

飞桨x昇腾生态适配方案：13_API离线推理
ais_bench提供的python API可供使能基于昇腾硬件的离线模型(.om模型)推理。具体介绍可参考[API_GUIDE](https://gitee.com/ascend/tools/blob/master/ais-bench_workload/tool/ais_bench/API_GUIDE.md#api%E7%AE%80%E4%BB%8B)下面列举几个常用的API推理场景使用方...

RaceSnail
发表于2025-05-18 11:46:08
2256 0 0

2.2k 0 0

ais_bench提供的python API可供使能基于昇腾硬件的离线模型(.om模型)推理。具体介绍可参考[API_GUIDE](https://gitee.com/ascend/tools/blob/master/ais-bench_workload/tool/ais_bench/API_GUIDE.md#api%E7%AE%80%E4%BB%8B)下面列举几个常用的API推理场景使用方...
昇腾深度学习
飞桨x昇腾生态适配方案：12_动态OM推理
动态BatchSize OM推理以档位1 2 4 8档为例，设置档位为2，本程序将获取实际模型输入组Batch，每2个输入为一组，进行组Batch。示例命令：python3 -m ais_bench --model ./inference/om/dynamic_batch_size_det.om --input ./inference/input/ --output ./inference...

RaceSnail
发表于2025-05-18 11:42:44
2127 0 0

2.1k 0 0

动态BatchSize OM推理以档位1 2 4 8档为例，设置档位为2，本程序将获取实际模型输入组Batch，每2个输入为一组，进行组Batch。示例命令：python3 -m ais_bench --model ./inference/om/dynamic_batch_size_det.om --input ./inference/input/ --output ./inference...
昇腾深度学习
飞桨x昇腾生态适配方案：11_静态OM推理
推理环境准备 ais_bench推理工具简介昇腾离线OM模型的推理后端是ACL（Ascend Computing Language），其底层采用C实现，后来在ACL基础上又做了一套Python接口，命名为pyACL，为了方便开发，华为工程师又基于pyacl开发出一款推理工具ais_bench，此工具支持使用命令进行快捷地推理，并测试推理模型的性能（包括吞吐率、时延），同时ais_bench...

RaceSnail
发表于2025-05-18 11:38:15
3509 0 0

3.5k 0 0

推理环境准备 ais_bench推理工具简介昇腾离线OM模型的推理后端是ACL（Ascend Computing Language），其底层采用C实现，后来在ACL基础上又做了一套Python接口，命名为pyACL，为了方便开发，华为工程师又基于pyacl开发出一款推理工具ais_bench，此工具支持使用命令进行快捷地推理，并测试推理模型的性能（包括吞吐率、时延），同时ais_bench...
昇腾深度学习
飞桨x昇腾生态适配方案：10_ONNX转OM
本章节介绍 ONNX 模型如何转化为 OM 模型，并在昇腾AI处理器上做离线推理。昇腾张量编译器（Ascend Tensor Compiler，简称ATC）是异构计算架构CANN体系下的模型转换工具，它可以将开源框架的网络模型或Ascend IR定义的单算子描述文件（json格式）转换为昇腾AI处理器支持的.om格式离线模型。ATC功能详见：https://www.hiascend.com...

RaceSnail
发表于2025-05-18 11:34:45
6531 0 0

6.5k 0 0

本章节介绍 ONNX 模型如何转化为 OM 模型，并在昇腾AI处理器上做离线推理。昇腾张量编译器（Ascend Tensor Compiler，简称ATC）是异构计算架构CANN体系下的模型转换工具，它可以将开源框架的网络模型或Ascend IR定义的单算子描述文件（json格式）转换为昇腾AI处理器支持的.om格式离线模型。ATC功能详见：https://www.hiascend.com...
昇腾深度学习
飞桨x昇腾生态适配方案：09_Paddle转ONNX
本节介绍 PP-OCRv4 模型如何转化为 ONNX 模型。环境准备需要准备 PaddleOCR、Paddle2ONNX 模型转化环境，和 ONNXRuntime 推理环境。安装 Paddle2ONNXPaddle2ONNX 支持将 PaddlePaddle 模型格式转化到 ONNX 模型格式，安装命令如下：python3 -m pip install paddle2onnx 安装 ON...

RaceSnail
发表于2025-05-18 11:27:34
4769 0 0

4.7k 0 0

本节介绍 PP-OCRv4 模型如何转化为 ONNX 模型。环境准备需要准备 PaddleOCR、Paddle2ONNX 模型转化环境，和 ONNXRuntime 推理环境。安装 Paddle2ONNXPaddle2ONNX 支持将 PaddlePaddle 模型格式转化到 ONNX 模型格式，安装命令如下：python3 -m pip install paddle2onnx 安装 ON...
昇腾深度学习
飞桨x昇腾生态适配方案：08_性能调优方法
性能优化问题定界在通过分析 profiling 文件找出性能瓶颈后，接下来将介绍相关的优化方法。算子时长主要由计算时间和调度时间两部分构成，下面将分别对计算时间长和调度时间长这两种情况进行探讨。计算时间长的情况分析与优化计算时间长可能由以下三种情况导致：算子运行于 AI_CPU若底层未对 AI_CORE 提供支持，就必须开发新的算子；若已有相关支持，计算时间长大概率是由 64 位数据类...

RaceSnail
发表于2025-05-18 11:26:00
2102 0 0

2.1k 0 0

性能优化问题定界在通过分析 profiling 文件找出性能瓶颈后，接下来将介绍相关的优化方法。算子时长主要由计算时间和调度时间两部分构成，下面将分别对计算时间长和调度时间长这两种情况进行探讨。计算时间长的情况分析与优化计算时间长可能由以下三种情况导致：算子运行于 AI_CPU若底层未对 AI_CORE 提供支持，就必须开发新的算子；若已有相关支持，计算时间长大概率是由 64 位数据类...
昇腾深度学习
飞桨x昇腾生态适配方案：07_性能数据分析
性能调优思路性能优化是一项系统性工作，建议采用 “分析 - 定位 - 优化” 的流程，通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点，主要涉及算子计算时间与调度通信时间。常用优化策略中，计算时间过长需依靠算子自身优化升级，可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展；调度过程包含多个环节，目前最突出的问...

RaceSnail
发表于2025-05-18 11:24:19
2364 0 0

2.3k 0 0

性能调优思路性能优化是一项系统性工作，建议采用 “分析 - 定位 - 优化” 的流程，通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点，主要涉及算子计算时间与调度通信时间。常用优化策略中，计算时间过长需依靠算子自身优化升级，可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展；调度过程包含多个环节，目前最突出的问...
昇腾深度学习
飞桨x昇腾生态适配方案：06_算子适配举例
本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下： Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能，则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle...

RaceSnail
发表于2025-05-18 11:17:49
2005 0 0

2.0k 0 0

本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下： Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能，则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle...
昇腾深度学习
飞桨x昇腾生态适配方案：05_算子适配流程
适配代码仓介绍Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码，均存于[PaddleCustomDevice代码仓](https://github.com/PaddlePaddle/PaddleCustomDevice)以 NPU 适配代码为例，其路径为PaddleCustomDevice/backends/npu。在此路径下，有两个目录值得重点关注，分别是...

RaceSnail
发表于2025-05-18 11:08:25
1943 0 0

1.9k 0 0

适配代码仓介绍Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码，均存于[PaddleCustomDevice代码仓](https://github.com/PaddlePaddle/PaddleCustomDevice)以 NPU 适配代码为例，其路径为PaddleCustomDevice/backends/npu。在此路径下，有两个目录值得重点关注，分别是...
昇腾深度学习
MoE大模型迎来“原生战友”：昇腾超节点重构AI基础设施
训练系统的可用性，决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群，已经不符合大模型的创新趋势。

Alter聊科技
发表于2025-05-18 09:36:09
2922 0 0

2.9k 0 0

训练系统的可用性，决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群，已经不符合大模型的创新趋势。
昇腾机器学习深度学习
飞桨x昇腾生态适配方案：04_模型精度对齐
精度对齐说明精度对齐旨在确保模型在训练一定轮次后，其损失（LOSS）或评分能够与原硬件训练的结果基本相符。精度对齐标准下图所示为在原硬件GPU上的训练精度：迁移到NPU上后要求与GPU训练精度相差在千分之五左右，若精度误差过大则需要通过前向、反向对齐操作定位问题算子。精度对齐思路一旦精度出现偏差，首先确认环境变量配置（例如，NPU私有格式环境变量是否关闭export FLAGS_npu...

RaceSnail
发表于2025-05-15 00:49:11
1405 0 0

1.4k 0 0

精度对齐说明精度对齐旨在确保模型在训练一定轮次后，其损失（LOSS）或评分能够与原硬件训练的结果基本相符。精度对齐标准下图所示为在原硬件GPU上的训练精度：迁移到NPU上后要求与GPU训练精度相差在千分之五左右，若精度误差过大则需要通过前向、反向对齐操作定位问题算子。精度对齐思路一旦精度出现偏差，首先确认环境变量配置（例如，NPU私有格式环境变量是否关闭export FLAGS_npu...
昇腾机器学习深度学习
飞桨x昇腾生态适配方案：03_模型训练迁移
本次案例以PaddleOCRv4的模型为例，介绍将模型迁移到NPU上的流程。迁移过程要保证原模型的功能在新的硬件上不会出现错误，可以借助各种日志辅助定位，此处尤其需要注意的是偶发性错误与长跑时才会出现的错误。安装PaddleOCR套件# 下载 PaddleOCR 套件源码git clone https://github.com/PaddlePaddle/PaddleOCR# 进入 Padd...

RaceSnail
发表于2025-05-15 00:46:33
1742 0 0

1.7k 0 0

本次案例以PaddleOCRv4的模型为例，介绍将模型迁移到NPU上的流程。迁移过程要保证原模型的功能在新的硬件上不会出现错误，可以借助各种日志辅助定位，此处尤其需要注意的是偶发性错误与长跑时才会出现的错误。安装PaddleOCR套件# 下载 PaddleOCR 套件源码git clone https://github.com/PaddlePaddle/PaddleOCR# 进入 Padd...
昇腾机器学习
飞桨x昇腾生态适配方案：02_常用环境变量
训练常用环境变量本节介绍的环境变量建议在训练前提前设置好。 NPU私有格式0为关闭，建议关闭：export FLAGS_npu_storage_format=0 NPU在线编译false为关闭，建议小模型关闭，大模型打开：export FLAGS_npu_jit_compile=false aclnn_scale在大模型场景设置False性能更好，小模型场景设置True性能更好：expor...

RaceSnail
发表于2025-05-15 00:42:33
1765 0 0

1.7k 0 0

训练常用环境变量本节介绍的环境变量建议在训练前提前设置好。 NPU私有格式0为关闭，建议关闭：export FLAGS_npu_storage_format=0 NPU在线编译false为关闭，建议小模型关闭，大模型打开：export FLAGS_npu_jit_compile=false aclnn_scale在大模型场景设置False性能更好，小模型场景设置True性能更好：expor...
昇腾机器学习
飞桨x昇腾生态适配方案：01_基础环境准备
CANN环境准备 CANN镜像加载镜像下载完成后，使用 docker load 命令将下载好的镜像导入到昇腾主机上：docker load -i paddle-npu_cann80RC1-ubuntu20-aarch64-gcc84-py39.tar导入成功后，使用 docker images 查看镜像名称与标签：registry.baidubce.com/device/paddle-np...

RaceSnail
发表于2025-05-15 00:28:51
1956 0 0

1.9k 0 0

CANN环境准备 CANN镜像加载镜像下载完成后，使用 docker load 命令将下载好的镜像导入到昇腾主机上：docker load -i paddle-npu_cann80RC1-ubuntu20-aarch64-gcc84-py39.tar导入成功后，使用 docker images 查看镜像名称与标签：registry.baidubce.com/device/paddle-np...
昇腾
基于Pytorch Geometric在昇腾上实现GAT、GraphSAGE、GCN图神经网络
全文给出三种模型的代码示例，以GraphSage为例主要讲解 GraphSage因为昇腾暂时还不支持PyG的torch_scatter,torch_sparse等加速库，所以还不能使用mini-batch方式训练GNN，此处都是in-memory的全图训练方式。首先构建一个GraphSAGE网络以下代码是一个两层的GraphSAGE网络，利用PyG提供的SAGEConv进行构建。class ...

WWWzq
发表于2025-05-10 14:46:41
3030 0 0

3.0k 0 0

全文给出三种模型的代码示例，以GraphSage为例主要讲解 GraphSage因为昇腾暂时还不支持PyG的torch_scatter,torch_sparse等加速库，所以还不能使用mini-batch方式训练GNN，此处都是in-memory的全图训练方式。首先构建一个GraphSAGE网络以下代码是一个两层的GraphSAGE网络，利用PyG提供的SAGEConv进行构建。class ...
Linux Python pytorch 昇腾神经网络

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript