- 昇腾Atlas 800I A2部署Qwen2.5-7B实战记录在AI大模型应用日益普及的今天,如何选择合适的推理平台成为了许多开发者关注的焦点。本文记录了在华为昇腾Atlas 800I A2推理卡上部署Qwen2.5-7B-Instruct模型的完整过程,包括环境搭建、模型部署、性能调优等关键步骤,希望能为有类似需求的朋友提供参考。 1. 硬件环境准备 1.1 基础配置确认在开始部署前,需... 昇腾Atlas 800I A2部署Qwen2.5-7B实战记录在AI大模型应用日益普及的今天,如何选择合适的推理平台成为了许多开发者关注的焦点。本文记录了在华为昇腾Atlas 800I A2推理卡上部署Qwen2.5-7B-Instruct模型的完整过程,包括环境搭建、模型部署、性能调优等关键步骤,希望能为有类似需求的朋友提供参考。 1. 硬件环境准备 1.1 基础配置确认在开始部署前,需...
- 基于开发者空间昇腾云开发环境完成CANN算子开发实践 基于开发者空间昇腾云开发环境完成CANN算子开发实践
- 从 NV Apex 到 Apex for Ascend:混合精度训练在昇腾平台的适配与编译全流程解析一、背景:从 NV Apex 到 Ascend 适配在 PyTorch 生态中,NVIDIA Apex 一直是混合精度训练(Automatic Mixed Precision, AMP)的核心工具。它能有效降低显存占用、加快模型训练速度,是深度学习训练中极为重要的性能优化手段。随着华为昇腾 N... 从 NV Apex 到 Apex for Ascend:混合精度训练在昇腾平台的适配与编译全流程解析一、背景:从 NV Apex 到 Ascend 适配在 PyTorch 生态中,NVIDIA Apex 一直是混合精度训练(Automatic Mixed Precision, AMP)的核心工具。它能有效降低显存占用、加快模型训练速度,是深度学习训练中极为重要的性能优化手段。随着华为昇腾 N...
- CANN算子开发实战:从概念到代码完整指南昇腾CANN训练营简介2025年昇腾CANN训练营焕新升级,依托CANN全面开源开放,推出四大定制化专题课程,满足开发者不同阶段的学习需求,快速提升Ascend C算子开发技术。无论你是零基础入门还是进阶提升,都能在这里找到适合自己的学习路径。完成Ascend C算子中级认证和社区任务,即可领取精美证书,更有机会赢取华为手机、平板、开发板等大奖。报名... CANN算子开发实战:从概念到代码完整指南昇腾CANN训练营简介2025年昇腾CANN训练营焕新升级,依托CANN全面开源开放,推出四大定制化专题课程,满足开发者不同阶段的学习需求,快速提升Ascend C算子开发技术。无论你是零基础入门还是进阶提升,都能在这里找到适合自己的学习路径。完成Ascend C算子中级认证和社区任务,即可领取精美证书,更有机会赢取华为手机、平板、开发板等大奖。报名...
- 昇腾CANN自定义算子:攻克多模态数据稀疏性与动态性的性能堡垒 从文本到音频:多模态UGC数据的统一挑战在当今海量的用户生成内容(UGC)处理中,文本数据(评论、弹幕、标题)与音频数据(语音识别结果、背景音乐特征)正成为AI模型训练与推理的重要输入源。这些数据经过特征提取(如NLP的Token Embedding、音频的MFCC/梅尔频谱特征)后,普遍呈现出一个关键特征:高维稀疏性。以语音... 昇腾CANN自定义算子:攻克多模态数据稀疏性与动态性的性能堡垒 从文本到音频:多模态UGC数据的统一挑战在当今海量的用户生成内容(UGC)处理中,文本数据(评论、弹幕、标题)与音频数据(语音识别结果、背景音乐特征)正成为AI模型训练与推理的重要输入源。这些数据经过特征提取(如NLP的Token Embedding、音频的MFCC/梅尔频谱特征)后,普遍呈现出一个关键特征:高维稀疏性。以语音...
- 昇腾AI实战:基于AscendCL的YOLOv5目标检测应用开发本文将详细介绍如何在昇腾芯片上使用AscendCL开发一个完整的目标检测应用,基于预训练的YOLOv5模型实现高效的目标检测推理流程。 1. 项目概述与准备 项目目标开发一个能够实时检测图像中多种物体的目标检测程序,实现从输入图像到检测框和类别输出的完整推理流程。 完整工作流程模型加载:将预编译的YOLOv5模型(.om文件)... 昇腾AI实战:基于AscendCL的YOLOv5目标检测应用开发本文将详细介绍如何在昇腾芯片上使用AscendCL开发一个完整的目标检测应用,基于预训练的YOLOv5模型实现高效的目标检测推理流程。 1. 项目概述与准备 项目目标开发一个能够实时检测图像中多种物体的目标检测程序,实现从输入图像到检测框和类别输出的完整推理流程。 完整工作流程模型加载:将预编译的YOLOv5模型(.om文件)...
- 昇腾CANN性能调优实战:从数据驱动到极致优化 摘要本文深入探讨昇腾平台Ascend C程序的系统化性能优化方法论。以msprof性能分析工具为核心,构建从性能瓶颈定位、数据依赖分析到资源利用率优化的完整技术体系。通过向量加法、矩阵乘法等真实场景案例,详细展示Double Buffer、内存访问模式优化、向量化计算等关键技术的实现与效果。提供企业级性能调优工作流,帮助开发者实现算子性能3-... 昇腾CANN性能调优实战:从数据驱动到极致优化 摘要本文深入探讨昇腾平台Ascend C程序的系统化性能优化方法论。以msprof性能分析工具为核心,构建从性能瓶颈定位、数据依赖分析到资源利用率优化的完整技术体系。通过向量加法、矩阵乘法等真实场景案例,详细展示Double Buffer、内存访问模式优化、向量化计算等关键技术的实现与效果。提供企业级性能调优工作流,帮助开发者实现算子性能3-...
- 无论选择哪种路径,都应建立“分析-优化-验证”的迭代流程。利用昇腾提供的Profiler、Memory Tracer等工具链,精准定位瓶颈,实施针对性优化。例如,一个2048x2048的MatMul算子,经过系统化优化后,性能可从初始的512ms(3.2 TFLOPS)提升至92ms(17.8 TFLOPS)。 无论选择哪种路径,都应建立“分析-优化-验证”的迭代流程。利用昇腾提供的Profiler、Memory Tracer等工具链,精准定位瓶颈,实施针对性优化。例如,一个2048x2048的MatMul算子,经过系统化优化后,性能可从初始的512ms(3.2 TFLOPS)提升至92ms(17.8 TFLOPS)。
- 昇腾算力赋能:解密高性能算子与MoE模型落地新范式在广州一场近700名开发者参与的盛会上,昇腾AI正以前所未有的速度更新其工具链。仅MoE模型推理一项,昇腾就能实现单卡吞吐量提升3倍以上,时延降低50%,成本下降超50%。随着大模型参数规模从千亿向万亿迈进,传统单一算力架构已无法满足需求。异构计算成为AI算力发展的关键路径,而华为昇腾系列AI处理器凭借其CANN(Compute Archi... 昇腾算力赋能:解密高性能算子与MoE模型落地新范式在广州一场近700名开发者参与的盛会上,昇腾AI正以前所未有的速度更新其工具链。仅MoE模型推理一项,昇腾就能实现单卡吞吐量提升3倍以上,时延降低50%,成本下降超50%。随着大模型参数规模从千亿向万亿迈进,传统单一算力架构已无法满足需求。异构计算成为AI算力发展的关键路径,而华为昇腾系列AI处理器凭借其CANN(Compute Archi...
- 本文深入探讨基于昇腾AI处理器的企业级AI模型推理平台容器化部署全生命周期管理。从云原生架构设计出发,系统性地介绍从开发环境容器化、Kubernetes生产部署、到CI/CD自动化流水线构建的全流程技术实践。文章结合真实生产环境经验,提供完整的架构设计模式、配置代码示例和运维最佳实践,为企业构建高效、稳定、可扩展的AI推理平台提供参考。 本文深入探讨基于昇腾AI处理器的企业级AI模型推理平台容器化部署全生命周期管理。从云原生架构设计出发,系统性地介绍从开发环境容器化、Kubernetes生产部署、到CI/CD自动化流水线构建的全流程技术实践。文章结合真实生产环境经验,提供完整的架构设计模式、配置代码示例和运维最佳实践,为企业构建高效、稳定、可扩展的AI推理平台提供参考。
- 本文系统阐述Triton-on-Ascend技术如何通过高层编程抽象,解决AI算力爆发时代下的硬件编程难题。从昇腾硬件架构特性出发,深入解析SPMD并行模型在NPU上的实现机制,提供从环境搭建到企业级部署的全链路实践指南,并通过性能对比验证其在开发效率与运行效能间的卓越平衡。 本文系统阐述Triton-on-Ascend技术如何通过高层编程抽象,解决AI算力爆发时代下的硬件编程难题。从昇腾硬件架构特性出发,深入解析SPMD并行模型在NPU上的实现机制,提供从环境搭建到企业级部署的全链路实践指南,并通过性能对比验证其在开发效率与运行效能间的卓越平衡。
- CANN AI Core:揭开昇腾“核”心引擎的神秘面纱【 5分钟搞懂:CANN 算子】在昇腾AI生态中,AI Core(人工智能核心)是算力爆发的心脏地带,但新手常被“核函数”“Vector Core”“Cube Core”等概念困扰。本文从「本质理解→核心构成→实践应用」三个层次,用生动类比+清晰图解,帮你快速掌握AI Core的工作原理。 一、AI Core到底是什么?(直观类比)想... CANN AI Core:揭开昇腾“核”心引擎的神秘面纱【 5分钟搞懂:CANN 算子】在昇腾AI生态中,AI Core(人工智能核心)是算力爆发的心脏地带,但新手常被“核函数”“Vector Core”“Cube Core”等概念困扰。本文从「本质理解→核心构成→实践应用」三个层次,用生动类比+清晰图解,帮你快速掌握AI Core的工作原理。 一、AI Core到底是什么?(直观类比)想...
- 本文将带你从零实现一个昇腾原生的Attention + LayerNorm融合算子,通过一次核函数调用完成两个计算阶段,实测在典型LLM推理场景下可进一步提升端到端性能15%-20%!全文包含完整的融合策略、双缓冲设计、向量化优化与性能对比分析,助你掌握算子级联优化的核心技巧。 本文将带你从零实现一个昇腾原生的Attention + LayerNorm融合算子,通过一次核函数调用完成两个计算阶段,实测在典型LLM推理场景下可进一步提升端到端性能15%-20%!全文包含完整的融合策略、双缓冲设计、向量化优化与性能对比分析,助你掌握算子级联优化的核心技巧。
- 在当今的推荐系统、广告检索和自然语言处理应用中,EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作,实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景,深入探讨如何通过算子融合、内存布局优化和硬件感知编程,将EmbeddingLookup的性能提升到极致。 在当今的推荐系统、广告检索和自然语言处理应用中,EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作,实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景,深入探讨如何通过算子融合、内存布局优化和硬件感知编程,将EmbeddingLookup的性能提升到极致。
- Ascend CANN 深度算子开发实践:以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算(Conv2D)是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer,卷积层始终是模型效率和性能的关键决定因素。在 GPU 上,你可以依赖 cuDNN;在 CPU 上,可以调用 OneDNN。但在昇腾(A... Ascend CANN 深度算子开发实践:以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算(Conv2D)是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer,卷积层始终是模型效率和性能的关键决定因素。在 GPU 上,你可以依赖 cuDNN;在 CPU 上,可以调用 OneDNN。但在昇腾(A...
上滑加载中
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签