- 本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。 本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。
- 本文详解推荐系统多级缓存中的准入淘汰策略,涵盖基于访问频次、概率、ShowClick等准入机制,以及基于时间、L2范数、频次等淘汰机制,结合CPU-PS控制流程与NPU执行优化,实现缓存资源高效利用,提升模型训练效率与推荐精度。 本文详解推荐系统多级缓存中的准入淘汰策略,涵盖基于访问频次、概率、ShowClick等准入机制,以及基于时间、L2范数、频次等淘汰机制,结合CPU-PS控制流程与NPU执行优化,实现缓存资源高效利用,提升模型训练效率与推荐精度。
- 单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。 单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
- 嵌入表分片与哈希管理:支撑万亿参数的关键技术 1、 Hash管理及实现如下图所示:在推荐系统中,大部分ID的原始特征都是离散型(global ids),因为其取值空间巨大且稀疏(如用户ID或物品ID可能达到百万甚至亿级别),直接作为输入会导致嵌入表维度爆炸,引发存储和计算瓶颈。常见的做法是需要将离散的ID转为连续的行号(hash indices),从而压缩特征空间,实现高效存储和查询。Ha... 嵌入表分片与哈希管理:支撑万亿参数的关键技术 1、 Hash管理及实现如下图所示:在推荐系统中,大部分ID的原始特征都是离散型(global ids),因为其取值空间巨大且稀疏(如用户ID或物品ID可能达到百万甚至亿级别),直接作为输入会导致嵌入表维度爆炸,引发存储和计算瓶颈。常见的做法是需要将离散的ID转为连续的行号(hash indices),从而压缩特征空间,实现高效存储和查询。Ha...
- 昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计 1. 昇腾 A2 处理器架构与 Embedding 优化策略昇腾 A2 处理器采用独特的达芬奇架构,具备完整的片上多级缓存系统。其缓存体系并非“以 CPU 为中心的多级缓存替代方案”,而是基于自身架构理念设计了高效的多级缓存机制,与 NVIDIA GPU 在缓存策略上存在差异,但具备相当的高效缓存能力。在整体架构上,多个 AI 节点通... 昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计 1. 昇腾 A2 处理器架构与 Embedding 优化策略昇腾 A2 处理器采用独特的达芬奇架构,具备完整的片上多级缓存系统。其缓存体系并非“以 CPU 为中心的多级缓存替代方案”,而是基于自身架构理念设计了高效的多级缓存机制,与 NVIDIA GPU 在缓存策略上存在差异,但具备相当的高效缓存能力。在整体架构上,多个 AI 节点通...
- 1、问题与挑战推荐系统中的用户(User)、物品(Item)及上下文(Context)特征具有高度异构性,其物理含义和量纲差异显著。为将这些特征有效引入深度神经网络(DNN),须通过Embedding技术将其映射为统一的低维稠密向量表示,从而解决特征间的语义鸿沟并提升模型泛化能力。为提升推荐系统的整体推荐效果,满足用户个性化推荐的需求,加速互联网电商企业快速变现。如下图所示:近10年来推荐... 1、问题与挑战推荐系统中的用户(User)、物品(Item)及上下文(Context)特征具有高度异构性,其物理含义和量纲差异显著。为将这些特征有效引入深度神经网络(DNN),须通过Embedding技术将其映射为统一的低维稠密向量表示,从而解决特征间的语义鸿沟并提升模型泛化能力。为提升推荐系统的整体推荐效果,满足用户个性化推荐的需求,加速互联网电商企业快速变现。如下图所示:近10年来推荐...
- 文章目录 一、回顾word2vec中的负采样1.1 滑动窗口1.2 目标函数1.3 预测函数 二、word2vec中的负采样实现三、推荐系统中召回相关基础3.1 召回中的三种训练方式(1)Po... 文章目录 一、回顾word2vec中的负采样1.1 滑动窗口1.2 目标函数1.3 预测函数 二、word2vec中的负采样实现三、推荐系统中召回相关基础3.1 召回中的三种训练方式(1)Po...
- 学习总结 ESMM首创了利用用户行为序列数据在完整样本空间建模,并提出利用学习CTR和CTCVR的辅助任务,迂回学习CVR,避免了传统CVR模型经常遭遇的样本选择偏差和训练数据稀疏的问题,取得了显著的效... 学习总结 ESMM首创了利用用户行为序列数据在完整样本空间建模,并提出利用学习CTR和CTCVR的辅助任务,迂回学习CVR,避免了传统CVR模型经常遭遇的样本选择偏差和训练数据稀疏的问题,取得了显著的效...
- 文章目录 一、个性化推荐的成功应用的两个条件二、音乐推荐的特点1、物品空间大2、消费每首歌的代价很小3、物品种类丰富4、听一首歌耗时很少5、物品重用率很高6、用户充满激情7、上下文相关8、次序很重... 文章目录 一、个性化推荐的成功应用的两个条件二、音乐推荐的特点1、物品空间大2、消费每首歌的代价很小3、物品种类丰富4、听一首歌耗时很少5、物品重用率很高6、用户充满激情7、上下文相关8、次序很重...
- 文章目录 一、CG,累计增益 Cumulative Gain二、DCG,折损累计增益 Discounted cumulative gain三、NDCG,归一化折损累计增益 Normalized D... 文章目录 一、CG,累计增益 Cumulative Gain二、DCG,折损累计增益 Discounted cumulative gain三、NDCG,归一化折损累计增益 Normalized D...
- 文章目录 一、DSSM模型1.1 DSSM模型架构1.2 模型原理 二、负样本构造的6个常用方法2.1 曝光未点击数据2.2 全局随机选择负例2.3 Batch内随机选择负例2.4 曝光数据中... 文章目录 一、DSSM模型1.1 DSSM模型架构1.2 模型原理 二、负样本构造的6个常用方法2.1 曝光未点击数据2.2 全局随机选择负例2.3 Batch内随机选择负例2.4 曝光数据中...
- 文章目录 一、提高流量利用率二、挖掘和匹配长尾需求三、提升用户体验四、技术积累 推荐系统的作用可以从以下4个方面分析: 一、提高流量利用率 流量特点: 稀缺性:获取流量是有成本的,... 文章目录 一、提高流量利用率二、挖掘和匹配长尾需求三、提升用户体验四、技术积累 推荐系统的作用可以从以下4个方面分析: 一、提高流量利用率 流量特点: 稀缺性:获取流量是有成本的,...
- 学习总结 (1)task4主要是前后端基础及交互(前端、flask、后端请求逻辑)。 (2)Web前端网页:由文字、图像、超链接、音频、视频以及Flash等元素构成;Web标准有三层结构,分别是结构(... 学习总结 (1)task4主要是前后端基础及交互(前端、flask、后端请求逻辑)。 (2)Web前端网页:由文字、图像、超链接、音频、视频以及Flash等元素构成;Web标准有三层结构,分别是结构(...
- 学习总结 (1)五种主流的推荐模型离线评估方法:Holdout 检验、交叉检验、自助法、时间切割和离线 Replay。Holdout 检验最简单常用,它通过随机划分的方式把样本集划分成训练集和测试集。而... 学习总结 (1)五种主流的推荐模型离线评估方法:Holdout 检验、交叉检验、自助法、时间切割和离线 Replay。Holdout 检验最简单常用,它通过随机划分的方式把样本集划分成训练集和测试集。而...
- 学习总结 (1)DeepFM 模型在解决特征交叉问题上非常有优势,它会使用一个独特的 FM 层来专门处理特征之间的交叉问题。具体来说,就是使用点积、元素积等操作让不同特征之间进行两两组合,再把组合后的结... 学习总结 (1)DeepFM 模型在解决特征交叉问题上非常有优势,它会使用一个独特的 FM 层来专门处理特征之间的交叉问题。具体来说,就是使用点积、元素积等操作让不同特征之间进行两两组合,再把组合后的结...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签