- 文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟... 文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟...
- 文章目录 一、Spark概述 (一)Spark来源 (二)Spark特点 (三)Spark与Hadoop差异 (四)搭建Spark单机模式... 文章目录 一、Spark概述 (一)Spark来源 (二)Spark特点 (三)Spark与Hadoop差异 (四)搭建Spark单机模式...
- 前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服务,需要及时识别新添加的领域词与停用词; 实时风控服务,需要根据业务情况调整触发警告的规则。  ... 前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服务,需要及时识别新添加的领域词与停用词; 实时风控服务,需要根据业务情况调整触发警告的规则。  ...
- 前言 Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的... 前言 Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的...
- 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1.... 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1....
- 批处理是把数据攒起来,一次性进行处理的方法。相对而言,流处理是不保存数据,按照到达处理服务器的顺序对数据依次进行处理。 想实时对数据做出反应时,流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理,所以从数据到达之后到处理完毕为止,会出现时间延迟。因此,流处理这种把到达的数据逐次进行处理的思路就变得很重要了。此外... 批处理是把数据攒起来,一次性进行处理的方法。相对而言,流处理是不保存数据,按照到达处理服务器的顺序对数据依次进行处理。 想实时对数据做出反应时,流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理,所以从数据到达之后到处理完毕为止,会出现时间延迟。因此,流处理这种把到达的数据逐次进行处理的思路就变得很重要了。此外...
- 目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE_RANK连续排序 NTILE分组排名[了解] ... 目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE_RANK连续排序 NTILE分组排名[了解] ...
- Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 第一、Driver Program 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行;运行JVM P... Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 第一、Driver Program 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行;运行JVM P...
- 目录 Spark 四大特点 速度快 易于使用 通用性强 运行方式 Spark 四大特点 Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 ... 目录 Spark 四大特点 速度快 易于使用 通用性强 运行方式 Spark 四大特点 Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 ...
- 目录 RDD、DF、DS相关操作 SparkSQL初体验 SparkSession 应用入口 获取DataFrame/DataSet 使用样例类 指定类型+列名 自定义Schema RDD、DF、DS相互转换 RDD、DF、DS相关操作 SparkSQL初体验 Spark... 目录 RDD、DF、DS相关操作 SparkSQL初体验 SparkSession 应用入口 获取DataFrame/DataSet 使用样例类 指定类型+列名 自定义Schema RDD、DF、DS相互转换 RDD、DF、DS相关操作 SparkSQL初体验 Spark...
- 1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 答:Spark具有如下4个主要特点: ①运行速度快;②容易使用;③通用性;④运行模式多样。  ... 1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 答:Spark具有如下4个主要特点: ①运行速度快;②容易使用;③通用性;④运行模式多样。  ...
- 先让我们来回顾一下Spark的内置模块。 &nb... 先让我们来回顾一下Spark的内置模块。 &nb...
- 目录 Spark内核原理 RDD 依赖 窄依赖(Narrow Dependency) Shuffle 依赖(宽依赖 Wide Dependency) 如何区分宽窄依赖 DAG和Stage 词汇表 Spark内存迭代 所以,我们说Spark比MR效率高主要就是2个原... 目录 Spark内核原理 RDD 依赖 窄依赖(Narrow Dependency) Shuffle 依赖(宽依赖 Wide Dependency) 如何区分宽窄依赖 DAG和Stage 词汇表 Spark内存迭代 所以,我们说Spark比MR效率高主要就是2个原...
- 目录 SparkStreaming实战案例二 UpdateStateByKey 需求 1.updateStateByKey 2.mapWithState 代码实现 SparkStreaming实战案例二 UpdateStateByKey 需求 对从Socket接收的数据做WordCount并要求能够和历史数据进行累加!... 目录 SparkStreaming实战案例二 UpdateStateByKey 需求 1.updateStateByKey 2.mapWithState 代码实现 SparkStreaming实战案例二 UpdateStateByKey 需求 对从Socket接收的数据做WordCount并要求能够和历史数据进行累加!...
- 本篇博客是Spark之【RDD编程】系列第五篇,为大家介绍的是RDD依赖关系。 &... 本篇博客是Spark之【RDD编程】系列第五篇,为大家介绍的是RDD依赖关系。 &...
上滑加载中
推荐直播
-
香橙派AIpro的远程推理框架与实验案例
2025/07/04 周五 19:00-20:00
郝家胜 -华为开发者布道师-高校教师
AiR推理框架创新采用将模型推理与模型应用相分离的机制,把香橙派封装为AI推理黑盒服务,构建了分布式远程推理框架,并提供多种输入模态、多种输出方式以及多线程支持的高度复用框架,解决了开发板环境配置复杂上手困难、缺乏可视化体验和资源稀缺课程受限等痛点问题,真正做到开箱即用,并支持多种笔记本电脑环境、多种不同编程语言,10行代码即可体验图像分割迁移案例。
回顾中 -
鸿蒙端云一体化应用开发
2025/07/10 周四 19:00-20:00
倪红军 华为开发者布道师-高校教师
基于鸿蒙平台终端设备的应用场景越来越多、使用范围越来越广。本课程以云数据库服务为例,介绍云侧项目应用的创建、新建对象类型、新增存储区及向对象类型中添加数据对象的方法,端侧(HarmonyOS平台)一体化工程项目的创建、云数据资源的关联方法及对云侧数据的增删改查等操作方法,为开发端云一体化应用打下坚实基础。
即将直播
热门标签