spark_标签_开发者

spark读写hudi表流程

Spark dataSourceV1查询hudi表：MOR表读流程：MOR表的读包括3个分支：1）普通MOR表读；2）clustering数据读；3）compaction时读；4）metatable表读；5）hive inputFormat读最终读接口为：\Hudi_Kernel\hudi-common\src\main\java\org\apache\hudi\common\table\l...

小兔子615

发表于2021-05-29 18:25:26

12684 0 0

12.6k 0 0

Spark dataSourceV1查询hudi表：MOR表读流程：MOR表的读包括3个分支：1）普通MOR表读；2）clustering数据读；3）compaction时读；4）metatable表读；5）hive inputFormat读最终读接口为：\Hudi_Kernel\hudi-common\src\main\java\org\apache\hudi\common\table\l...

EI企业智能 FusionInsight spark

Hive on Spark和Spark sql on Hive有啥区别？

结构上Hive On Spark和SparkSQL都是一个翻译层，把一个SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。Hive的默认执行引擎是mr，还可以运行在Spark和Tez。Spark可以连接多种数据源，然后使用SparkSQL来执行分布式计算。Hive On Spark 配置（1）首先安装包要选择对，否则就没有开始了。Hive版本:apache-h...

dayu_dls

发表于2021-05-21 10:29:04

12600 0 0

12.6k 0 0

结构上Hive On Spark和SparkSQL都是一个翻译层，把一个SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。Hive的默认执行引擎是mr，还可以运行在Spark和Tez。Spark可以连接多种数据源，然后使用SparkSQL来执行分布式计算。Hive On Spark 配置（1）首先安装包要选择对，否则就没有开始了。Hive版本:apache-h...

EI企业智能 Hive spark 可信智能计算服务 TICS 智能数据

搭建伪分布式Spark集群及RDD简单操作

安装一个简单的伪分布式Spark集群及RDD简单操作@[toc] 实验环境前提是已经配置好Java、Hadoop了环境：Linux安装包版本：scala-2.11.8.tgzspark-2.1.0jdk1.8.0_171hadoop-2.6.0spark: http://spark.apache.org/downloads.htmlscala: https://www.scala-lan...

北山啦

发表于2021-05-18 12:44:35

4858 0 0

4.8k 0 0

安装一个简单的伪分布式Spark集群及RDD简单操作@[toc] 实验环境前提是已经配置好Java、Hadoop了环境：Linux安装包版本：scala-2.11.8.tgzspark-2.1.0jdk1.8.0_171hadoop-2.6.0spark: http://spark.apache.org/downloads.htmlscala: https://www.scala-lan...

spark 分布式

Spark 学习中的一些疑问

Spark 学习中的一些疑问问题1：Spark 为什么只有在调用 action 时才会触发任务执行呢？问题2：Spark 与 MapReduce 对比

cloud昵称bbs

发表于2021-04-03 15:08:05

5116 0 0

5.1k 0 0

Spark 学习中的一些疑问问题1：Spark 为什么只有在调用 action 时才会触发任务执行呢？问题2：Spark 与 MapReduce 对比

MapReduce spark

GaussDB(DWS)迁移 -数据迁移 - 使用Spark的scala接口往GaussDB(DWS)导入数据失败分析

使用Sprak的scala接口往GaussDB(DWS)导入数据时，当数据源表和目标表数据不一致时，可能会触发导入作业异常

譡里个檔

发表于2021-03-29 20:48:11

18503 0 1

18.5k 0 1

使用Sprak的scala接口往GaussDB(DWS)导入数据时，当数据源表和目标表数据不一致时，可能会触发导入作业异常

EI企业智能 Scala spark 云数据仓库 GaussDB(DWS) Gauss AP

Spark 案例实操

Spark 学习中的案例实操，包括Top10 热门品类统计、Top10 热门品类中每个品类的 Top10 活跃 Session 统计、页面单跳转换率统计

lwq1228

发表于2021-03-19 17:16:51

4734 0 0

4.7k 0 0

Spark 学习中的案例实操，包括Top10 热门品类统计、Top10 热门品类中每个品类的 Top10 活跃 Session 统计、页面单跳转换率统计

spark

Spark RDD常用算子整理

RDD算子分为转换算子和行动算子，转换算子根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型，转换算子不会提交作业，而行动算子会提交作业。

lwq1228

发表于2021-03-19 16:32:20

5289 0 0

5.2k 0 0

RDD算子分为转换算子和行动算子，转换算子根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型，转换算子不会提交作业，而行动算子会提交作业。

spark

自建Spark集群log4j日志配置

在自建Spark集群安装完并完成Yarn Log日志配置后，Task在Yarn上的日志的stderr与stdout显示有异常，并且如与OBS相关log4j的日志打印不显示。

那人好像一条狗~

发表于2021-03-11 17:50:55

8884 0 0

8.8k 0 0

在自建Spark集群安装完并完成Yarn Log日志配置后，Task在Yarn上的日志的stderr与stdout显示有异常，并且如与OBS相关log4j的日志打印不显示。

EI企业智能 spark Yarn 智能数据表格存储服务 CloudTable

RISELab 分布式应用框架Ray项目介绍

Ray 简介Ray是UC Berkeley大学 RISE lab（前AMP lab） 2017年12月开源的新一代分布式应用框架（刚发布的时候定位是高性能分布式计算框架，20年中修改定位为分布式应用框架），通过一套引擎解决复杂场景问题，通过动态计算及状态共享提高效率，实现研发、运行时、容灾一体化 Ray的历史Google的三驾马车（2003年，GFS,BigTable,MapReduce...

Leo Xiao

发表于2021-03-09 09:34:09

9487 0 0

9.4k 0 0

Ray 简介Ray是UC Berkeley大学 RISE lab（前AMP lab） 2017年12月开源的新一代分布式应用框架（刚发布的时候定位是高性能分布式计算框架，20年中修改定位为分布式应用框架），通过一套引擎解决复杂场景问题，通过动态计算及状态共享提高效率，实现研发、运行时、容灾一体化 Ray的历史Google的三驾马车（2003年，GFS,BigTable,MapReduce...

spark 分布式

MRS集群pyspark使用obsclient报错缺少obs模块

MRS集群pyspark使用obsclient报错缺少obs模块,报错如下图1：解决方案一：前期准备1. MRS2.1.0、Spark2.3.22. 样例代码在提交任务的节点（比如master1）,代码路径为/tmp/yy/fly.py代码如下:import addfrom obs import * from pyspark import SparkContext from pyspark ...

讲道理不讲感情

发表于2021-02-25 10:35:55

9816 0 0

9.8k 0 0

MRS集群pyspark使用obsclient报错缺少obs模块,报错如下图1：解决方案一：前期准备1. MRS2.1.0、Spark2.3.22. 样例代码在提交任务的节点（比如master1）,代码路径为/tmp/yy/fly.py代码如下:import addfrom obs import * from pyspark import SparkContext from pyspark ...

MapReduce Python spark 对象存储服务 OBS

MRS 3.X集群Spark on CloudTable使用指导

1. 参考官方文档-使用2.x及之前的开发指南（https://support.huaweicloud.cn/devg-mrs/mrs_06_0187.html），开发指南(适用于2.x及之前)->Spark应用开发章节->Spark on HBase，将样例代码的pom文件hbase.version 配置成<hbase.version>1.3.1-mrs-1.9.0</hbase.ver...

讲道理不讲感情

发表于2021-02-03 17:29:43

6549 0 1

6.5k 0 1

1. 参考官方文档-使用2.x及之前的开发指南（https://support.huaweicloud.cn/devg-mrs/mrs_06_0187.html），开发指南(适用于2.x及之前)->Spark应用开发章节->Spark on HBase，将样例代码的pom文件hbase.version 配置成<hbase.version>1.3.1-mrs-1.9.0</hbase.ver...

MapReduce spark 表格存储服务 CloudTable

基于多用户共享的Spark集群弹性扩缩容

DLI数据湖探索服务通过动态资源分配的开启、以及多用户共享default集群弹性扩缩容使用，在充分使用计算资源的基础上，节省了用户的成本。同时，对于用户按需专属队列，DLI已经支持用户指定扩缩容计划的定时扩缩容。用户根据自己的业务繁忙周期，制定自己所需的队列扩缩容计划，定时预置满足业务所需的计算资源，同时节省了成本。

霞光

发表于2020-12-28 23:32:32

11399 0 1

11.3k 0 1

DLI数据湖探索服务通过动态资源分配的开启、以及多用户共享default集群弹性扩缩容使用，在充分使用计算资源的基础上，节省了用户的成本。同时，对于用户按需专属队列，DLI已经支持用户指定扩缩容计划的定时扩缩容。用户根据自己的业务繁忙周期，制定自己所需的队列扩缩容计划，定时预置满足业务所需的计算资源，同时节省了成本。

spark 数据湖探索 DLI EI企业智能智能数据

Spark内核解析之Spark-submit

本文主要是通过Spark代码走读来了解spark-submit的流程

笨熊爱喝cola

发表于2020-12-02 23:12:23

10999 0 0

10.9k 0 0

本文主要是通过Spark代码走读来了解spark-submit的流程

表格存储服务 CloudTable EI企业智能 spark 智能数据

用华为云镜像源码编译Spark3.0.1

简单修改了 spark3.0.1 源码，然后用华为云镜像对其编译

凌晨五点起床的打工人

发表于2020-11-28 18:39:00

7676 0 0

7.6k 0 0

简单修改了 spark3.0.1 源码，然后用华为云镜像对其编译

spark

Spark WordCount 产生多少个 RDD

Spark Wordcount 产生多少个 RDD，您知道么？

凌晨五点起床的打工人

发表于2020-11-27 08:29:57

8582 0 0

8.5k 0 0

Spark Wordcount 产生多少个 RDD，您知道么？

spark