spark_标签_开发者

Spark on RDMA测试套件HiBench使用实践

Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox，本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa...

笨熊爱喝cola

发表于2020-11-22 21:06:49

10709 0 0

10.7k 0 0

Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox，本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa...

智能数据表格存储服务 CloudTable spark EI企业智能

Spark的内存管理研究

Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究

剑指南天

发表于2020-11-18 22:20:54

10758 2 3

10.7k 2 3

Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究

MapReduce服务 MRS EI企业智能 spark

Hive on spark参数

Hive on Spark参数介绍Hive on Spark 功能增加的参数，具体含义如下： hive.spark.client.future.timeoutHive client请求Spark driver的超时时间，如果没有指定时间单位，默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间，如果没有...

Chijago

发表于2020-11-12 11:17:05

8462 0 0

8.4k 0 0

Hive on Spark参数介绍Hive on Spark 功能增加的参数，具体含义如下： hive.spark.client.future.timeoutHive client请求Spark driver的超时时间，如果没有指定时间单位，默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间，如果没有...

Hive spark

大数据技术：Apache Spark学习研究

Apache Spark是一个快速的大数据和机器学习统一分析引擎。

Jet Ding

发表于2020-09-28 16:22:47

4461 0 0

4.4k 0 0

Apache Spark是一个快速的大数据和机器学习统一分析引擎。

Apache spark 大数据

Spark shuffle介绍：shuffle data生命周期

shuffle data持久化在磁盘上，如果一直不清理，磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景：1、spark application主动停止，需要清理该application下所属的全部shuffle data。清理流程如下（本文均以未启用external shuffle service,spark 2.x代码为例）：2、applicatio...

小玩一会

发表于2020-09-07 15:59:22

10581 0 0

10.5k 0 0

shuffle data持久化在磁盘上，如果一直不清理，磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景：1、spark application主动停止，需要清理该application下所属的全部shuffle data。清理流程如下（本文均以未启用external shuffle service,spark 2.x代码为例）：2、applicatio...

EI企业智能 spark 智能数据表格存储服务 CloudTable

Spark Dynamic Allocation动态资源分配使用方法

1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减，具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为：如果executor数据量不够，则增加数量，如果executor在一段时间内空闲，则移除这个executor。动态增加executor配置项：spark.dynamicAllocation.schedulerBacklogTimeout说明...

霞光

发表于2020-08-31 20:21:09

23048 0 1

23.0k 0 1

1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减，具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为：如果executor数据量不够，则增加数量，如果executor在一段时间内空闲，则移除这个executor。动态增加executor配置项：spark.dynamicAllocation.schedulerBacklogTimeout说明...

EI企业智能智能数据 spark 数据湖探索 DLI

Spark Hive自定义函数使用解析

Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。UDF使用场景：输入一行，返回一个结果，一对一，比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份。UDTF使用场景: 输入一行，返回多行(hive),一对多, 而sparkSQL中没有UDTF， spark中用flatMap即可实现该功能。UDAF: 输入多...

雪中独狼

发表于2020-08-31 10:02:56

10211 0 0

10.2k 0 0

Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。UDF使用场景：输入一行，返回一个结果，一对一，比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份。UDTF使用场景: 输入一行，返回多行(hive),一对多, 而sparkSQL中没有UDTF， spark中用flatMap即可实现该功能。UDAF: 输入多...

EI企业智能智能数据 spark 数据湖探索 DLI HUAWEI CONNECT

SparkSQL代码走读分析

以一条SQL语句为例，探寻SparkSQL中的代码调用

笨熊爱喝cola

发表于2020-08-27 20:29:32

9484 0 0

9.4k 0 0

以一条SQL语句为例，探寻SparkSQL中的代码调用

EI企业智能智能数据 spark SQL 表格存储服务 CloudTable

FusionInsight 集群功能介绍-GraphBase

基本原理简介互联网时代，随着网络技术的发展，企业积累的数据越来越多。伴随着数据集的不断增加，传统的关系型数据库查询性能会随之变差，特别是针对一些特殊的业务场景，所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题，图数据库应运而生。图数据库，是指以“图”这种数据结构存储和查询数据，图包含节点和关系，节点和关系可以存在标签和属性，且边可以有方向。GraphBase是基于...

Ragnar

发表于2020-08-25 14:06:40

9781 0 0

9.7k 0 0

基本原理简介互联网时代，随着网络技术的发展，企业积累的数据越来越多。伴随着数据集的不断增加，传统的关系型数据库查询性能会随之变差，特别是针对一些特殊的业务场景，所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题，图数据库应运而生。图数据库，是指以“图”这种数据结构存储和查询数据，图包含节点和关系，节点和关系可以存在标签和属性，且边可以有方向。GraphBase是基于...

spark FusionInsight

以java API方式提交spark作业

spark作为当前主流的计算框架，集成到项目已经越来越普遍，本文介绍的是以SparkLauncher.launch()方式，另一种SparkLauncher.startApplication()不再赘述。

baymax_li

发表于2020-08-19 10:27:26

6452 2 4

6.4k 2 4

spark作为当前主流的计算框架，集成到项目已经越来越普遍，本文介绍的是以SparkLauncher.launch()方式，另一种SparkLauncher.startApplication()不再赘述。

Java API spark

Spark 操作 Elasticsearch 性能优化

Elasticsearch 在对大批量数据进行统计、聚合等操作时，性能较差。在大批量数据下的统计、聚合、排序等场景，可借助 Spark 提升运算性能。

痩风

发表于2020-08-04 14:26:57

10903 1 0

10.9k 1 0

Elasticsearch 在对大批量数据进行统计、聚合等操作时，性能较差。在大批量数据下的统计、聚合、排序等场景，可借助 Spark 提升运算性能。

MapReduce服务 MRS spark Elasticsearch

MRS:Spark对接开源ElasticSearch(从安装到代码实现)

实现Kerberos认证集群与开源elasticsearch对接

剑指南天

发表于2020-08-02 18:41:05

6154 1 2

6.1k 1 2

实现Kerberos认证集群与开源elasticsearch对接

spark Elasticsearch MapReduce

DIS Spark Streaming Plugins 常见客户问题

一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS：Driver 使用subscribe方式订阅通道，然后根据 Executor 数量将通道分区分配给 Executor；Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度？有关消...

gaozhiliang

发表于2020-07-23 20:03:03

10065 0 0

10.0k 0 0

一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS：Driver 使用subscribe方式订阅通道，然后根据 Executor 数量将通道分区分配给 Executor；Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度？有关消...

spark 数据接入服务 DIS

Spark为什么选择Scala

Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时（之前没有读过Scala的任何代码）就感觉非常迷茫。独特的语法和编写方式，各种各样的语法糖（如果不去看专业书籍或者Scala手册根本不明白），代码编写灵活、随意，让人触不及防。但是不同的语言有不同的特点和各自不同优势，大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身；...

雪中独狼

发表于2020-07-07 09:28:52

9993 1 2

9.9k 1 2

Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时（之前没有读过Scala的任何代码）就感觉非常迷茫。独特的语法和编写方式，各种各样的语法糖（如果不去看专业书籍或者Scala手册根本不明白），代码编写灵活、随意，让人触不及防。但是不同的语言有不同的特点和各自不同优势，大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身；...

Scala spark 大数据

使用Hive union remove优化器的避坑指南

最近在测试Hive的时候，使用Hive的Union remove优化器遇到了一个奇怪的问题，记录下定位的过程和结果，避免其他同学也碰到同样的坑。复现方法使用版本：MRS_1.9.3 （Hive-2.3.3），MRS_2.1.0（Hive-3.1.0）步骤：create table test_union_all(version string, rk int);insert into test...

护城小兵

发表于2020-06-28 09:48:44

13198 0 2

13.1k 0 2

最近在测试Hive的时候，使用Hive的Union remove优化器遇到了一个奇怪的问题，记录下定位的过程和结果，避免其他同学也碰到同样的坑。复现方法使用版本：MRS_1.9.3 （Hive-2.3.3），MRS_2.1.0（Hive-3.1.0）步骤：create table test_union_all(version string, rk int);insert into test...

Hive spark