- Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa... Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa...
- Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究 Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究
- Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有... Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有...
- Apache Spark是一个快速的大数据和机器学习统一分析引擎。 Apache Spark是一个快速的大数据和机器学习统一分析引擎。
- shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio... shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio...
- 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明... 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明...
- Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多... Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多...
- 以一条SQL语句为例,探寻SparkSQL中的代码调用 以一条SQL语句为例,探寻SparkSQL中的代码调用
- 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于... 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于...
- spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。 spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。
- Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。 Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。
- 实现Kerberos认证集群与开源elasticsearch对接 实现Kerberos认证集群与开源elasticsearch对接
- 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消... 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消...
- Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时(之前没有读过Scala的任何代码)就感觉非常迷茫。独特的语法和编写方式,各种各样的语法糖(如果不去看专业书籍或者Scala手册根本不明白),代码编写灵活、随意,让人触不及防。但是不同的语言有不同的特点和各自不同优势,大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身;... Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时(之前没有读过Scala的任何代码)就感觉非常迷茫。独特的语法和编写方式,各种各样的语法糖(如果不去看专业书籍或者Scala手册根本不明白),代码编写灵活、随意,让人触不及防。但是不同的语言有不同的特点和各自不同优势,大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身;...
- 最近在测试Hive的时候,使用Hive的Union remove优化器遇到了一个奇怪的问题,记录下定位的过程和结果,避免其他同学也碰到同样的坑。复现方法使用版本:MRS_1.9.3 (Hive-2.3.3),MRS_2.1.0(Hive-3.1.0) 步骤:create table test_union_all(version string, rk int);insert into test... 最近在测试Hive的时候,使用Hive的Union remove优化器遇到了一个奇怪的问题,记录下定位的过程和结果,避免其他同学也碰到同样的坑。复现方法使用版本:MRS_1.9.3 (Hive-2.3.3),MRS_2.1.0(Hive-3.1.0) 步骤:create table test_union_all(version string, rk int);insert into test...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签