spark_标签_开发者_华为云

博客(672)
视频(2)
论坛(0)
云声(0)
代码示例(0)

Spark SQL三种join
Spark SQL三种joinMysql 的 join怎么实现的?对于Spark来说有3中Join的实现，每种 Join对应着不同的应用场景:Broadcast Hash Join:适合一张较小的表和一张大表进行joinShuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join:适合两张较大的表之间进行 joinHa...

孙中明
发表于2022-04-08 09:01:17
4849 0 0

4.8k 0 0

Spark SQL三种joinMysql 的 join怎么实现的?对于Spark来说有3中Join的实现，每种 Join对应着不同的应用场景:Broadcast Hash Join:适合一张较小的表和一张大表进行joinShuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join:适合两张较大的表之间进行 joinHa...
spark
RDD分区
RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上 1.分区的作用（1）增加并行度（2）减少通信开销UserData（UserId，UserInfo）Events（UserID，LinkInfo）UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo） 2.RDD分区原则RDD分区的一个原则是使得分区的个数尽...

俺想吃蜂蜜
发表于2022-04-07 21:48:05
5323 0 0

5.3k 0 0

RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上 1.分区的作用（1）增加并行度（2）减少通信开销UserData（UserId，UserInfo）Events（UserID，LinkInfo）UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo） 2.RDD分区原则RDD分区的一个原则是使得分区的个数尽...
spark
hive语法创建分区表，方便CDM做增量导出
背景：数据湖里面建表，可以使用DataSource语法或Hive语法，两种建表语法创建的OBS表（即外表）在运行job时，在分区表下的文件夹路径会有所不同，DataSource语法创建的OBS分区表路径生成无规律，不利于CDM做数据的增量导出。

roger_0936
发表于2022-03-28 19:09:15
10304 0 0

10.3k 0 0

背景：数据湖里面建表，可以使用DataSource语法或Hive语法，两种建表语法创建的OBS表（即外表）在运行job时，在分区表下的文件夹路径会有所不同，DataSource语法创建的OBS分区表路径生成无规律，不利于CDM做数据的增量导出。
Hive spark 云数据迁移 CDM 数据湖探索 DLI
Flink和Spark读写avro文件
前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件，本文基于上述文章进行扩展，展示flink和spark如何读取avro文件。 Flink读写avro文件flink支持avro文件格式，内置如下依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artif...

从大数据到人工智能
发表于2022-03-28 00:39:33
5431 0 0

5.4k 0 0

前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件，本文基于上述文章进行扩展，展示flink和spark如何读取avro文件。 Flink读写avro文件flink支持avro文件格式，内置如下依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artif...
Flink spark
使用spark3操作hudi数据湖初探
环境：hadoop 3.2.0spark 3.0.3-bin-hadoop3.2hudi 0.8.0本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop，HADOOP_CLASSPATH配置为：export HADOOP_CLASSPATH=...

从大数据到人工智能
发表于2022-03-28 00:30:01
5141 0 0

5.1k 0 0

环境：hadoop 3.2.0spark 3.0.3-bin-hadoop3.2hudi 0.8.0本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop，HADOOP_CLASSPATH配置为：export HADOOP_CLASSPATH=...
spark
spark-shell操作hudi并使用hbase作为索引
前言接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章步骤对hudi进行适配。并且得到了hudi-spark3-bundle_2.12-0.9.0.jar当然，如果你想先做一个实验，那么可以从这里以下链接下载我已经编译好的jar包。hudi-spark3-bundle...

从大数据到人工智能
发表于2022-03-28 00:28:25
4846 0 0

4.8k 0 0

前言接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章步骤对hudi进行适配。并且得到了hudi-spark3-bundle_2.12-0.9.0.jar当然，如果你想先做一个实验，那么可以从这里以下链接下载我已经编译好的jar包。hudi-spark3-bundle...
HBase Shell spark
讲一下spark的几种部署方式
讲一下spark的几种部署方式目前,除了local模式为本地调试模式以为, Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARNStandalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。目前Spark在standalone模式下是没有任...

孙中明
发表于2022-02-23 08:30:17
7204 0 0

7.2k 0 0

讲一下spark的几种部署方式目前,除了local模式为本地调试模式以为, Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARNStandalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。目前Spark在standalone模式下是没有任...
spark Yarn
Spark的shuffle介绍
Spark的shuffle介绍shuffle简介:在 DAG 阶段以shuffle为界，划分 stage，上游 stage做 map task，每个maptask将计算结果数据分成多份，每一份对应到下游stage 的每个partition中，并将其临时写到磁盘,该过程叫做shuffle write;下游stage 做reduce task,每个reduce task通过网络拉取上游 sta...

孙中明
发表于2022-02-23 08:24:25
4741 0 0

4.7k 0 0

Spark的shuffle介绍shuffle简介:在 DAG 阶段以shuffle为界，划分 stage，上游 stage做 map task，每个maptask将计算结果数据分成多份，每一份对应到下游stage 的每个partition中，并将其临时写到磁盘,该过程叫做shuffle write;下游stage 做reduce task,每个reduce task通过网络拉取上游 sta...
spark
一天学完spark的Scala基础语法教程九、迭代器(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3创建测试类【day1/demo9.sc...

红目香薰
发表于2022-01-30 13:57:20
4661 0 0

4.6k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3创建测试类【day1/demo9.sc...
IDE Java Scala spark
一天学完spark的Scala基础语法教程八、集合(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala ...

红目香薰
发表于2022-01-30 13:56:50
4619 0 0

4.6k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala ...
IDE Scala spark 容器
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求 ...

红目香薰
发表于2022-01-27 16:08:23
4340 0 0

4.3k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求 ...
IDE Scala spark
一天学完spark的Scala基础语法教程一、基础语法与变量(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求创建测试类：基本...

红目香薰
发表于2022-01-27 16:06:30
4710 0 0

4.7k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求创建测试类：基本...
IDE Java Scala spark
spark环境搭建(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗导读：为了对初学者可以进行友好的交流，本文通过windows的idea快速搭建spark的运行环境，让初学者可以快速的感受spark带来的惊艳感受。Linux效果更佳，但是对初学者没那么友好，咱们先搞定windows之后再琢...

红目香薰
发表于2022-01-27 16:05:48
5042 0 0

5.0k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗导读：为了对初学者可以进行友好的交流，本文通过windows的idea快速搭建spark的运行环境，让初学者可以快速的感受spark带来的惊艳感受。Linux效果更佳，但是对初学者没那么友好，咱们先搞定windows之后再琢...
IDE spark
Flink与Spark读写parquet文件全解析
Parquet介绍Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件（如 CSV 或 TSV 文件）相比，Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。Parquet 使用记录粉碎和组装算...

从大数据到人工智能
发表于2022-01-26 09:50:21
7008 0 0

7.0k 0 0

Parquet介绍Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件（如 CSV 或 TSV 文件）相比，Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。Parquet 使用记录粉碎和组装算...
Flink spark
【SparkAPI JAVA版】JavaPairRDD——countByValue、countByValueApprox
JavaPairRDD的countByValue方法讲解官方文档/** * Return the count of each unique value in this RDD as a map of (value, count) pairs. The final * combine step happens locally on the master, equivalent to...

Copy工程师
发表于2022-01-24 15:46:18
9621 0 0

9.6k 0 0

JavaPairRDD的countByValue方法讲解官方文档/** * Return the count of each unique value in this RDD as a map of (value, count) pairs. The final * combine step happens locally on the master, equivalent to...
EI企业智能 Java spark 可信智能计算服务 TICS 智能数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript