spark_标签_开发者_华为云

博客(660)
视频(2)
论坛(0)
云声(0)
代码示例(0)

《企业级大数据平台构建：架构与实现》——2.5　Spark
本书摘自《企业级大数据平台构建：架构与实现》——书中第2章，2.5.1节，作者是朱凯。

华章计算机
发表于2019-06-06 16:22:19
4622 0 0

4.6k 0 0

本书摘自《企业级大数据平台构建：架构与实现》——书中第2章，2.5.1节，作者是朱凯。
spark 大数据
《Spark机器学习进阶实战》——3.3.2　准确率、召回率和F1值
本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.3.2节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-06-01 22:20:16
5754 0 0

5.7k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.3.2节，作者是马海平、于俊、吕昕、向海。
spark 机器学习
Spark安装教程
Spark安装教程

Byyyi耀
发表于2024-05-06 10:50:33
1340 0 0

1.3k 0 0

Spark安装教程
spark
Scala语言
Scala产生于瑞士的洛桑联邦理工学院（EPEL），是“可扩展语言”（Scalable Language）的缩写，Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。利用Scala可以编写出更加精简的程序，也能用于构建大型复杂系统，还可以访问任何Java类库并且与Java框架进行交互。运行在JVM和JavaScript之上： ...

Hans
发表于2024-04-26 23:30:37
3029 0 0

3.0k 0 0

Scala产生于瑞士的洛桑联邦理工学院（EPEL），是“可扩展语言”（Scalable Language）的缩写，Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。利用Scala可以编写出更加精简的程序，也能用于构建大型复杂系统，还可以访问任何Java类库并且与Java框架进行交互。运行在JVM和JavaScript之上： ...
Scala spark
Spark---DataFrame存储、Spark UDF函数、UDAF函数
四、DataFrame存储+Spark UDF函数1、储存DataFrame1）、将DataFrame存储为parquet文件2）、将DataFrame存储到JDBC数据库3）、将DataFrame存储到Hive表2、UDF：用户自定义函数可以自定义类实现UDFX接口java：SparkConf conf = new SparkConf();conf.setMaster("local")...

前进的蜗牛
发表于2023-11-30 10:40:46
1525 0 0

1.5k 0 0

四、DataFrame存储+Spark UDF函数1、储存DataFrame1）、将DataFrame存储为parquet文件2）、将DataFrame存储到JDBC数据库3）、将DataFrame存储到Hive表2、UDF：用户自定义函数可以自定义类实现UDFX接口java：SparkConf conf = new SparkConf();conf.setMaster("local")...
spark
Spark---Spark on Hive
1、Spark On Hive的配置1）、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml：配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...

前进的蜗牛
发表于2023-11-29 10:38:26
2115 0 0

2.1k 0 0

1、Spark On Hive的配置1）、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml：配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...
Hive spark
Spark---SparkSQL介绍
一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的Hive...

前进的蜗牛
发表于2023-11-28 10:59:49
1889 0 0

1.8k 0 0

一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的Hive...
Hive spark
Spark---SparkCore(五)
五、Spark Shuffle文件寻址1、Shuffle文件寻址1）、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块，是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象，存在于Driver中。MapOutputTrackerWorker是从对象，存在于Excutor中。2）、BlockManagerBl...

前进的蜗牛
发表于2023-11-28 10:43:06
1321 0 0

1.3k 0 0

五、Spark Shuffle文件寻址1、Shuffle文件寻址1）、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块，是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象，存在于Driver中。MapOutputTrackerWorker是从对象，存在于Excutor中。2）、BlockManagerBl...
spark
Spark---SparkCore（四）
三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。fileSystem只有存储功能，可以存储Master的元数据信息，用fileSystem搭建的Master...

前进的蜗牛
发表于2023-11-27 15:44:31
1452 0 0

1.4k 0 0

三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。fileSystem只有存储功能，可以存储Master的元数据信息，用fileSystem搭建的Master...
spark
Spark---SparkCore（三）
一、Spark广播变量和累加器1、广播变量1）、广播变量理解图2）、广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val broadCast = sc.broadcast(list)val lineRDD = sc.t...

前进的蜗牛
发表于2023-11-27 11:20:47
1445 0 0

1.4k 0 0

一、Spark广播变量和累加器1、广播变量1）、广播变量理解图2）、广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val broadCast = sc.broadcast(list)val lineRDD = sc.t...
spark 硬件开发
Spark---Master启动及Submit任务提交
一、Spark Master启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后，首先调用$SPARK_HOME/sbin/start-all.sh，start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本，在start-master.sh脚本中可以看到启动Master角色的主类：“org.apache...

前进的蜗牛
发表于2023-11-24 09:58:30
1705 0 0

1.7k 0 0

一、Spark Master启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后，首先调用$SPARK_HOME/sbin/start-all.sh，start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本，在start-master.sh脚本中可以看到启动Master角色的主类：“org.apache...
spark
Spark---SparkCore（二）
四、补充算子1、transformations 类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。（多个分区分到一个分区不会产生shuffle）coalescecoalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle...

前进的蜗牛
发表于2023-11-24 09:48:21
1487 0 0

1.4k 0 0

四、补充算子1、transformations 类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。（多个分区分到一个分区不会产生shuffle）coalescecoalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle...
spark 网站
Spark---补充算子
一、Spark补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K，V格式的RDD上。根据K进行连接，对（K，V）join（K，W）返回（K，（V，W））join后的分区数与父RDD分区数多的那一个相同。2、union合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并RDD分区数的总和...

前进的蜗牛
发表于2023-11-24 09:08:51
1330 0 0

1.3k 0 0

一、Spark补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K，V格式的RDD上。根据K进行连接，对（K，V）join（K，W）返回（K，（V，W））join后的分区数与父RDD分区数多的那一个相同。2、union合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并RDD分区数的总和...
spark
Spark---基于Yarn模式提交任务
Yarn模式两种提交任务方式一、yarn-client提交任务方式1、提交命令./spark-submit --master yarn--class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spark-submit --master yarn–client-...

前进的蜗牛
发表于2023-11-23 14:55:42
3574 0 0

3.5k 0 0

Yarn模式两种提交任务方式一、yarn-client提交任务方式1、提交命令./spark-submit --master yarn--class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spark-submit --master yarn–client-...
spark Yarn
Spark---基于Standalone模式提交任务
Standalone模式两种提交任务方式一、Standalone-client提交任务方式1、提交命令./spark-submit --master spark://mynode1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spar...

前进的蜗牛
发表于2023-11-22 12:13:00
1534 0 0

1.5k 0 0

Standalone模式两种提交任务方式一、Standalone-client提交任务方式1、提交命令./spark-submit --master spark://mynode1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spar...
spark 任务调度

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript