- 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第1章,第1.1.1节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第1章,第1.1.1节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。
- 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。
- 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.1节,作者是朱凯。 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.1节,作者是朱凯。
- 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.3.2节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.3.2节,作者是马海平、于俊、吕昕、向海。
- Spark安装教程 Spark安装教程
- Scala产生于瑞士的洛桑联邦理工学院(EPEL),是“可扩展语言”(Scalable Language)的缩写,Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。利用Scala可以编写出更加精简的程序,也能用于构建大型复杂系统,还可以访问任何Java类库并且与Java框架进行交互。 运行在JVM和JavaScript之上: ... Scala产生于瑞士的洛桑联邦理工学院(EPEL),是“可扩展语言”(Scalable Language)的缩写,Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。利用Scala可以编写出更加精简的程序,也能用于构建大型复杂系统,还可以访问任何Java类库并且与Java框架进行交互。 运行在JVM和JavaScript之上: ...
- 四、DataFrame存储+Spark UDF函数1、储存DataFrame1)、将DataFrame存储为parquet文件2)、将DataFrame存储到JDBC数据库3)、将DataFrame存储到Hive表2、UDF:用户自定义函数可以自定义类实现UDFX接口java:SparkConf conf = new SparkConf();conf.setMaster("local")... 四、DataFrame存储+Spark UDF函数1、储存DataFrame1)、将DataFrame存储为parquet文件2)、将DataFrame存储到JDBC数据库3)、将DataFrame存储到Hive表2、UDF:用户自定义函数可以自定义类实现UDFX接口java:SparkConf conf = new SparkConf();conf.setMaster("local")...
- 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t... 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...
- 一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive... 一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive...
- 五、Spark Shuffle文件寻址1、Shuffle文件寻址1)、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象,存在于Driver中。MapOutputTrackerWorker是从对象,存在于Excutor中。2)、BlockManagerBl... 五、Spark Shuffle文件寻址1、Shuffle文件寻址1)、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象,存在于Driver中。MapOutputTrackerWorker是从对象,存在于Excutor中。2)、BlockManagerBl...
- 三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master的高可用可以使用fileSystem(文件系统)和zookeeper(分布式协调服务)。fileSystem只有存储功能,可以存储Master的元数据信息,用fileSystem搭建的Master... 三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master的高可用可以使用fileSystem(文件系统)和zookeeper(分布式协调服务)。fileSystem只有存储功能,可以存储Master的元数据信息,用fileSystem搭建的Master...
- 一、Spark广播变量和累加器1、广播变量1)、广播变量理解图2)、广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val broadCast = sc.broadcast(list)val lineRDD = sc.t... 一、Spark广播变量和累加器1、广播变量1)、广播变量理解图2)、广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val broadCast = sc.broadcast(list)val lineRDD = sc.t...
- 一、Spark Master启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后,首先调用$SPARK_HOME/sbin/start-all.sh,start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本,在start-master.sh脚本中可以看到启动Master角色的主类:“org.apache... 一、Spark Master启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后,首先调用$SPARK_HOME/sbin/start-all.sh,start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本,在start-master.sh脚本中可以看到启动Master角色的主类:“org.apache...
- 四、补充算子1、transformations 类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)coalescecoalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle... 四、补充算子1、transformations 类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)coalescecoalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle...
- 一、Spark补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))join后的分区数与父RDD分区数多的那一个相同。2、union合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并RDD分区数的总和... 一、Spark补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))join后的分区数与父RDD分区数多的那一个相同。2、union合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并RDD分区数的总和...
上滑加载中
推荐直播
-
香橙派AIpro的远程推理框架与实验案例
2025/07/04 周五 19:00-20:00
郝家胜 -华为开发者布道师-高校教师
AiR推理框架创新采用将模型推理与模型应用相分离的机制,把香橙派封装为AI推理黑盒服务,构建了分布式远程推理框架,并提供多种输入模态、多种输出方式以及多线程支持的高度复用框架,解决了开发板环境配置复杂上手困难、缺乏可视化体验和资源稀缺课程受限等痛点问题,真正做到开箱即用,并支持多种笔记本电脑环境、多种不同编程语言,10行代码即可体验图像分割迁移案例。
回顾中 -
鸿蒙端云一体化应用开发
2025/07/10 周四 19:00-20:00
倪红军 华为开发者布道师-高校教师
基于鸿蒙平台终端设备的应用场景越来越多、使用范围越来越广。本课程以云数据库服务为例,介绍云侧项目应用的创建、新建对象类型、新增存储区及向对象类型中添加数据对象的方法,端侧(HarmonyOS平台)一体化工程项目的创建、云数据资源的关联方法及对云侧数据的增删改查等操作方法,为开发端云一体化应用打下坚实基础。
即将直播
热门标签