spark_标签_开发者_华为云

博客(660)
视频(2)
论坛(0)
云声(0)
代码示例(0)

分布式spark安装
主要是搭建分布式实时计算系统spark。Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Hhxm416
发表于2021-03-19 20:11:57
7820 0 1

7.8k 0 1

主要是搭建分布式实时计算系统spark。Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
spark 分布式
spark 学习笔记(部署过程等)
1.准备环境2.安装JDK3.上传spark安装包4.解压spark并修改配置文件（两个配置文件，第一个配置文件添加了3个配置文件）5.将配置好的spark安装程序拷贝给其他机器for i in {5..8}; do scp -r /bigdata/spark-2.2.0-bin-hadoop2.7/ node-$i:/bigdata; done 6.启动spark (sbin/start-...

菜鸟级攻城狮
发表于2021-03-14 15:40:59
4079 0 1

4.0k 0 1

1.准备环境2.安装JDK3.上传spark安装包4.解压spark并修改配置文件（两个配置文件，第一个配置文件添加了3个配置文件）5.将配置好的spark安装程序拷贝给其他机器for i in {5..8}; do scp -r /bigdata/spark-2.2.0-bin-hadoop2.7/ node-$i:/bigdata; done 6.启动spark (sbin/start-...
spark
spark入门
1. Spark概述1.1. 什么是Spark（官网：http://spark.apache.org） Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spa...

菜鸟级攻城狮
发表于2021-03-14 15:26:28
4650 0 0

4.6k 0 0

1. Spark概述1.1. 什么是Spark（官网：http://spark.apache.org） Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spa...
Hadoop spark
Spark on YARN 常见问题总结
一些常见的Spark on YARN的bug

William Wang
发表于2020-02-29 17:26:39
9534 0 0

9.5k 0 0

一些常见的Spark on YARN的bug
spark
《Spark机器学习进阶实战》——1.2.2　深度学习
本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.2.2节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-05-30 23:46:33
5109 0 0

5.1k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.2.2节，作者是马海平、于俊、吕昕、向海。
spark 深度学习机器学习
spark-submit 参数设置
在使用spark时，根据集群资源情况和任务数据量等，合理设置参数，包括但不限于以下：参数说明masteryarn  E-MapReduce 使用 Yarn 的模式yarn-client：等同于 –-master yarn —deploy-mode client，此时不需要指定deploy-mode。 yarn-cluster：等同于 –-master...

不吃西红柿
发表于2021-07-15 02:11:45
8848 0 0

8.8k 0 0

在使用spark时，根据集群资源情况和任务数据量等，合理设置参数，包括但不限于以下：参数说明masteryarn  E-MapReduce 使用 Yarn 的模式yarn-client：等同于 –-master yarn —deploy-mode client，此时不需要指定deploy-mode。 yarn-cluster：等同于 –-master...
spark Yarn
SPARK ML 出租车数据分析
通过分析出租车数据，然后使用KMeans对经纬度进行聚类，然后按照（类别，时间）进行分类，再统计每个类别每个时段的次数。数据格式以及意义：111,30.655325,104.072573,173749111,30.655346,104.072363,173828111,30.655377,104.120252,124057111,30.655439,104.088812,142016列一：出...

yk02901
发表于2021-05-15 12:05:55
8930 0 0

8.9k 0 0

通过分析出租车数据，然后使用KMeans对经纬度进行聚类，然后按照（类别，时间）进行分类，再统计每个类别每个时段的次数。数据格式以及意义：111,30.655325,104.072573,173749111,30.655346,104.072363,173828111,30.655377,104.120252,124057111,30.655439,104.088812,142016列一：出...
spark 数据挖掘
Spark Shell
Spark shell操作Spark通过RDD算子进行的部分shell操作val mytxt1 = sc.textFile("file:///root/sp")val mytxt2 = mytxt.flatMap(item => item.split(" "))val mytxt3 = mytxt2.map(item => (item,1))val mytxt4 = mytxt3.reduc...

sm15722473365
发表于2020-10-29 19:00:52
4433 1 1

4.4k 1 1

Spark shell操作Spark通过RDD算子进行的部分shell操作val mytxt1 = sc.textFile("file:///root/sp")val mytxt2 = mytxt.flatMap(item => item.split(" "))val mytxt3 = mytxt2.map(item => (item,1))val mytxt4 = mytxt3.reduc...
Shell spark
《Spark Streaming实时流式大数据处理实战》 ——3.9 本章小结
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.9节，作者是肖力涛　。

华章计算机
发表于2020-02-22 18:42:25
3762 0 0

3.7k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.9节，作者是肖力涛　。
spark 大数据
《Spark Streaming实时流式大数据处理实战》 ——3.8 实例——Spark RDD操作
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.8节，作者是肖力涛　。

华章计算机
发表于2020-02-22 18:39:54
6956 0 0

6.9k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.8节，作者是肖力涛　。
spark 大数据 Spark 大数据
《Spark Streaming实时流式大数据处理实战》 ——3.7.2 广播变量（Broadcast Variables）
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.7.2节，作者是肖力涛　。

华章计算机
发表于2020-02-22 18:35:48
4586 0 0

4.5k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.7.2节，作者是肖力涛　。
spark 大数据
《Spark Streaming实时流式大数据处理实战》 ——3.7 共享变量
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.7.1节，作者是肖力涛　。

华章计算机
发表于2020-02-22 18:33:22
6846 0 0

6.8k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.7.1节，作者是肖力涛　。
spark 大数据 Spark 大数据
《Spark Streaming实时流式大数据处理实战》 ——3.6 RDD持久化（Cachinng/Persistence
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.6节，作者是肖力涛　。

华章计算机
发表于2020-02-22 18:16:42
6662 0 0

6.6k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.6节，作者是肖力涛　。
spark 大数据 Spark 大数据
《Spark Streaming实时流式大数据处理实战》 ——3.5 从RDD看集群调度
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.5节，作者是肖力涛　。

华章计算机
发表于2020-02-22 17:33:54
6582 0 0

6.5k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.5节，作者是肖力涛　。
spark 大数据 Spark 大数据
《Spark Streaming实时流式大数据处理实战》 ——3.4.2 Shuffle依赖（宽依赖Wide Depende
本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.4.2节，作者是肖力涛　。

华章计算机
发表于2020-02-22 17:28:57
6540 0 0

6.5k 0 0

本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.4.2节，作者是肖力涛　。
spark 大数据 Spark 大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript