spark_标签_开发者_华为云

博客(640)
视频(2)
论坛(0)
云声(0)
代码示例(0)

一文带你了解K8S 容器编排（下）
批处理任务编排初学者容易误以为容器的任务只在于部署行为－－将软件在容器中部署以提供持续的服务。但其实容器也同样大量的被应用于批处理程序的运行上。比如测试行为是典型的批处理任务范畴，它不提供持续稳定的服务，它只是一段特定的程序，而一但这段测试程序结束后就应该销毁一切，包括执行环境和所占用的资源，容器对比于传统的虚拟机的优势也在于除了容器更加的轻量级外，容器的创建和销毁都很方便，通过 K8...

ceshiren
发表于2022-04-02 14:51:45
1691 0 0

1.6k 0 0

批处理任务编排初学者容易误以为容器的任务只在于部署行为－－将软件在容器中部署以提供持续的服务。但其实容器也同样大量的被应用于批处理程序的运行上。比如测试行为是典型的批处理任务范畴，它不提供持续稳定的服务，它只是一段特定的程序，而一但这段测试程序结束后就应该销毁一切，包括执行环境和所占用的资源，容器对比于传统的虚拟机的优势也在于除了容器更加的轻量级外，容器的创建和销毁都很方便，通过 K8...
MapReduce spark
Spark SQL三种join
Spark SQL三种joinMysql 的 join怎么实现的?对于Spark来说有3中Join的实现，每种 Join对应着不同的应用场景:Broadcast Hash Join:适合一张较小的表和一张大表进行joinShuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join:适合两张较大的表之间进行 joinHa...

孙中明
发表于2022-02-23 08:29:26
2053 0 0

2.0k 0 0

Spark SQL三种joinMysql 的 join怎么实现的?对于Spark来说有3中Join的实现，每种 Join对应着不同的应用场景:Broadcast Hash Join:适合一张较小的表和一张大表进行joinShuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join:适合两张较大的表之间进行 joinHa...
spark
hadoop 和 spark 的相同点和不同点？
hadoop 和 spark 的相同点和不同点？Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 hdfs，造成大量的磁盘 io 读写操作，所以适合高时延环境下批处理计算的应用；Spark 是基于内存的分布式计算架构，提供更加丰富的数据集操作类型，主要分成转化操作和行动操作，包括 map、re...

孙中明
发表于2022-02-23 08:28:34
2963 0 0

2.9k 0 0

hadoop 和 spark 的相同点和不同点？Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 hdfs，造成大量的磁盘 io 读写操作，所以适合高时延环境下批处理计算的应用；Spark 是基于内存的分布式计算架构，提供更加丰富的数据集操作类型，主要分成转化操作和行动操作，包括 map、re...
MapReduce spark
RDD有哪些特点
RDD有哪些特点顾名思义，从字面理解RDD就是 Resillient Distributed Dataset，即弹性分布式数据集。它是Spark提供的核心抽象。RDD在抽象上来讲是一种抽象的分布式的数据集。它是被分区的，每个分区分布在集群中的不同的节点上。从而可以让数据进行并行的计算rdd 分布式弹性数据集，简单的理解成一种数据结构，是 spark 框架上的通用货币。所有算子都是基于 rd...

孙中明
发表于2022-02-23 08:27:09
2133 0 0

2.1k 0 0

RDD有哪些特点顾名思义，从字面理解RDD就是 Resillient Distributed Dataset，即弹性分布式数据集。它是Spark提供的核心抽象。RDD在抽象上来讲是一种抽象的分布式的数据集。它是被分区的，每个分区分布在集群中的不同的节点上。从而可以让数据进行并行的计算rdd 分布式弹性数据集，简单的理解成一种数据结构，是 spark 框架上的通用货币。所有算子都是基于 rd...
Hadoop spark
Spark中的算子都有哪些
Spark中的算子都有哪些总的来说,spark分为三大类算子:Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理； Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算Action 行动算子：这类算子会触发 SparkContex...

孙中明
发表于2022-02-23 08:26:16
1978 0 0

1.9k 0 0

Spark中的算子都有哪些总的来说,spark分为三大类算子:Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理； Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算Action 行动算子：这类算子会触发 SparkContex...
spark
一天学完spark的Scala基础语法教程六、字符串(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala 字...

红目香薰
发表于2022-01-27 16:09:34
3372 0 0

3.3k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala 字...
IDE Scala spark
一天学完spark的Scala基础语法教程五、闭包(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala 闭包...

红目香薰
发表于2022-01-27 16:08:57
3550 0 0

3.5k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala 闭包...
IDE Scala spark
一天学完spark的Scala基础语法教程教程三、循环结构(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala 循...

红目香薰
发表于2022-01-27 16:07:49
3289 0 0

3.2k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala 循...
IDE Scala spark
【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK
JavaPairRDD的context方法讲解官方文档/** * Approximate version of count() that returns a potentially incomplete result * within a timeout, even if not all tasks have finished. * * The confidence is...

Copy工程师
发表于2022-01-24 15:38:32
8201 0 0

8.2k 0 0

JavaPairRDD的context方法讲解官方文档/** * Approximate version of count() that returns a potentially incomplete result * within a timeout, even if not all tasks have finished. * * The confidence is...
EI企业智能 spark 可信智能计算服务 TICS 智能数据
【SparkAPI】flatMap、flatMapToDouble、flatMapToPair、flatMapValues
JavaPairRDD的flatMap方法讲解官方文档/** * Return a new RDD by first applying a function to all elements of this * RDD, and then flattening the results. */ 说明首先将一个函数应用于该函数的所有元素，从而返回一个新的RDD然后将结果展平。 ...

Copy工程师
发表于2022-01-24 15:36:27
5146 0 0

5.1k 0 0

JavaPairRDD的flatMap方法讲解官方文档/** * Return a new RDD by first applying a function to all elements of this * RDD, and then flattening the results. */ 说明首先将一个函数应用于该函数的所有元素，从而返回一个新的RDD然后将结果展平。 ...
EI企业智能 spark 可信智能计算服务 TICS 智能数据
spark SQL配置连接Hive Metastore 3.1.2
Hive Metastore作为元数据管理中心，支持多种计算引擎的读取操作，例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metastore，并以3.1.2版本为例。通过Spark连接Hive Metastore，需要准备如下文件：hive-site.xmlapache-hive-3.1.2-binspark-3.0.3-bin-hadoop3....

从大数据到人工智能
发表于2022-01-15 20:11:26
3185 0 0

3.1k 0 0

Hive Metastore作为元数据管理中心，支持多种计算引擎的读取操作，例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metastore，并以3.1.2版本为例。通过Spark连接Hive Metastore，需要准备如下文件：hive-site.xmlapache-hive-3.1.2-binspark-3.0.3-bin-hadoop3....
Hive spark SQL
Hudi 常见问题归档
· mor表upsert，第一次纯新增数据第二次纯更新数据，两次消费速率基本一致。用例设计有问题，数据量过小体现不出差异，正常mor表在跟新时速度快于cow表。· 控制spark streaming每次消费数据量设置参数conf.set("spark.streaming.kafka.maxRatePerPartition",maxRatePerPartition);c...

小兔子615
发表于2021-12-31 17:13:04
9400 0 0

9.4k 0 0

· mor表upsert，第一次纯新增数据第二次纯更新数据，两次消费速率基本一致。用例设计有问题，数据量过小体现不出差异，正常mor表在跟新时速度快于cow表。· 控制spark streaming每次消费数据量设置参数conf.set("spark.streaming.kafka.maxRatePerPartition",maxRatePerPartition);c...
EI企业智能 FusionInsight spark SQL
我们一起来了解大数据和其生态圈的软件工具
大数据（BigData）的特点数据量大，数据类型复杂，数据处理快，数据真实性高。大数据的生态软件工具包含：Hadoop，Spark，MapReduce，HDFS，Hive，HBase，Zookeeper，Flume，Kafka，Yarn，Storm，Oozie，Pig，Mahout等。

zekelove
发表于2021-12-19 11:44:30
3681 0 1

3.6k 0 1

大数据（BigData）的特点数据量大，数据类型复杂，数据处理快，数据真实性高。大数据的生态软件工具包含：Hadoop，Spark，MapReduce，HDFS，Hive，HBase，Zookeeper，Flume，Kafka，Yarn，Storm，Oozie，Pig，Mahout等。
Hadoop MapReduce spark 分布式大数据
SparkNLP简单样例(MRS-online)
一个基于pySpark的简单nlp样例

剑指南天
发表于2021-09-11 15:54:25
9410 0 0

9.4k 0 0

一个基于pySpark的简单nlp样例
EI企业智能 MapReduce服务 MRS spark
sparkSQL可以指定分区字段为varchar类型吗
首先我们可以查到，Hive从0.12.0版本就支持varchar类型作为列的类型了，但是sparkSQL可以指定分区字段为varchar类型吗？我们可以先实验一下。首先我们尝试创建一个分区字段为varchar类型的表，执行语句如下：CREATE TABLE test0901222(LIST_RES_ID STRING, age Int) PARTITIONED BY (DATA_DA...

留在夏天的海洋
发表于2021-09-01 11:46:03
3573 0 0

3.5k 0 0

首先我们可以查到，Hive从0.12.0版本就支持varchar类型作为列的类型了，但是sparkSQL可以指定分区字段为varchar类型吗？我们可以先实验一下。首先我们尝试创建一个分区字段为varchar类型的表，执行语句如下：CREATE TABLE test0901222(LIST_RES_ID STRING, age Int) PARTITIONED BY (DATA_DA...
spark

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript