spark_标签_开发者_华为云

博客(660)
视频(2)
论坛(0)
云声(0)
代码示例(0)

spark简介及其架构
Spark是一个通用的并行计算框架，由加州伯克利大学的AMP于2009开发，并于2010年进行开源，后续发展为大数据领域的最活跃的开源项目之一。Spark在各大场景中扮演着重要的角色，比如能够进行复杂的批数据处理，基于实时数据流的数据处理和历史数据的交互式查询。在实时大数据应用的场景下，相比于Hadoop的高吞吐，低响应的特点，spark通过内存计算能力极大提高了大数据处理速度，对实...

cwk
发表于2020-06-24 20:44:33
5831 0 1

5.8k 0 1

Spark是一个通用的并行计算框架，由加州伯克利大学的AMP于2009开发，并于2010年进行开源，后续发展为大数据领域的最活跃的开源项目之一。Spark在各大场景中扮演着重要的角色，比如能够进行复杂的批数据处理，基于实时数据流的数据处理和历史数据的交互式查询。在实时大数据应用的场景下，相比于Hadoop的高吞吐，低响应的特点，spark通过内存计算能力极大提高了大数据处理速度，对实...
spark SQL
Spark shuffle介绍：概述
在基于mapreduce思想的计算模型里，Shuffle是map和reduce的纽带。计算框架对大数据分而治之，对处理数据进行分块并行处理，当需要对分块数据做聚合处理时，多个分块的数据在map阶段转为k-v结构，然后按key分区，在reduce阶段对各自分区的数据进行计算归并。map和reduce中间对数据做分区并规整的过程，就是shuffle的过程。在spark中，对shuffle也从RD...

小玩一会
发表于2020-06-18 21:49:41
8574 1 0

8.5k 1 0

在基于mapreduce思想的计算模型里，Shuffle是map和reduce的纽带。计算框架对大数据分而治之，对处理数据进行分块并行处理，当需要对分块数据做聚合处理时，多个分块的数据在map阶段转为k-v结构，然后按key分区，在reduce阶段对各自分区的数据进行计算归并。map和reduce中间对数据做分区并规整的过程，就是shuffle的过程。在spark中，对shuffle也从RD...
spark
数据湖应用解析：Spark on Elasticsearch一致性问题
脏数据对数据计算的正确性带来了很严重的影响。因此，我们需要探索一种方法，能够实现Spark写入Elasticsearch数据的可靠性与正确性。

Wei~~~
发表于2020-06-14 19:29:22
12611 1 4

12.6k 1 4

脏数据对数据计算的正确性带来了很严重的影响。因此，我们需要探索一种方法，能够实现Spark写入Elasticsearch数据的可靠性与正确性。
spark Elasticsearch 数据湖探索 DLI
Spark SQL运行流程解析
Spark SQL是Spark系统的核心组件，为来自不同数据源、不同格式的数据提供了结构化的视角，让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力，并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程，以及过程中的各个重要组成部分。Spark SQL是什么在Spark中，Spark SQL并不仅仅是狭隘的SQL...

wzhfy
发表于2020-06-01 10:32:00
10127 0 1

10.1k 0 1

Spark SQL是Spark系统的核心组件，为来自不同数据源、不同格式的数据提供了结构化的视角，让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力，并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程，以及过程中的各个重要组成部分。Spark SQL是什么在Spark中，Spark SQL并不仅仅是狭隘的SQL...
spark SQL 大数据数据湖探索 DLI
使用async-profiler工具分析spark executor性能
Async-profiler可以观测运行程序中每一段代码所占用的cpu的时间和比例,从而可以分析并找到项目中占用cpu时间最长的代码片段，优化热点代码，达到优化内存的效果。它具有特定于HotSpot的API，以收集堆栈跟踪并跟踪内存分配，探查器可与基于HotSpot JVM的OpenJDK，Oracle JDK和其他Java运行时一起使用。

养猪技术专家
发表于2020-05-19 17:40:36
12989 1 2

12.9k 1 2

Async-profiler可以观测运行程序中每一段代码所占用的cpu的时间和比例,从而可以分析并找到项目中占用cpu时间最长的代码片段，优化热点代码，达到优化内存的效果。它具有特定于HotSpot的API，以收集堆栈跟踪并跟踪内存分配，探查器可与基于HotSpot JVM的OpenJDK，Oracle JDK和其他Java运行时一起使用。
async spark
spark如何与华为云云容器引擎cce集成
本文介绍了如何创建cce、安装spark，并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务

zhongjun2
发表于2019-05-06 17:20:31
10903 3 3

10.9k 3 3

本文介绍了如何创建cce、安装spark，并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务
spark 云容器引擎 CCE Spark cce
SparkStreaming介绍
spark streaming 是在spark core基础上的一个高吞吐、高容错的无状态的微批处理框架，其是基于批量数据的处理。本文的设定是你对spark运行机制和rdd (the resilient distributed dataset)编程有一定的了解。

米兰的小铁匠
发表于2020-06-16 10:46:38
8292 0 0

8.2k 0 0

spark streaming 是在spark core基础上的一个高吞吐、高容错的无状态的微批处理框架，其是基于批量数据的处理。本文的设定是你对spark运行机制和rdd (the resilient distributed dataset)编程有一定的了解。
MapReduce spark
一天学完spark的Scala基础语法教程十、类和对象(idea版本)
📋前言📋 💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝 ✍本文由在下【红目香薰】原创，首发于CSDN✍ 🤗2022年最大愿望：【服务百万技术人次】🤗 💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝 环境需求环境：win...

红目香薰
发表于2022-02-01 00:09:09
3744 0 0

3.7k 0 0

📋前言📋 💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝 ✍本文由在下【红目香薰】原创，首发于CSDN✍ 🤗2022年最大愿望：【服务百万技术人次】🤗 💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝 环境需求环境：win...
IDE Scala spark
Moonbox计算服务平台架构功能与应用场景
导读：业务系统或者日志系统产生了大量的原始数据，我们根据业务场景需求将数据保存到不同的存储中。然而，数据只有通过整合、加工、计算，才能提取出其潜在的信息，让数据变为资产，从而实现数据的价值。Moonbox就是这样一款计算服务平台，在敏捷大数据（Agile BigData）理论的指导下，围绕“计算服务化”和“数据虚拟化”两个核心概念进行设计，支持多种数据源混合计算。Moonbox的设计理念是怎...

且听风吟
发表于2019-09-05 11:00:04
4800 0 0

4.8k 0 0

导读：业务系统或者日志系统产生了大量的原始数据，我们根据业务场景需求将数据保存到不同的存储中。然而，数据只有通过整合、加工、计算，才能提取出其潜在的信息，让数据变为资产，从而实现数据的价值。Moonbox就是这样一款计算服务平台，在敏捷大数据（Agile BigData）理论的指导下，围绕“计算服务化”和“数据虚拟化”两个核心概念进行设计，支持多种数据源混合计算。Moonbox的设计理念是怎...
spark SQL
《Spark机器学习进阶实战》——3.4.2　准备数据
本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.2节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-06-01 22:32:58
6007 0 0

6.0k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.2节，作者是马海平、于俊、吕昕、向海。
spark 机器学习
《Spark机器学习进阶实战》——3.4　App数据的分类实现
本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.1节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-06-01 22:30:17
7248 0 0

7.2k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.1节，作者是马海平、于俊、吕昕、向海。
spark 移动APP 机器学习
《Spark机器学习进阶实战》——1.4　机器学习综合应用
本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.4.1节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-05-31 12:55:38
8966 0 0

8.9k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.4.1节，作者是马海平、于俊、吕昕、向海。
机器学习 spark
如何在 Kubernetes 上部署 Spark
在 Kubernetes 集群中部署 Apache Spark，需要你具备对 Kubernetes 的工作原理、Spark 的架构以及云原生应用的理解。前期准备工作在进行 Spark 的部署之前，需要对你的 Kubernetes 环境做好充分的准备。这包括 Kubernetes 集群的搭建以及基础工具的安装，比如 kubectl 和 Helm 等。这些步骤对于成功部署 Spark 至关重要...

汪子熙
发表于2025-01-02 13:18:20
2819 0 0

2.8k 0 0

在 Kubernetes 集群中部署 Apache Spark，需要你具备对 Kubernetes 的工作原理、Spark 的架构以及云原生应用的理解。前期准备工作在进行 Spark 的部署之前，需要对你的 Kubernetes 环境做好充分的准备。这包括 Kubernetes 集群的搭建以及基础工具的安装，比如 kubectl 和 Helm 等。这些步骤对于成功部署 Spark 至关重要...
Kubernetes spark
《探索 Apache Spark MLlib 与 Java 结合的卓越之道》
本文探讨了Apache Spark MLlib与Java结合的最佳实践，涵盖基础认知、数据预处理、模型选择与构建、训练调优及部署应用。Spark以其分布式计算能力著称，MLlib提供丰富的机器学习算法，Java则拥有成熟生态。两者结合可高效处理大规模数据集，构建灵活的机器学习应用。通过RDD和DataFrame API进行数据操作，利用特征工程工具优化数据，选择合适的分类、回归或聚类模型。

程序员阿伟
发表于2024-12-22 23:00:33
922 0 0

922 0 0

本文探讨了Apache Spark MLlib与Java结合的最佳实践，涵盖基础认知、数据预处理、模型选择与构建、训练调优及部署应用。Spark以其分布式计算能力著称，MLlib提供丰富的机器学习算法，Java则拥有成熟生态。两者结合可高效处理大规模数据集，构建灵活的机器学习应用。通过RDD和DataFrame API进行数据操作，利用特征工程工具优化数据，选择合适的分类、回归或聚类模型。
Apache Java spark 机器学习
大数据分析与挖掘环境配置（Hadoop、Java、SSH免密互连）
Windows下，大数据分析与挖掘环境配置（实现Hadoop、Java、SSH免密互连、Scala、Spark、Python3.7）

冬月初四
发表于2024-12-04 17:50:34
4567 0 0

4.5k 0 0

Windows下，大数据分析与挖掘环境配置（实现Hadoop、Java、SSH免密互连、Scala、Spark、Python3.7）
Hadoop Java spark 大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript