- Spark Executor 内存分配原理与调优 介绍Apache Spark 是一个用于大数据处理的集群计算框架,具备快速、通用和可扩展的特点。Executor 是 Spark Job 在工作节点上实际执行任务的进程,负责运行 Task 并存储阶段中间结果。合理配置和调优 Executor 的内存参数至关重要,以便高效利用资源并优化性能。 应用使用场景大规模数据分析:Spark 被广泛应... Spark Executor 内存分配原理与调优 介绍Apache Spark 是一个用于大数据处理的集群计算框架,具备快速、通用和可扩展的特点。Executor 是 Spark Job 在工作节点上实际执行任务的进程,负责运行 Task 并存储阶段中间结果。合理配置和调优 Executor 的内存参数至关重要,以便高效利用资源并优化性能。 应用使用场景大规模数据分析:Spark 被广泛应...
- 从Excel到Hadoop:数据规模的进化之路 从Excel到Hadoop:数据规模的进化之路
- 使用原生Python编写Hadoop MapReduce程序在大数据处理领域,Hadoop MapReduce是一个广泛使用的框架,用于处理和生成大规模数据集。它通过将任务分解成多个小任务(映射和归约),并行地运行在集群上,从而实现高效的数据处理。尽管Hadoop主要支持Java编程语言,但通过Hadoop Streaming功能,我们可以使用其他语言如Python来编写MapReduce程... 使用原生Python编写Hadoop MapReduce程序在大数据处理领域,Hadoop MapReduce是一个广泛使用的框架,用于处理和生成大规模数据集。它通过将任务分解成多个小任务(映射和归约),并行地运行在集群上,从而实现高效的数据处理。尽管Hadoop主要支持Java编程语言,但通过Hadoop Streaming功能,我们可以使用其他语言如Python来编写MapReduce程...
- 搭建单机hive环境本文假设搭建的路径在**/opt/sh**路径,并已经下载hive安装包及hadoop安装包https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzhttps://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.... 搭建单机hive环境本文假设搭建的路径在**/opt/sh**路径,并已经下载hive安装包及hadoop安装包https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzhttps://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3....
- 本篇文章《大数据基础学习五:Hadoop 实验——熟悉常用的 HDFS 操作》是完全针对HDFS文件系统的,目的即理解 HDFS 在 Hadoop 体系结构中的角色,熟练使用 HDFS 操作常用的 Shell 命令,熟悉 HDFS 操作常用的 Java API。大数据系列文章请移步本人大数据专栏查看。 本篇文章《大数据基础学习五:Hadoop 实验——熟悉常用的 HDFS 操作》是完全针对HDFS文件系统的,目的即理解 HDFS 在 Hadoop 体系结构中的角色,熟练使用 HDFS 操作常用的 Shell 命令,熟悉 HDFS 操作常用的 Java API。大数据系列文章请移步本人大数据专栏查看。
- MapReduce是Hadoop平台的基础组件之一,它是一个分布式的计算框架,用于大数据的离线计算,和HDFS、YARN搭配使用。MapReduce主要分为切片File、Map 、shuffle和Reduce四个阶段,数据导入——首先是将数据上传到HDFS上进行切片(一般默认分片是64M)、存储Map阶段——然后会由YARN进行资源的协调与分配,启动job,进行分片操作,一般默认HDFS的一... MapReduce是Hadoop平台的基础组件之一,它是一个分布式的计算框架,用于大数据的离线计算,和HDFS、YARN搭配使用。MapReduce主要分为切片File、Map 、shuffle和Reduce四个阶段,数据导入——首先是将数据上传到HDFS上进行切片(一般默认分片是64M)、存储Map阶段——然后会由YARN进行资源的协调与分配,启动job,进行分片操作,一般默认HDFS的一...
- 一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大)二、负责存储数据的工具:HBaseMongoDBCassandraAccumuloMySqlOracleDB2HDFS(Hadoop Distribut File System)2.0三、底层组件Apache Common(通用模块)、A... 一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大)二、负责存储数据的工具:HBaseMongoDBCassandraAccumuloMySqlOracleDB2HDFS(Hadoop Distribut File System)2.0三、底层组件Apache Common(通用模块)、A...
- 论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来,社交媒体已经成为... 论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来,社交媒体已经成为...
- 什么是Hadoop?Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/va... 什么是Hadoop?Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/va...
- 学习hadoop,必不可少的就是编写 MapReduce 程序。当然,对于简单的分析程序,我们只需一个MapReduce任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。 学习hadoop,必不可少的就是编写 MapReduce 程序。当然,对于简单的分析程序,我们只需一个MapReduce任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。
- 创建RDD 创建RDD
- Apache Spark™ is a fast and general engine for large-scale data processing. Apache Spark™ is a fast and general engine for large-scale data processing.
- Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。
- Flume NG部署 Flume NG部署
- Sqoop Export 应用场景 Sqoop Export 应用场景
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签