- Sqoop Import HDFS Sqoop Import HDFS
- 什么是Sqoop 什么是Sqoop
- Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对Hive的表操作进行深入讲解。 Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对Hive的表操作进行深入讲解。
- Hive在客户端上的安装部署 Hive在客户端上的安装部署
- 本次使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。 本次使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。
- ZooKeeper 提供了一系列 API编程接口,这些API接口非常简单,就像一个可提供强一致性保证的分布式小文件系统。 ZooKeeper 提供了一系列 API编程接口,这些API接口非常简单,就像一个可提供强一致性保证的分布式小文件系统。
- YARN 产生背景MapReduce存在的问题:1)JobTracker 单点故障。2)JobTracker 承受的访问压力大,影响系统的扩展性。3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink什么是YARNYARN 是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。 核心思想:将MR1中JobTracker的资源管理和作业调度两个功能分开... YARN 产生背景MapReduce存在的问题:1)JobTracker 单点故障。2)JobTracker 承受的访问压力大,影响系统的扩展性。3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink什么是YARNYARN 是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。 核心思想:将MR1中JobTracker的资源管理和作业调度两个功能分开...
- 一个较大的文件经压缩后,产生了另一个较小容量的文件。而这个较小容量的文件,我们就叫它是这些较大容量的(可能一个或一个以上的文件)的压缩文件。而压缩此文件的过程称为文件压缩。 一个较大的文件经压缩后,产生了另一个较小容量的文件。而这个较小容量的文件,我们就叫它是这些较大容量的(可能一个或一个以上的文件)的压缩文件。而压缩此文件的过程称为文件压缩。
- 通过项目强化掌握 Combiner 和 Partitioner 优化 Hadoop 性能 通过项目强化掌握 Combiner 和 Partitioner 优化 Hadoop 性能
- 文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。 文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。
- MapReduce应用场景MapReduce 定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce 来源Hadoop MapReduce 源于 Google 在2004年12月份发表的 MapReduce 论文。 Hadoop MapReduce ... MapReduce应用场景MapReduce 定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce 来源Hadoop MapReduce 源于 Google 在2004年12月份发表的 MapReduce 论文。 Hadoop MapReduce ...
- 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。
- 前面有讲如何上传单个本地文件到HDFS文件系统,那么当一个目录下包含很多个文件,我们该如何做呢?这时我们就需要用到文件模式。 所以,在项目开始之前,先来学习一下什么是文件模式?文件模式 在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了,我们可以使... 前面有讲如何上传单个本地文件到HDFS文件系统,那么当一个目录下包含很多个文件,我们该如何做呢?这时我们就需要用到文件模式。 所以,在项目开始之前,先来学习一下什么是文件模式?文件模式 在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了,我们可以使...
- HDFS设计的主要目的是对海量数据进行处理,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。 HDFS设计的主要目的是对海量数据进行处理,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。
- HDFS的HA机制 HDFS的HA机制
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签