- hadoop1.0 Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统... hadoop1.0 Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统...
- NameNode的职责 序号职责1负责客户端请求的响应2元数据的管理(查询,修改) 数据存储的形式 NameNode中的元数据信息以三种形式存储,如下 序号方式说明1内存元数据(NameSyst... NameNode的职责 序号职责1负责客户端请求的响应2元数据的管理(查询,修改) 数据存储的形式 NameNode中的元数据信息以三种形式存储,如下 序号方式说明1内存元数据(NameSyst...
- 本文是基于hadoop2.6.5的源码分析。 客户端源码分析 启动的客户端代码 public static void main(String[] args) throws Exception {... 本文是基于hadoop2.6.5的源码分析。 客户端源码分析 启动的客户端代码 public static void main(String[] args) throws Exception {...
- 文章目录 零、本讲学习目标一、RDD算子二、准备工作1、准备本地系统文件2、准备HDFS系统文件 (二)启动Spark Shell1、启动HDFS服务2、启动Spark服务3、启动Spark... 文章目录 零、本讲学习目标一、RDD算子二、准备工作1、准备本地系统文件2、准备HDFS系统文件 (二)启动Spark Shell1、启动HDFS服务2、启动Spark服务3、启动Spark...
- 文章目录 零、本讲学习目标一、RDD为何物(一)RDD概念(二)RDD示例(三)RDD主要特征 二、做好准备工作(一)准备文件1、准备本地系统文件2、准备HDFS系统文件 (二)启动Sp... 文章目录 零、本讲学习目标一、RDD为何物(一)RDD概念(二)RDD示例(三)RDD主要特征 二、做好准备工作(一)准备文件1、准备本地系统文件2、准备HDFS系统文件 (二)启动Sp...
- 文章目录 零、本讲学习目标一、认识Spark(一)Spark简介(二)Spark官网(三)Spark发展历史(四)Spark的特点1、快速2、易用性3、通用性4、随处运行5、代码简洁(1)采用Ma... 文章目录 零、本讲学习目标一、认识Spark(一)Spark简介(二)Spark官网(三)Spark发展历史(四)Spark的特点1、快速2、易用性3、通用性4、随处运行5、代码简洁(1)采用Ma...
- 目录 Kudu入门介绍 一、背景介绍 二、新的硬件设备 三、Kudu是什么 四、Kudu的应用场景 五、Kudu架构 Kudu入门介绍 一、背景介绍 在Kudu之前,大数据主要以两种方式存储; 静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析... 目录 Kudu入门介绍 一、背景介绍 二、新的硬件设备 三、Kudu是什么 四、Kudu的应用场景 五、Kudu架构 Kudu入门介绍 一、背景介绍 在Kudu之前,大数据主要以两种方式存储; 静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析...
- 大家好,我是一条~ 5小时推开Spark的大门,正式开始,第一个小时,我们主要学习以下内容: 什么是Spark?Spark和Hadoop什么关系?Spark有什么优点?Spark适合做什么?Spark... 大家好,我是一条~ 5小时推开Spark的大门,正式开始,第一个小时,我们主要学习以下内容: 什么是Spark?Spark和Hadoop什么关系?Spark有什么优点?Spark适合做什么?Spark...
- 摘 要 大数据技术随着互联网的发展及信息量爆炸增长的趋势应运而生。 面对异常庞 大的数据,多种分布式文件系统为大数据的存储提供了解决方案。 其中 Hadoop 由于 自身高扩展性、高可靠性等优点被业... 摘 要 大数据技术随着互联网的发展及信息量爆炸增长的趋势应运而生。 面对异常庞 大的数据,多种分布式文件系统为大数据的存储提供了解决方案。 其中 Hadoop 由于 自身高扩展性、高可靠性等优点被业...
- 第5章DML数据操作 5.1 数据导入—— 重要 5.1.1 向表中装载数据(Load)—— 关键 1.语法 hive> load data [local] inpath '/opt/mod... 第5章DML数据操作 5.1 数据导入—— 重要 5.1.1 向表中装载数据(Load)—— 关键 1.语法 hive> load data [local] inpath '/opt/mod...
- 文章目录 Hadoop hadoop的常用配置文件有哪些 启动hadoop集群会分别启动哪些进程,各自的作用 简述java序列化和 hadoop自... 文章目录 Hadoop hadoop的常用配置文件有哪些 启动hadoop集群会分别启动哪些进程,各自的作用 简述java序列化和 hadoop自...
- 忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : -- 主干分支 : 新功能都是在 主干分支(trunk)上开发; -- 特性独有分支 : 很多新特性稳定性很差, ... 忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : -- 主干分支 : 新功能都是在 主干分支(trunk)上开发; -- 特性独有分支 : 很多新特性稳定性很差, ...
- 在学习过了HDFS架构和Hadoop的配置管理后,现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。 MapReduce是一个易于编写程序的软件框架,这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上(数以千计的节点),处理超大数量的数据(超过TB的数据集)。一个MapReduc... 在学习过了HDFS架构和Hadoop的配置管理后,现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。 MapReduce是一个易于编写程序的软件框架,这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上(数以千计的节点),处理超大数量的数据(超过TB的数据集)。一个MapReduc...
- 倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。 表1: 单词 文档列表 单词1 文档1 文档2 文档3 单词2 ... 倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。 表1: 单词 文档列表 单词1 文档1 文档2 文档3 单词2 ...
- 求海量数据中最大的K个记录 来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。 数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents ... 求海量数据中最大的K个记录 来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。 数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents ...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢
2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
【仓颉社区】第36期WORKSHOP
2025/09/02 周二 15:05-16:00
华为讲师团
本期仓颉编程语言社区技术沙龙即将开启,我们特邀三位资深专家,为大家带来硬核技术分享与实践经验解析!无论你是仓颉语言的初学者,还是资深开发者,本次直播都将为你带来新的启发和收获!
回顾中 -
关于RISC-V生态发展的思考
2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中
热门标签