- 之前已经在七台物理机上以全分布模式安装了Hadoop集群,除了制动NameNode、JobTracker、DataNode、TaskTracker及相关的端口号外,并没有对集群配置做进一步的设定,都保留了默认值。而要想使Hadoop集群发挥更大的作用则需要根据实际情况对配置做修改,下面将介绍如何在Hadoop集群中对一些配置项做修改,由... 之前已经在七台物理机上以全分布模式安装了Hadoop集群,除了制动NameNode、JobTracker、DataNode、TaskTracker及相关的端口号外,并没有对集群配置做进一步的设定,都保留了默认值。而要想使Hadoop集群发挥更大的作用则需要根据实际情况对配置做修改,下面将介绍如何在Hadoop集群中对一些配置项做修改,由...
- 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于... 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于...
- 在学习过MapReduce框架的几个关键类和接口后(只是简单的说明了类或者接口的作用及使用方式,要想深入了解如何工作的就需要深入研究源代码了,这也是计划中的学习任务),接下来看看任务的执行和环境,主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行,子任务继承了父进程TaskTr... 在学习过MapReduce框架的几个关键类和接口后(只是简单的说明了类或者接口的作用及使用方式,要想深入了解如何工作的就需要深入研究源代码了,这也是计划中的学习任务),接下来看看任务的执行和环境,主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行,子任务继承了父进程TaskTr...
- 1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,... 1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,...
- 接下来是跟MapReduce目录结构有关的参数。首先看两个参数,分别为在core-default.xml中定义的hadoop.tmp.dir,其默认值为/tmp/hadoop-${user.name},另一个为定义在mapred-default.xml中的mapred.local.dir,该参数指定了保存MapReduce中间数据文件的... 接下来是跟MapReduce目录结构有关的参数。首先看两个参数,分别为在core-default.xml中定义的hadoop.tmp.dir,其默认值为/tmp/hadoop-${user.name},另一个为定义在mapred-default.xml中的mapred.local.dir,该参数指定了保存MapReduce中间数据文件的...
- HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统),是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前,搜索到的数据存储在HDFS上,2.x... HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统),是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前,搜索到的数据存储在HDFS上,2.x...
- HDFS可以跨越大集群中的机器可靠地存储非常大的文件,将文件存储为一系列的块,除了最后一个块外,所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的,一个文件的块会被复制成若干份,块大小和复制因子是可配置的。应用程序可以指定文件的副本数量,复制因子可以在文件创建时指定,也可以以后修改。HDFS中的... HDFS可以跨越大集群中的机器可靠地存储非常大的文件,将文件存储为一系列的块,除了最后一个块外,所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的,一个文件的块会被复制成若干份,块大小和复制因子是可配置的。应用程序可以指定文件的副本数量,复制因子可以在文件创建时指定,也可以以后修改。HDFS中的...
- 之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的,最近领导对GreenPlum比较感兴趣,申请了7台物理机,也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前,领导已经将该7台物理机的ssh配置好了,若不熟悉ssh的配置可以参考文章http://blog.csdn.n... 之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的,最近领导对GreenPlum比较感兴趣,申请了7台物理机,也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前,领导已经将该7台物理机的ssh配置好了,若不熟悉ssh的配置可以参考文章http://blog.csdn.n...
- 大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业... 大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业...
- 安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因: Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要... 安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因: Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要...
- 目录 1、文本文件test.txt 2、登录hadoop虚拟机 3、启动hadoop 4、将test.txt文件上传到HDFS的word目录 5、启动Hive 目录 1、文本文件test.txt 2、登录hadoop虚拟机 3、启动hadoop 4、将test.txt文件上传到HDFS的word目录 5、启动Hive
- 网络情况:网络为:192.168.80.0,网关为192.168.80.2,掩码为255.255.255.0,域名202.196.32.1。 Hadoop平台规划:三台linux主机使用64位CentOS7系统,采用最小化安装。用户为都为hadoop,master为192.168.80.5,slaver1为192.168.80.6,s... 网络情况:网络为:192.168.80.0,网关为192.168.80.2,掩码为255.255.255.0,域名202.196.32.1。 Hadoop平台规划:三台linux主机使用64位CentOS7系统,采用最小化安装。用户为都为hadoop,master为192.168.80.5,slaver1为192.168.80.6,s...
- 文章目录 一、Hadoop压缩机制 1、两种Hadoop自带压缩格式 2、常用压缩格式优缺点及应用场景 (1)gzip压... 文章目录 一、Hadoop压缩机制 1、两种Hadoop自带压缩格式 2、常用压缩格式优缺点及应用场景 (1)gzip压...
- 文章目录 一、提出任务 1、编写Java程序在HDFS上创建目录 2、编写MapReduce程序进行词频统计 二、准备工作 ... 文章目录 一、提出任务 1、编写Java程序在HDFS上创建目录 2、编写MapReduce程序进行词频统计 二、准备工作 ...
- 文章目录 一、利用Java程序实现词频统计 二、利用scala程序实现词频统计 三、利用Python程序实现词频统计 四、利用akka和scala实现词频统计 ... 文章目录 一、利用Java程序实现词频统计 二、利用scala程序实现词频统计 三、利用Python程序实现词频统计 四、利用akka和scala实现词频统计 ...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢
2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
“智能运维新视野”系列直播 —— 云监控技术深度实践
2025/08/29 周五 15:00-16:00
星璇 华为云监控产品经理
本期直播深度解析全栈监控技术实践,揭秘华为云、头部企业如何通过智能监控实现业务零中断,分享高可用系统背后的“鹰眼系统”。即刻预约,解锁数字化转型的运维密码!
回顾中
热门标签