Hadoop_标签_开发者_华为云

博客(763)
视频(1)
论坛(0)
云声(0)
代码示例(0)

WordCount运行详解
1、MapReduce理论简介   1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于...

格图洛书
发表于2021-12-30 00:56:46
3048 0 0

3.0k 0 0

1、MapReduce理论简介   1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于...
Hadoop MapReduce
Hadoop学习之MapReduce(三)
在学习过MapReduce框架的几个关键类和接口后（只是简单的说明了类或者接口的作用及使用方式，要想深入了解如何工作的就需要深入研究源代码了，这也是计划中的学习任务），接下来看看任务的执行和环境，主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行，子任务继承了父进程TaskTr...

格图洛书
发表于2021-12-30 00:52:46
2983 0 0

2.9k 0 0

在学习过MapReduce框架的几个关键类和接口后（只是简单的说明了类或者接口的作用及使用方式，要想深入了解如何工作的就需要深入研究源代码了，这也是计划中的学习任务），接下来看看任务的执行和环境，主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行，子任务继承了父进程TaskTr...
Hadoop MapReduce
HDFS初探之旅
1、HDFS简介　　HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，...

格图洛书
发表于2021-12-30 00:49:13
2438 0 0

2.4k 0 0

1、HDFS简介　　HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，...
Hadoop
Hadoop学习之MapReduce(四)
接下来是跟MapReduce目录结构有关的参数。首先看两个参数，分别为在core-default.xml中定义的hadoop.tmp.dir，其默认值为/tmp/hadoop-${user.name}，另一个为定义在mapred-default.xml中的mapred.local.dir，该参数指定了保存MapReduce中间数据文件的...

格图洛书
发表于2021-12-30 00:45:57
3119 0 0

3.1k 0 0

接下来是跟MapReduce目录结构有关的参数。首先看两个参数，分别为在core-default.xml中定义的hadoop.tmp.dir，其默认值为/tmp/hadoop-${user.name}，另一个为定义在mapred-default.xml中的mapred.local.dir，该参数指定了保存MapReduce中间数据文件的...
Hadoop MapReduce
Hadoop学习之HDFS架构(一)
HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统)，是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前，搜索到的数据存储在HDFS上，2.x...

格图洛书
发表于2021-12-30 00:26:27
2554 0 0

2.5k 0 0

HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统)，是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前，搜索到的数据存储在HDFS上，2.x...
Hadoop
Hadoop学习之HDFS架构(二)
HDFS可以跨越大集群中的机器可靠地存储非常大的文件，将文件存储为一系列的块，除了最后一个块外，所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的，一个文件的块会被复制成若干份，块大小和复制因子是可配置的。应用程序可以指定文件的副本数量，复制因子可以在文件创建时指定，也可以以后修改。HDFS中的...

格图洛书
发表于2021-12-30 00:20:13
2559 0 0

2.5k 0 0

HDFS可以跨越大集群中的机器可靠地存储非常大的文件，将文件存储为一系列的块，除了最后一个块外，所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的，一个文件的块会被复制成若干份，块大小和复制因子是可配置的。应用程序可以指定文件的副本数量，复制因子可以在文件创建时指定，也可以以后修改。HDFS中的...
Hadoop
Hadoop学习之以全分布模式部署及问题
之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的，最近领导对GreenPlum比较感兴趣，申请了7台物理机，也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前，领导已经将该7台物理机的ssh配置好了，若不熟悉ssh的配置可以参考文章http://blog.csdn.n...

格图洛书
发表于2021-12-30 00:11:44
2586 0 0

2.5k 0 0

之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的，最近领导对GreenPlum比较感兴趣，申请了7台物理机，也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前，领导已经将该7台物理机的ssh配置好了，若不熟悉ssh的配置可以参考文章http://blog.csdn.n...
Hadoop Java
java转大数据方向如何走？
      大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等; 商业...

人工智能-张晨光
发表于2021-12-29 23:44:23
3025 0 0

3.0k 0 0

      大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等; 商业...
Hadoop Java 大数据
解决 Unable to load native-hadoop library for your platform方法之一
安装hadoop启动之后总有警告：Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因： Apache提供的hadoop本地库是32位的，而在64位的服务器上就会有问题，因此需要...

人工智能-张晨光
发表于2021-12-29 23:24:10
3184 0 0

3.1k 0 0

安装hadoop启动之后总有警告：Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因： Apache提供的hadoop本地库是32位的，而在64位的服务器上就会有问题，因此需要...
Hadoop
Hive案例：统计单词个数
目录 1、文本文件test.txt 2、登录hadoop虚拟机 3、启动hadoop 4、将test.txt文件上传到HDFS的word目录 5、启动Hive

howard2005
发表于2021-12-29 23:19:57
2679 0 0

2.6k 0 0

目录 1、文本文件test.txt 2、登录hadoop虚拟机 3、启动hadoop 4、将test.txt文件上传到HDFS的word目录 5、启动Hive
Hadoop Hive
Hadoop hdfs配置
网络情况：网络为：192.168.80.0，网关为192.168.80.2，掩码为255.255.255.0，域名202.196.32.1。 Hadoop平台规划：三台linux主机使用64位CentOS7系统，采用最小化安装。用户为都为hadoop，master为192.168.80.5,slaver1为192.168.80.6，s...

人工智能-张晨光
发表于2021-12-23 01:35:06
3188 0 0

3.1k 0 0

网络情况：网络为：192.168.80.0，网关为192.168.80.2，掩码为255.255.255.0，域名202.196.32.1。 Hadoop平台规划：三台linux主机使用64位CentOS7系统，采用最小化安装。用户为都为hadoop，master为192.168.80.5,slaver1为192.168.80.6，s...
Hadoop Linux
大数据学习笔记29：Hadoop压缩机制演示
文章目录一、Hadoop压缩机制 1、两种Hadoop自带压缩格式 2、常用压缩格式优缺点及应用场景（1）gzip压...

howard2005
发表于2021-11-19 05:06:17
2721 0 0

2.7k 0 0

文章目录一、Hadoop压缩机制 1、两种Hadoop自带压缩格式 2、常用压缩格式优缺点及应用场景（1）gzip压...
Hadoop 大数据
大数据学习笔记31：Java程序访问高可用Hadoop集群
文章目录一、提出任务 1、编写Java程序在HDFS上创建目录 2、编写MapReduce程序进行词频统计二、准备工作 ...

howard2005
发表于2021-11-19 03:23:24
2983 0 0

2.9k 0 0

文章目录一、提出任务 1、编写Java程序在HDFS上创建目录 2、编写MapReduce程序进行词频统计二、准备工作 ...
Hadoop Java 大数据
采用多种方式实现词频统计
文章目录一、利用Java程序实现词频统计二、利用scala程序实现词频统计三、利用Python程序实现词频统计四、利用akka和scala实现词频统计 ...

howard2005
发表于2021-11-19 03:22:51
2678 0 0

2.6k 0 0

文章目录一、利用Java程序实现词频统计二、利用scala程序实现词频统计三、利用Python程序实现词频统计四、利用akka和scala实现词频统计 ...
Hadoop
大数据学习笔记11：搭建完全分布式Hadoop
文章目录一、搭建服务器集群 1、创建三台虚拟机 2、配置静态IP地址 3、查看主机名 4、配置主机IP映射 5、查看防火墙状态 ...

howard2005
发表于2021-11-19 03:20:45
2767 0 0

2.7k 0 0

文章目录一、搭建服务器集群 1、创建三台虚拟机 2、配置静态IP地址 3、查看主机名 4、配置主机IP映射 5、查看防火墙状态 ...
Hadoop 分布式大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript