- HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统),是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前,搜索到的数据存储在HDFS上,2.x... HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统),是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前,搜索到的数据存储在HDFS上,2.x...
- HDFS可以跨越大集群中的机器可靠地存储非常大的文件,将文件存储为一系列的块,除了最后一个块外,所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的,一个文件的块会被复制成若干份,块大小和复制因子是可配置的。应用程序可以指定文件的副本数量,复制因子可以在文件创建时指定,也可以以后修改。HDFS中的... HDFS可以跨越大集群中的机器可靠地存储非常大的文件,将文件存储为一系列的块,除了最后一个块外,所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的,一个文件的块会被复制成若干份,块大小和复制因子是可配置的。应用程序可以指定文件的副本数量,复制因子可以在文件创建时指定,也可以以后修改。HDFS中的...
- 之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的,最近领导对GreenPlum比较感兴趣,申请了7台物理机,也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前,领导已经将该7台物理机的ssh配置好了,若不熟悉ssh的配置可以参考文章http://blog.csdn.n... 之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的,最近领导对GreenPlum比较感兴趣,申请了7台物理机,也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前,领导已经将该7台物理机的ssh配置好了,若不熟悉ssh的配置可以参考文章http://blog.csdn.n...
- 大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业... 大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业...
- 安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因: Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要... 安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因: Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要...
- 目录 1、文本文件test.txt 2、登录hadoop虚拟机 3、启动hadoop 4、将test.txt文件上传到HDFS的word目录 5、启动Hive 目录 1、文本文件test.txt 2、登录hadoop虚拟机 3、启动hadoop 4、将test.txt文件上传到HDFS的word目录 5、启动Hive
- 网络情况:网络为:192.168.80.0,网关为192.168.80.2,掩码为255.255.255.0,域名202.196.32.1。 Hadoop平台规划:三台linux主机使用64位CentOS7系统,采用最小化安装。用户为都为hadoop,master为192.168.80.5,slaver1为192.168.80.6,s... 网络情况:网络为:192.168.80.0,网关为192.168.80.2,掩码为255.255.255.0,域名202.196.32.1。 Hadoop平台规划:三台linux主机使用64位CentOS7系统,采用最小化安装。用户为都为hadoop,master为192.168.80.5,slaver1为192.168.80.6,s...
- 文章目录 一、Hadoop压缩机制 1、两种Hadoop自带压缩格式 2、常用压缩格式优缺点及应用场景 (1)gzip压... 文章目录 一、Hadoop压缩机制 1、两种Hadoop自带压缩格式 2、常用压缩格式优缺点及应用场景 (1)gzip压...
- 文章目录 一、提出任务 1、编写Java程序在HDFS上创建目录 2、编写MapReduce程序进行词频统计 二、准备工作 ... 文章目录 一、提出任务 1、编写Java程序在HDFS上创建目录 2、编写MapReduce程序进行词频统计 二、准备工作 ...
- 文章目录 一、利用Java程序实现词频统计 二、利用scala程序实现词频统计 三、利用Python程序实现词频统计 四、利用akka和scala实现词频统计 ... 文章目录 一、利用Java程序实现词频统计 二、利用scala程序实现词频统计 三、利用Python程序实现词频统计 四、利用akka和scala实现词频统计 ...
- 文章目录 一、搭建服务器集群 1、创建三台虚拟机 2、配置静态IP地址 3、查看主机名 4、配置主机IP映射 5、查看防火墙状态 ... 文章目录 一、搭建服务器集群 1、创建三台虚拟机 2、配置静态IP地址 3、查看主机名 4、配置主机IP映射 5、查看防火墙状态 ...
- 文章目录 一、HDFS常用Java API 1、org.apache.hadoop.fs.FileSystem 2、org.apache.hadoop.f... 文章目录 一、HDFS常用Java API 1、org.apache.hadoop.fs.FileSystem 2、org.apache.hadoop.f...
- 文章目录 一、HDFS基本概念 1、块(Block) 2、名称节点和数据节点 (1)名称节点 (2)数据节点... 文章目录 一、HDFS基本概念 1、块(Block) 2、名称节点和数据节点 (1)名称节点 (2)数据节点...
- 文章目录 一、预备工作 1、启动hadoop服务 2、准备数据文件 2、将数据文件上传HDFS 二、实现步骤 ... 文章目录 一、预备工作 1、启动hadoop服务 2、准备数据文件 2、将数据文件上传HDFS 二、实现步骤 ...
- 文章目录 一、Hadoop生态系统 二、Hadoop安装模式 1、单机模式 2、伪分布式模式 3、完全分布式模式 三、伪分布式安... 文章目录 一、Hadoop生态系统 二、Hadoop安装模式 1、单机模式 2、伪分布式模式 3、完全分布式模式 三、伪分布式安...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签