- 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客... 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客...
- 基于CentOS6.4环境编译Spark-2.1.0源码 1 写在前面的话 有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示: Spark官网的确是提供了一些Hadoop版本的Spark安装包,但... 基于CentOS6.4环境编译Spark-2.1.0源码 1 写在前面的话 有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示: Spark官网的确是提供了一些Hadoop版本的Spark安装包,但...
- 上一篇博文我们分享的API操作HDFS系统都是框架封装好的。那么如果我们想自己实现上述API的操作该怎么实现呢? 此次物品们介绍的是采用I/O流的方式实现数据的上传和下载。 目录 一. HDFS文件上传二. HDFS文件下载三. 定位文件读取 一. HDFS文件上传 需求:把本地d盘上的lisen.txt文件上传到HDFS根目录 1.... 上一篇博文我们分享的API操作HDFS系统都是框架封装好的。那么如果我们想自己实现上述API的操作该怎么实现呢? 此次物品们介绍的是采用I/O流的方式实现数据的上传和下载。 目录 一. HDFS文件上传二. HDFS文件下载三. 定位文件读取 一. HDFS文件上传 需求:把本地d盘上的lisen.txt文件上传到HDFS根目录 1....
- 本次博主为大家带来的事Hive常见的属性配置。希望能够帮助大家。 目录 一. Hive数据仓库位置配置二. 查询后信息显示配置三. Hive运行日志信息配置四. 参数配置方式4.1 查看当前所有的配置信息4.2 参数的配置三种方式 一. Hive数据仓库位置配置 1. Default数据仓库的最原始位置是在hdfs上的:/user/hi... 本次博主为大家带来的事Hive常见的属性配置。希望能够帮助大家。 目录 一. Hive数据仓库位置配置二. 查询后信息显示配置三. Hive运行日志信息配置四. 参数配置方式4.1 查看当前所有的配置信息4.2 参数的配置三种方式 一. Hive数据仓库位置配置 1. Default数据仓库的最原始位置是在hdfs上的:/user/hi...
- 此篇博文讲的是Flume的多路复用。 目录 1. 案例需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume-file-flume.conf3. 创建flume-flume-hdfs.conf4. 创建flume-flume-dir.conf5. 执行配置文件6. 启动Hadoop和Hive7. 检查HDFS上数据8. 检查/opt/modul... 此篇博文讲的是Flume的多路复用。 目录 1. 案例需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume-file-flume.conf3. 创建flume-flume-hdfs.conf4. 创建flume-flume-dir.conf5. 执行配置文件6. 启动Hadoop和Hive7. 检查HDFS上数据8. 检查/opt/modul...
- 本篇博文,博主为大家介绍Yarn调度器。 目录 一. Yarn调度器(Scheduler)介绍1.1 FIFO Scheduler (队列调度器)1.2 capacity scheduler(容量调度器,apache版本默认使用的调度器)1.3 Fair Scheduler(公平调度器,CDH版本的hadoop默认使用的调度器)1.4 小结 二. yarn... 本篇博文,博主为大家介绍Yarn调度器。 目录 一. Yarn调度器(Scheduler)介绍1.1 FIFO Scheduler (队列调度器)1.2 capacity scheduler(容量调度器,apache版本默认使用的调度器)1.3 Fair Scheduler(公平调度器,CDH版本的hadoop默认使用的调度器)1.4 小结 二. yarn...
- 博主上篇的文章讲的是伪分布式部署,那么接下来进行分布时的教学,先从搭建集群开始,为分布式开发环境做准备。 目录 1. 克隆虚拟机2. 更改系统的mac地址3. 更改网卡信息4. 更改主机名5. 添加别名6. 关闭防火墙7. 关闭selinux8. SCP远程文件拷贝9. SSH 远程登录1. 基于密码的登录2. 无密钥配置(免密登录) 10. 总... 博主上篇的文章讲的是伪分布式部署,那么接下来进行分布时的教学,先从搭建集群开始,为分布式开发环境做准备。 目录 1. 克隆虚拟机2. 更改系统的mac地址3. 更改网卡信息4. 更改主机名5. 添加别名6. 关闭防火墙7. 关闭selinux8. SCP远程文件拷贝9. SSH 远程登录1. 基于密码的登录2. 无密钥配置(免密登录) 10. 总...
- 因为在上期的分享中,大家看到的更多是HDFS的底层原理,内部结构,并没有谈到其自身优势和劣势的一个比较!因此,本次博主为大家带来的就是对HDFS的优缺点进行分析。 目录 一. HDFS的优点1. 高容错性2. 适合处理大数据3. 实用性强 二. HDFS的缺点1. 不适合低延时数据访问2. 无法高效的对大量小文件进行存储3. 不支持并发写入、文件... 因为在上期的分享中,大家看到的更多是HDFS的底层原理,内部结构,并没有谈到其自身优势和劣势的一个比较!因此,本次博主为大家带来的就是对HDFS的优缺点进行分析。 目录 一. HDFS的优点1. 高容错性2. 适合处理大数据3. 实用性强 二. HDFS的缺点1. 不适合低延时数据访问2. 无法高效的对大量小文件进行存储3. 不支持并发写入、文件...
- 在一个完整的离线大数据处理系统中,除了HDFS+MapReduce+Hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,在此,我们首先来介绍下数据采集部分所用的的开源框架——Flume。 目录 1. Flume定义2. Flume的优点3. Flume采集系... 在一个完整的离线大数据处理系统中,除了HDFS+MapReduce+Hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,在此,我们首先来介绍下数据采集部分所用的的开源框架——Flume。 目录 1. Flume定义2. Flume的优点3. Flume采集系...
- 此篇博文讲的是Flume的聚合。 目录 1. 需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume1-logger-flume.conf3. 创建flume2-netcat-flume.conf4. 创建flume3-flume-logger.conf5. 执行配置文件6. 在hadoop003上向/opt/module目录下的group.l... 此篇博文讲的是Flume的聚合。 目录 1. 需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume1-logger-flume.conf3. 创建flume2-netcat-flume.conf4. 创建flume3-flume-logger.conf5. 执行配置文件6. 在hadoop003上向/opt/module目录下的group.l...
- 当数据科学家需要使用某些软件时,其中一部分我们已经在之前的章节中做过介绍,这些软件涵盖了数据科学家所需要的基础专业内容。实际的工作范畴可能会超越求职时候的工作描述,这也是IT工作的常态之一。这在某种程度上是好的,因为它提供了学习新技能的机会,而这也是数据科学领域最引人入胜的方面之一。 在这一章中,我们会探索数据科学环境中常用的软件。不是所有在这里提到的软件都会在你的工作中用到,但了解... 当数据科学家需要使用某些软件时,其中一部分我们已经在之前的章节中做过介绍,这些软件涵盖了数据科学家所需要的基础专业内容。实际的工作范畴可能会超越求职时候的工作描述,这也是IT工作的常态之一。这在某种程度上是好的,因为它提供了学习新技能的机会,而这也是数据科学领域最引人入胜的方面之一。 在这一章中,我们会探索数据科学环境中常用的软件。不是所有在这里提到的软件都会在你的工作中用到,但了解...
- 1. 概述Hadoop不会去诊断或修复执行慢的任务,相反,它试图检测任务的运行速度是否比预期慢,并启动另一个等效任务作为备份(备份任务称为推测任务)。这个过程在Hadoop中被称为推测执行。在这篇文章中,我们将讨论推测执行 - Hadoop中提高效率的一个重要功能,我们有必要去了解Hadoop中的推测执行是否总是有帮助的,或者我们需要关闭它时如何禁用。2. 什么是推测执行在Hadoop中,M... 1. 概述Hadoop不会去诊断或修复执行慢的任务,相反,它试图检测任务的运行速度是否比预期慢,并启动另一个等效任务作为备份(备份任务称为推测任务)。这个过程在Hadoop中被称为推测执行。在这篇文章中,我们将讨论推测执行 - Hadoop中提高效率的一个重要功能,我们有必要去了解Hadoop中的推测执行是否总是有帮助的,或者我们需要关闭它时如何禁用。2. 什么是推测执行在Hadoop中,M...
- 1. 引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构,其中 ResourceManager 是整个架构的核心组件,负责集群上的资源管理,包括内存、CPU以及集群上的其他资; ApplicationMaster 负责在生命周期内的应用程序调度; NodeManager 负责本节点上资源的供给和隔离;... 1. 引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构,其中 ResourceManager 是整个架构的核心组件,负责集群上的资源管理,包括内存、CPU以及集群上的其他资; ApplicationMaster 负责在生命周期内的应用程序调度; NodeManager 负责本节点上资源的供给和隔离;...
- 本节书摘来自华章计算机《从零开始学Hadoop大数据分析(视频教学版)》 一书中第3章,第3.4.5节,作者是温春水 毕洁馨 。 本节书摘来自华章计算机《从零开始学Hadoop大数据分析(视频教学版)》 一书中第3章,第3.4.5节,作者是温春水 毕洁馨 。
- 本节书摘来自华章计算机《从零开始学Hadoop大数据分析(视频教学版)》 一书中第3章,第3.1.1节,作者是温春水 毕洁馨 。 本节书摘来自华章计算机《从零开始学Hadoop大数据分析(视频教学版)》 一书中第3章,第3.1.1节,作者是温春水 毕洁馨 。
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签