- 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客... 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客...
- 此篇文章讲述的是MapReduce的开发总结,希望能够帮助到各位小可爱呀! 目录 1. 输入数据接口:InputFormat2. 逻辑处理接口:Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组:GroupingComparator7. 逻辑处理接口:Reducer8. 输出数... 此篇文章讲述的是MapReduce的开发总结,希望能够帮助到各位小可爱呀! 目录 1. 输入数据接口:InputFormat2. 逻辑处理接口:Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组:GroupingComparator7. 逻辑处理接口:Reducer8. 输出数...
- 上一篇博客《什么是MapReduce(入门篇) 》讲的是WordCount案例在本地的实际操作,这篇讲述的是在集群上的操作过程。 目录 1. 添加打包插件依赖2. 将程序打成jar包,然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。 3. 执行WordCount程序... 上一篇博客《什么是MapReduce(入门篇) 》讲的是WordCount案例在本地的实际操作,这篇讲述的是在集群上的操作过程。 目录 1. 添加打包插件依赖2. 将程序打成jar包,然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。 3. 执行WordCount程序...
- 上篇博文给大家带来的是分区的介绍以及怎样自定义分区,这次博主为大家带来的是关于排序的博文,希望大家能够喜欢。 目录 一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序 二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码1. FlowBean对象在在需求1基础... 上篇博文给大家带来的是分区的介绍以及怎样自定义分区,这次博主为大家带来的是关于排序的博文,希望大家能够喜欢。 目录 一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序 二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码1. FlowBean对象在在需求1基础...
- Hello,大家好,本次为大家带来的是Hadoop的序列化操作。 目录 一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化 二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. ... Hello,大家好,本次为大家带来的是Hadoop的序列化操作。 目录 一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化 二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. ...
- 前面我们讲解了MapReduce的Shuffle机制,那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。 目录 一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工... 前面我们讲解了MapReduce的Shuffle机制,那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。 目录 一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工...
- 前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。,那么这篇文章博主继续为大家讲解OutputFormat数据输出。 目录 一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat== 二... 前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。,那么这篇文章博主继续为大家讲解OutputFormat数据输出。 目录 一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat== 二...
- 相信大家看了博主上一篇博客《什么是MapReduce 》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。 目录 1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2.... 相信大家看了博主上一篇博客《什么是MapReduce 》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。 目录 1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2....
- 此片博文是上篇博文的拓展进阶部分。 目录 1. 需求2. 代码实现3. 运行及结果 1. 需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 1. 输入数据 2. 期望输出数据 都是合法的数据 2. 代码实现 1. 定义一个bean,用来记录日志数据中的各数据字段 pack... 此片博文是上篇博文的拓展进阶部分。 目录 1. 需求2. 代码实现3. 运行及结果 1. 需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 1. 输入数据 2. 期望输出数据 都是合法的数据 2. 代码实现 1. 定义一个bean,用来记录日志数据中的各数据字段 pack...
- 在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。 目录 一. Shuffle之Partition分区1.1. 默认Partition分区1.2... 在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。 目录 一. Shuffle之Partition分区1.1. 默认Partition分区1.2...
- Hello,大家好!博主上篇讲解了合并,这篇要讲的是辅助排序。如何讲解这个章节呢?首先先对什么是合并进行解释,然后通过案例进行证明。 目录 一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写Orde... Hello,大家好!博主上篇讲解了合并,这篇要讲的是辅助排序。如何讲解这个章节呢?首先先对什么是合并进行解释,然后通过案例进行证明。 目录 一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写Orde...
- 本篇博文,博主为大家介绍Yarn和MapReduce的作业提交全过程。 目录 一. Yarn的作业提交过程1.1 作业提交1.2 作业初始化1.3 任务分配1.4 任务运行1.5 进度和状态更新1.6 作业完成 二. MapReduce的作业提交过程(在此只图片说明) 一. Yarn的作业提交过程 作业提交全过程详解 1.1 作业提交 第... 本篇博文,博主为大家介绍Yarn和MapReduce的作业提交全过程。 目录 一. Yarn的作业提交过程1.1 作业提交1.2 作业初始化1.3 任务分配1.4 任务运行1.5 进度和状态更新1.6 作业完成 二. MapReduce的作业提交过程(在此只图片说明) 一. Yarn的作业提交过程 作业提交全过程详解 1.1 作业提交 第...
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.2.3节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.2.3节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第四章,第4.2节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第四章,第4.2节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的一个例子是... 1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的一个例子是...
上滑加载中
推荐直播
-
让你的应用用上GaussDB
2024/12/19 周四 16:30-18:00
Jerry 华为云生态技术讲师
GaussDB很受客户关注,伙伴们想知道什么时候该选用,开发者也跃跃欲试想尝鲜。课程会分享适用的场景,并一步步演示如何用上GaussDB。
回顾中 -
2024创原会年度技术峰会
2024/12/20 周五 09:00-12:00
华为云讲师团
2024创原会年度技术峰会将于12月20日在海南万宁石梅湾威斯汀酒店举办,本次大会将以“智能・进化”为主题探讨从Cloud Native到AI Native的新阶段企业如何通过AI技术重塑企业应用,围绕AI如何在千行万业落地进行深入交流,探索可以先行先试先成功的创新场景和实现路径。
即将直播 -
华为云开发者日·2024年度创享峰会
2024/12/23 周一 14:00-16:00
华为云讲师团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名
热门标签