- 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客... 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客...
- 此篇文章讲述的是MapReduce的开发总结,希望能够帮助到各位小可爱呀! 目录 1. 输入数据接口:InputFormat2. 逻辑处理接口:Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组:GroupingComparator7. 逻辑处理接口:Reducer8. 输出数... 此篇文章讲述的是MapReduce的开发总结,希望能够帮助到各位小可爱呀! 目录 1. 输入数据接口:InputFormat2. 逻辑处理接口:Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组:GroupingComparator7. 逻辑处理接口:Reducer8. 输出数...
- 上一篇博客《什么是MapReduce(入门篇) 》讲的是WordCount案例在本地的实际操作,这篇讲述的是在集群上的操作过程。 目录 1. 添加打包插件依赖2. 将程序打成jar包,然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。 3. 执行WordCount程序... 上一篇博客《什么是MapReduce(入门篇) 》讲的是WordCount案例在本地的实际操作,这篇讲述的是在集群上的操作过程。 目录 1. 添加打包插件依赖2. 将程序打成jar包,然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。 3. 执行WordCount程序...
- 上篇博文给大家带来的是分区的介绍以及怎样自定义分区,这次博主为大家带来的是关于排序的博文,希望大家能够喜欢。 目录 一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序 二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码1. FlowBean对象在在需求1基础... 上篇博文给大家带来的是分区的介绍以及怎样自定义分区,这次博主为大家带来的是关于排序的博文,希望大家能够喜欢。 目录 一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序 二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码1. FlowBean对象在在需求1基础...
- Hello,大家好,本次为大家带来的是Hadoop的序列化操作。 目录 一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化 二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. ... Hello,大家好,本次为大家带来的是Hadoop的序列化操作。 目录 一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化 二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. ...
- 前面我们讲解了MapReduce的Shuffle机制,那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。 目录 一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工... 前面我们讲解了MapReduce的Shuffle机制,那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。 目录 一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工...
- 前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。,那么这篇文章博主继续为大家讲解OutputFormat数据输出。 目录 一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat== 二... 前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。,那么这篇文章博主继续为大家讲解OutputFormat数据输出。 目录 一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat== 二...
- 相信大家看了博主上一篇博客《什么是MapReduce 》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。 目录 1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2.... 相信大家看了博主上一篇博客《什么是MapReduce 》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。 目录 1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2....
- 此片博文是上篇博文的拓展进阶部分。 目录 1. 需求2. 代码实现3. 运行及结果 1. 需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 1. 输入数据 2. 期望输出数据 都是合法的数据 2. 代码实现 1. 定义一个bean,用来记录日志数据中的各数据字段 pack... 此片博文是上篇博文的拓展进阶部分。 目录 1. 需求2. 代码实现3. 运行及结果 1. 需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 1. 输入数据 2. 期望输出数据 都是合法的数据 2. 代码实现 1. 定义一个bean,用来记录日志数据中的各数据字段 pack...
- 在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。 目录 一. Shuffle之Partition分区1.1. 默认Partition分区1.2... 在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。 目录 一. Shuffle之Partition分区1.1. 默认Partition分区1.2...
- Hello,大家好!博主上篇讲解了合并,这篇要讲的是辅助排序。如何讲解这个章节呢?首先先对什么是合并进行解释,然后通过案例进行证明。 目录 一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写Orde... Hello,大家好!博主上篇讲解了合并,这篇要讲的是辅助排序。如何讲解这个章节呢?首先先对什么是合并进行解释,然后通过案例进行证明。 目录 一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写Orde...
- 本篇博文,博主为大家介绍Yarn和MapReduce的作业提交全过程。 目录 一. Yarn的作业提交过程1.1 作业提交1.2 作业初始化1.3 任务分配1.4 任务运行1.5 进度和状态更新1.6 作业完成 二. MapReduce的作业提交过程(在此只图片说明) 一. Yarn的作业提交过程 作业提交全过程详解 1.1 作业提交 第... 本篇博文,博主为大家介绍Yarn和MapReduce的作业提交全过程。 目录 一. Yarn的作业提交过程1.1 作业提交1.2 作业初始化1.3 任务分配1.4 任务运行1.5 进度和状态更新1.6 作业完成 二. MapReduce的作业提交过程(在此只图片说明) 一. Yarn的作业提交过程 作业提交全过程详解 1.1 作业提交 第...
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.2.3节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.2.3节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第四章,第4.2节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第四章,第4.2节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的一个例子是... 1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的一个例子是...
上滑加载中
推荐直播
-
华为AI技术发展与挑战:集成需求分析的实战指南
2024/11/26 周二 18:20-20:20
Alex 华为云学堂技术讲师
本期直播将综合讨论华为AI技术的发展现状,技术挑战,并深入探讨华为AI应用开发过程中的需求分析过程,从理论到实践帮助开发者快速掌握华为AI应用集成需求的框架和方法。
回顾中 -
华为云DataArts+DWS助力企业数据治理一站式解决方案及应用实践
2024/11/27 周三 16:30-18:00
Walter.chi 华为云数据治理DTSE技术布道师
想知道数据治理项目中,数据主题域如何合理划分?数据标准及主数据标准如何制定?数仓分层模型如何合理规划?华为云DataArts+DWS助力企业数据治理项目一站式解决方案和应用实践告诉您答案!本期将从数据趋势、数据治理方案、数据治理规划及落地,案例分享四个方面来助力企业数据治理项目合理咨询规划及顺利实施。
去报名 -
大模型+知识库(RAG):如何使能行业数智化?—华为行业数字化转型实践分享
2024/11/27 周三 19:00-20:00
华为人工智能专家史老师
本次直播,我们特别邀请了华为人工智能专家史老师,将以大模型知识库为切入点,详细揭示大模型与知识库结合的过程,并分享利用大模型+知识库(RAG)使能行业数智化转型的实践经验。
即将直播
热门标签