- Hadoop概述 Hadoop概述
- 经历了三个阶段大概三个月的学习,大数据全栈课程迎来了尾声,今天是大数据三阶段的最后一天,也是整个大数据课程的最后一天。这三个月的学习过程,并不是一帆风顺,而且一路荆棘。第一阶段:大数据入门篇 第一阶段的课程主要是大数据的入门知识,包括MySQL基本知识、各种概念和常用语句、JDBC的使用还有数据库事务等等,虽然是基础知识,但是非常实用,在开发中会经常用到,基本上就是对数据库的各... 经历了三个阶段大概三个月的学习,大数据全栈课程迎来了尾声,今天是大数据三阶段的最后一天,也是整个大数据课程的最后一天。这三个月的学习过程,并不是一帆风顺,而且一路荆棘。第一阶段:大数据入门篇 第一阶段的课程主要是大数据的入门知识,包括MySQL基本知识、各种概念和常用语句、JDBC的使用还有数据库事务等等,虽然是基础知识,但是非常实用,在开发中会经常用到,基本上就是对数据库的各...
- 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa... 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa...
- HBase提高写入速度参数配置-测试案例 HBase提高写入速度参数配置-测试案例
- 第二节:Hadoop优势Hadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败任务重新分配Hadoop1.x和2.x的区别Had... 第二节:Hadoop优势Hadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败任务重新分配Hadoop1.x和2.x的区别Had...
- 第一节:什么是Hadoop1)Hadoop是一个有Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈Hadoop发展史:1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括... 第一节:什么是Hadoop1)Hadoop是一个有Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈Hadoop发展史:1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括...
- 最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无秘钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题。 最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无秘钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题。
- 2020年8月27日,中国工商银行联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,为期两周的升级过程突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,为全行上百个应用、上千个场景、上万个作业保障了7*24小时不间断的数据服务。本次滚动升级对金融科技领域意义重大,中国工商银行为金融同业树立了大数据服务连续性上的建设标杆。 2020年8月27日,中国工商银行联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,为期两周的升级过程突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,为全行上百个应用、上千个场景、上万个作业保障了7*24小时不间断的数据服务。本次滚动升级对金融科技领域意义重大,中国工商银行为金融同业树立了大数据服务连续性上的建设标杆。
- 1.增加了Resourcemanager的HA,并进行测试 2.增加了Job History Serve的配置 3.增加HBase的搭建 1.增加了Resourcemanager的HA,并进行测试 2.增加了Job History Serve的配置 3.增加HBase的搭建
- 问题现象和分析过程:1、在hadoop-3.1.1-src目录中执行 mvn package -DskipTests -Pdist,native -Dtar -Dmaven.javadoc.skip=true 过 程中提示“rpc/types.h:No such file or directory”hadoop-3.1.1-src/hadoop-tools/hadoop-pipes/src/... 问题现象和分析过程:1、在hadoop-3.1.1-src目录中执行 mvn package -DskipTests -Pdist,native -Dtar -Dmaven.javadoc.skip=true 过 程中提示“rpc/types.h:No such file or directory”hadoop-3.1.1-src/hadoop-tools/hadoop-pipes/src/...
- HDFS 就是Hadoop 分布式文件系统,也是Hadoop的三大重要组件之一,它主要是处理大数据场景下数据的增、删、改、查,因此它的场景特点有:数据量非常大、一般适合存储读写大文件、对于文件数据的可靠性要求较高。HDFS主要的三大组件分别是Client、Namenode、Datanode;其中Client作为HDFS对外提供服务的一个接口,能否让用户的分布式操作和在一台主机操作一样的方便,... HDFS 就是Hadoop 分布式文件系统,也是Hadoop的三大重要组件之一,它主要是处理大数据场景下数据的增、删、改、查,因此它的场景特点有:数据量非常大、一般适合存储读写大文件、对于文件数据的可靠性要求较高。HDFS主要的三大组件分别是Client、Namenode、Datanode;其中Client作为HDFS对外提供服务的一个接口,能否让用户的分布式操作和在一台主机操作一样的方便,...
- 文件系统元数据的持久性HDFS命名空间存储在NameNode结点中。NameNode使用Editlog记录文件系统元数据的每一次变更。Editlog是一个事务型日志。例如,HDFS创建新文件时会在Editlog文件中插入一条记录。类似地,文件副本数的变更也会引起在Editlog文件中记录一条日志。NameNode结点使用本地文件系统存储Editlog文件。FsImage文件中存储了文件系统命... 文件系统元数据的持久性HDFS命名空间存储在NameNode结点中。NameNode使用Editlog记录文件系统元数据的每一次变更。Editlog是一个事务型日志。例如,HDFS创建新文件时会在Editlog文件中插入一条记录。类似地,文件副本数的变更也会引起在Editlog文件中记录一条日志。NameNode结点使用本地文件系统存储Editlog文件。FsImage文件中存储了文件系统命...
- 翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------介绍HDFS,The Hadoop Distributed FIle System 是设计用... 翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------介绍HDFS,The Hadoop Distributed FIle System 是设计用...
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 本节书摘来自华章计算机《大数据技术丛书 Flink原理、实战与性能优化》一书中的第2章,第2.1节,作者是张利兵。 本节书摘来自华章计算机《大数据技术丛书 Flink原理、实战与性能优化》一书中的第2章,第2.1节,作者是张利兵。
上滑加载中
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签