- Hadoop概述 Hadoop概述
- 经历了三个阶段大概三个月的学习,大数据全栈课程迎来了尾声,今天是大数据三阶段的最后一天,也是整个大数据课程的最后一天。这三个月的学习过程,并不是一帆风顺,而且一路荆棘。第一阶段:大数据入门篇 第一阶段的课程主要是大数据的入门知识,包括MySQL基本知识、各种概念和常用语句、JDBC的使用还有数据库事务等等,虽然是基础知识,但是非常实用,在开发中会经常用到,基本上就是对数据库的各... 经历了三个阶段大概三个月的学习,大数据全栈课程迎来了尾声,今天是大数据三阶段的最后一天,也是整个大数据课程的最后一天。这三个月的学习过程,并不是一帆风顺,而且一路荆棘。第一阶段:大数据入门篇 第一阶段的课程主要是大数据的入门知识,包括MySQL基本知识、各种概念和常用语句、JDBC的使用还有数据库事务等等,虽然是基础知识,但是非常实用,在开发中会经常用到,基本上就是对数据库的各...
- 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa... 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa...
- HBase提高写入速度参数配置-测试案例 HBase提高写入速度参数配置-测试案例
- 第二节:Hadoop优势Hadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败任务重新分配Hadoop1.x和2.x的区别Had... 第二节:Hadoop优势Hadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败任务重新分配Hadoop1.x和2.x的区别Had...
- 第一节:什么是Hadoop1)Hadoop是一个有Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈Hadoop发展史:1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括... 第一节:什么是Hadoop1)Hadoop是一个有Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈Hadoop发展史:1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括...
- 最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无秘钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题。 最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无秘钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题。
- 2020年8月27日,中国工商银行联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,为期两周的升级过程突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,为全行上百个应用、上千个场景、上万个作业保障了7*24小时不间断的数据服务。本次滚动升级对金融科技领域意义重大,中国工商银行为金融同业树立了大数据服务连续性上的建设标杆。 2020年8月27日,中国工商银行联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,为期两周的升级过程突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,为全行上百个应用、上千个场景、上万个作业保障了7*24小时不间断的数据服务。本次滚动升级对金融科技领域意义重大,中国工商银行为金融同业树立了大数据服务连续性上的建设标杆。
- 1.增加了Resourcemanager的HA,并进行测试 2.增加了Job History Serve的配置 3.增加HBase的搭建 1.增加了Resourcemanager的HA,并进行测试 2.增加了Job History Serve的配置 3.增加HBase的搭建
- 问题现象和分析过程:1、在hadoop-3.1.1-src目录中执行 mvn package -DskipTests -Pdist,native -Dtar -Dmaven.javadoc.skip=true 过 程中提示“rpc/types.h:No such file or directory”hadoop-3.1.1-src/hadoop-tools/hadoop-pipes/src/... 问题现象和分析过程:1、在hadoop-3.1.1-src目录中执行 mvn package -DskipTests -Pdist,native -Dtar -Dmaven.javadoc.skip=true 过 程中提示“rpc/types.h:No such file or directory”hadoop-3.1.1-src/hadoop-tools/hadoop-pipes/src/...
- HDFS 就是Hadoop 分布式文件系统,也是Hadoop的三大重要组件之一,它主要是处理大数据场景下数据的增、删、改、查,因此它的场景特点有:数据量非常大、一般适合存储读写大文件、对于文件数据的可靠性要求较高。HDFS主要的三大组件分别是Client、Namenode、Datanode;其中Client作为HDFS对外提供服务的一个接口,能否让用户的分布式操作和在一台主机操作一样的方便,... HDFS 就是Hadoop 分布式文件系统,也是Hadoop的三大重要组件之一,它主要是处理大数据场景下数据的增、删、改、查,因此它的场景特点有:数据量非常大、一般适合存储读写大文件、对于文件数据的可靠性要求较高。HDFS主要的三大组件分别是Client、Namenode、Datanode;其中Client作为HDFS对外提供服务的一个接口,能否让用户的分布式操作和在一台主机操作一样的方便,...
- 文件系统元数据的持久性HDFS命名空间存储在NameNode结点中。NameNode使用Editlog记录文件系统元数据的每一次变更。Editlog是一个事务型日志。例如,HDFS创建新文件时会在Editlog文件中插入一条记录。类似地,文件副本数的变更也会引起在Editlog文件中记录一条日志。NameNode结点使用本地文件系统存储Editlog文件。FsImage文件中存储了文件系统命... 文件系统元数据的持久性HDFS命名空间存储在NameNode结点中。NameNode使用Editlog记录文件系统元数据的每一次变更。Editlog是一个事务型日志。例如,HDFS创建新文件时会在Editlog文件中插入一条记录。类似地,文件副本数的变更也会引起在Editlog文件中记录一条日志。NameNode结点使用本地文件系统存储Editlog文件。FsImage文件中存储了文件系统命...
- 翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------介绍HDFS,The Hadoop Distributed FIle System 是设计用... 翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------介绍HDFS,The Hadoop Distributed FIle System 是设计用...
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 本节书摘来自华章计算机《大数据技术丛书 Flink原理、实战与性能优化》一书中的第2章,第2.1节,作者是张利兵。 本节书摘来自华章计算机《大数据技术丛书 Flink原理、实战与性能优化》一书中的第2章,第2.1节,作者是张利兵。
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签