Hadoop_标签_开发者_华为云

博客(759)
视频(1)
论坛(0)
云声(0)
代码示例(0)

23篇大数据系列（一）java基础知识全集（2万字干货，建议收藏）
大数据系列爽文，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌握大数据的基础知识，与其他同事沟通无障碍； ❖ 具备一定的项目实战能力，对于大数据工作直接上手；   有问题的小伙伴欢迎csdn主...

不吃西红柿
发表于2021-07-14 22:55:11
5052 0 0

5.0k 0 0

大数据系列爽文，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌握大数据的基础知识，与其他同事沟通无障碍； ❖ 具备一定的项目实战能力，对于大数据工作直接上手；   有问题的小伙伴欢迎csdn主...
Hadoop Java 大数据
Linux中安装配置hadoop集群
原文：http://www.cnblogs.com/lijingchn/p/5574476.html 一. 简介　　参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础...

风吹稻花香
发表于2021-06-05 00:37:39
3035 0 0

3.0k 0 0

原文：http://www.cnblogs.com/lijingchn/p/5574476.html 一. 简介　　参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础...
Hadoop Linux
初识Hadoop之概念认知篇
Hadoop作为大数据的支撑，那么我们会有一些疑问，什么是Hadoop，Hadoop能够做些什么，它的优点是什么，它是如何进行海量数据的操作的。相信这些疑问，一定在此时困扰着你，不要担心，下面我们一步一步的去认识Hadoop这个神奇的的小象！起源从1946年开始计算机的诞生，再到如今的2020年人工智能大数据时代，我们的数据一直在呈现级数似的增长，在过去的十几年...

王小王-123
发表于2021-04-20 00:23:39
3364 0 0

3.3k 0 0

Hadoop作为大数据的支撑，那么我们会有一些疑问，什么是Hadoop，Hadoop能够做些什么，它的优点是什么，它是如何进行海量数据的操作的。相信这些疑问，一定在此时困扰着你，不要担心，下面我们一步一步的去认识Hadoop这个神奇的的小象！起源从1946年开始计算机的诞生，再到如今的2020年人工智能大数据时代，我们的数据一直在呈现级数似的增长，在过去的十几年...
Hadoop 大数据
在Hadoop环境里面统计西游记文章的词组（hdfs实验）
在Hadoop的环境里面我们测试一个文件，对西游记这个书籍里面的所有词语，进行统计排序。hadoop包括两个核心组成：HDFS：分布式文件系统，存储海量的数据MapReduce：并行处理框架，实现任务分解和调度。 hadoop运行机制 MapReduce工作原理首先我们准备四个文件，在自己Windows里面已经写好的，或者是从其他地方copy过来的（涉及一些...

王小王-123
发表于2021-04-19 23:17:15
3095 0 0

3.0k 0 0

在Hadoop的环境里面我们测试一个文件，对西游记这个书籍里面的所有词语，进行统计排序。hadoop包括两个核心组成：HDFS：分布式文件系统，存储海量的数据MapReduce：并行处理框架，实现任务分解和调度。 hadoop运行机制 MapReduce工作原理首先我们准备四个文件，在自己Windows里面已经写好的，或者是从其他地方copy过来的（涉及一些...
Hadoop Python
使用docker部署hadoop集群-手把手复现
文章目录版本安装docker 创建镜像 centos镜像 hadoop和jdk镜像配置网络配置ssh免密登录配置集群配置环境变量启动测试版本 CentOs7 docker20 jdk1.8 hadoop3.2 手把手复现，有手就行。可以使用虚拟机或服务器，...

唔仄lo咚锵
发表于2021-04-13 00:57:01
4652 0 0

4.6k 0 0

文章目录版本安装docker 创建镜像 centos镜像 hadoop和jdk镜像配置网络配置ssh免密登录配置集群配置环境变量启动测试版本 CentOs7 docker20 jdk1.8 hadoop3.2 手把手复现，有手就行。可以使用虚拟机或服务器，...
Docker Hadoop
flink写入hdfs文件大小和时间间隔
sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意：batchSize和BatchRolloverInterval一定要加L，虽然不加L也不会报错，但笔者遇到一个坑设置10...

bigdata张凯翔
发表于2021-04-05 23:19:27
3566 0 0

3.5k 0 0

sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意：batchSize和BatchRolloverInterval一定要加L，虽然不加L也不会报错，但笔者遇到一个坑设置10...
Flink Hadoop
Checkpoint执行流程
1 简单流程 image.png 0.Flink的JobManager创建CheckpointCoordinator 1.Coordinator向所有的SourceOperator发送Barrier栅栏(理解为执行Checkpoint的信号) 2.SourceOperator接收到Barrier之后,暂停当前的操作(暂停的时间很短,因为后续的写快照是异步的),并制作...

bigdata张凯翔
发表于2021-04-01 01:56:39
2903 0 0

2.9k 0 0

1 简单流程 image.png 0.Flink的JobManager创建CheckpointCoordinator 1.Coordinator向所有的SourceOperator发送Barrier栅栏(理解为执行Checkpoint的信号) 2.SourceOperator接收到Barrier之后,暂停当前的操作(暂停的时间很短,因为后续的写快照是异步的),并制作...
Hadoop
[JiChu3]研究FsStateBackend
image.png 另一种就是在文件系统上的 FsStateBackend 构建方法是需要传一个文件路径和是否异步快照。 State 依然在 TaskManager 内存中，但不会像 MemoryStateBackend 是 5 M 的设置上限 Checkpoint 存储在外部文件系统（本地或 HDFS），打破了总大小 Jobmanager 内存的限制。推荐使用的...

bigdata张凯翔
发表于2021-03-30 02:43:40
2939 0 0

2.9k 0 0

image.png 另一种就是在文件系统上的 FsStateBackend 构建方法是需要传一个文件路径和是否异步快照。 State 依然在 TaskManager 内存中，但不会像 MemoryStateBackend 是 5 M 的设置上限 Checkpoint 存储在外部文件系统（本地或 HDFS），打破了总大小 Jobmanager 内存的限制。推荐使用的...
Hadoop
揭秘hive常见面试题(一)-20道
1）hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化 (1)hive 使用：仓库、工具 (2)hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构。 (3)分区作用：防止数据倾斜 (4)UDF 函数：用户自定义的函数 (主要解决格式，计...

bigdata张凯翔
发表于2021-03-29 01:15:38
3749 0 0

3.7k 0 0

1）hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化 (1)hive 使用：仓库、工具 (2)hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构。 (3)分区作用：防止数据倾斜 (4)UDF 函数：用户自定义的函数 (主要解决格式，计...
Hadoop Hive
namenode处于安全模式怎么解决？
当我们在hdfs上操作文件的时候，有时候会报错，出现namenode in safemode namenode处于安全模式的原因： 1、NameNode发现集群中DataNode丢失达到一定比例（0.01%）时会进入安全模式，此时只允许查看数据不允许对数据进行任何操作。 2、HDFS集群即使启动正常，启动只会依旧会进入安全模式一段时间，这时你不需要理会他，稍等片刻即可...

bigdata张凯翔
发表于2021-03-28 01:04:16
4046 0 0

4.0k 0 0

当我们在hdfs上操作文件的时候，有时候会报错，出现namenode in safemode namenode处于安全模式的原因： 1、NameNode发现集群中DataNode丢失达到一定比例（0.01%）时会进入安全模式，此时只允许查看数据不允许对数据进行任何操作。 2、HDFS集群即使启动正常，启动只会依旧会进入安全模式一段时间，这时你不需要理会他，稍等片刻即可...
Hadoop
Hadoop宕机
1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数： yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰...

bigdata张凯翔
发表于2021-03-28 00:02:59
3502 0 0

3.5k 0 0

1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数： yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰...
Hadoop Kafka
Hadoop参数调优
1）在hdfs-site.xml文件中配置多目录，最好提前配置好，否则更改目录需要重新启动集群 2）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为10台时，此参数设置为60 3）编辑日志存储路径dfs.nam...

bigdata张凯翔
发表于2021-03-27 23:16:19
3574 0 0

3.5k 0 0

1）在hdfs-site.xml文件中配置多目录，最好提前配置好，否则更改目录需要重新启动集群 2）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为10台时，此参数设置为60 3）编辑日志存储路径dfs.nam...
Hadoop
Hadoop 家族技能图谱——包含Hive和Mahout两个大类
导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...

孙叫兽
发表于2021-03-27 22:54:52
3229 0 0

3.2k 0 0

导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...
Hadoop Hive
Hive基础(七)-测试题
1.Hive包含哪些数据模型? image.png database:在HDFS中表现为${hive.metastore.warehouse.dir}目录下一个文件夹。 table:在HDFS中表现所属database目录下一个文件夹 external table:与table类似,不过其数据存放位置可以指定任意HDFS目录路径。 partition:在HDFS中表...

bigdata张凯翔
发表于2021-03-26 00:55:02
3196 0 0

3.1k 0 0

1.Hive包含哪些数据模型? image.png database:在HDFS中表现为${hive.metastore.warehouse.dir}目录下一个文件夹。 table:在HDFS中表现所属database目录下一个文件夹 external table:与table类似,不过其数据存放位置可以指定任意HDFS目录路径。 partition:在HDFS中表...
Hadoop Hive
sqoop 导入导出数据HDFS
sqoop 导入导出数据HDFS 1）导入数据库表数据到 HDFS 默认目录 2）导入数据库表到HDFS指定目录导入导出数据到HIVE 1）将MySQL表中的数据导入到hive中 bin/sqoop import --connect jdbc:mysql://172.16.43.67:3306/userdb --username root --password admin ...

bigdata张凯翔
发表于2021-03-26 00:39:16
3388 0 0

3.3k 0 0

sqoop 导入导出数据HDFS 1）导入数据库表数据到 HDFS 默认目录 2）导入数据库表到HDFS指定目录导入导出数据到HIVE 1）将MySQL表中的数据导入到hive中 bin/sqoop import --connect jdbc:mysql://172.16.43.67:3306/userdb --username root --password admin ...
Hadoop

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript