Hadoop_标签_开发者_华为云

博客(763)
视频(1)
论坛(0)
云声(0)
代码示例(0)

获取spark 或hadoop运行日志
获取spark 或hadoop运行日志https://bbs.huaweicloud.cn/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347

anqier
发表于2021-11-05 15:53:01
10037 0 0

10.0k 0 0

获取spark 或hadoop运行日志https://bbs.huaweicloud.cn/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347
Hadoop spark
【大数据全栈成长计划 Hadoop学习篇】第二阶段最终积分排行榜和最终考核成绩出炉！
各位进阶中的开发者们，大数据全栈成长计划第二阶段所有学习任务都已经结束大家心心念念的最终积分排行榜也已经出炉我们设置学习任务的目的就是想让大家在听课之余，用作业和心得来检验自己的学习成果最终积分排名会按照活动帖中介绍1-100名有实体奖品当排名节点处出现同分时，我们的评判标准为：阶段考核>问答官>分享转发>每周学习笔记>每章随堂测验；根据每个项目打卡时间的先后顺序排名积分统计依据：第一阶段积...

7号小助手
发表于2021-03-15 18:38:00
5979 0 0

5.9k 0 0

各位进阶中的开发者们，大数据全栈成长计划第二阶段所有学习任务都已经结束大家心心念念的最终积分排行榜也已经出炉我们设置学习任务的目的就是想让大家在听课之余，用作业和心得来检验自己的学习成果最终积分排名会按照活动帖中介绍1-100名有实体奖品当排名节点处出现同分时，我们的评判标准为：阶段考核>问答官>分享转发>每周学习笔记>每章随堂测验；根据每个项目打卡时间的先后顺序排名积分统计依据：第一阶段积...
Hadoop 大数据
[大数据学习之路] Hadoop该怎样入门(二)
我们在第一节中详细介绍了该如何安装Hadoop及其配置细节。接下来我们来看看如何运行第一个HelloWorld文件呢。我们可以在命令行输入以下命令：$mkdir input$cd input$echo "hello world">test1.txt$echo "hello hadoop">test2.txt$cd ..$bin/hadoop dfs -put input in$bin/had...

franco52576
发表于2021-03-04 23:26:11
5652 0 0

5.6k 0 0

我们在第一节中详细介绍了该如何安装Hadoop及其配置细节。接下来我们来看看如何运行第一个HelloWorld文件呢。我们可以在命令行输入以下命令：$mkdir input$cd input$echo "hello world">test1.txt$echo "hello hadoop">test2.txt$cd ..$bin/hadoop dfs -put input in$bin/had...
Hadoop 大数据
[大数据学习之路] Hadoop该怎样入门(一)
与之前的文章一样，还是先介绍一下什么是Hadoop吧！Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cos...

franco52576
发表于2021-03-04 23:18:32
5577 0 0

5.5k 0 0

与之前的文章一样，还是先介绍一下什么是Hadoop吧！Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cos...
Hadoop 大数据
【Hadoop】【Yarn】Yarn中的资源隔离（转载）
【Hadoop】【Yarn】Yarn中的资源隔离（转载）

沙漠里的果果酱
发表于2023-08-10 11:08:40
4645 0 0

4.6k 0 0

【Hadoop】【Yarn】Yarn中的资源隔离（转载）
Hadoop Yarn 任务调度
【调优指导】TEZ常见调优参数
Hive on Tez常用调优参数

李松
发表于2022-11-08 09:37:33
20059 1 0

20.0k 1 0

Hive on Tez常用调优参数
EI企业智能 FusionInsight Hadoop Hive
hdfs执行balance均衡时间预估计算
hdfs执行balance均衡时间预估假设原有10个节点数据量347T；现扩容3节点3.7T数据大约要迁移170T数据出去假设带宽设置20M一直不变170*1024*1024=178257920M数据量/（带宽*节点数），节点数按照新老节点较小值计算数据迁移的时间为178257920M/20/3/60/60约等于825小时

骑蜗牛追大象
发表于2022-02-18 14:36:50
3182 0 0

3.1k 0 0

hdfs执行balance均衡时间预估假设原有10个节点数据量347T；现扩容3节点3.7T数据大约要迁移170T数据出去假设带宽设置20M一直不变170*1024*1024=178257920M数据量/（带宽*节点数），节点数按照新老节点较小值计算数据迁移的时间为178257920M/20/3/60/60约等于825小时
Hadoop
大数据学习笔记30：搭建高可用Hadoop集群
文章目录一、准备工作 1、由CentOS7克隆三个虚拟机 2、设置虚拟机主机名（1）设置虚拟机master主机名 ...

howard2005
发表于2021-11-19 03:30:12
3776 0 0

3.7k 0 0

文章目录一、准备工作 1、由CentOS7克隆三个虚拟机 2、设置虚拟机主机名（1）设置虚拟机master主机名 ...
Hadoop 大数据
Windows连接远程hdfs出现java.lang.UnsatisfiedLinkError: org.apache.hado
背景以前写spark都没有读取过hdfs文件，而是读取本地文件，今天试了一下读取公司服务器的文件，做一个简单的word count结果出问题了。Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer...

anqier
发表于2021-11-02 16:59:56
8907 0 0

8.9k 0 0

背景以前写spark都没有读取过hdfs文件，而是读取本地文件，今天试了一下读取公司服务器的文件，做一个简单的word count结果出问题了。Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer...
Hadoop Java Windows
TBase备份恢复实验
　　环境信息：　　1.1 软件环境　　软件名称版本　　TBaseTBase_V2.15.10.1　　JDK1.8.0_40　　Hadoop3.3.0　　1.2 硬件环境　　节点IP端口　　CN1 协调节点 ( 主 )172.21.64.411379　　CN2 协调节点 ( 主 )172.21.64.1411379　　CN1 协调节点 ( 备 )172.21.64.1411300　　CN2 协...

whisperrr
发表于2021-08-12 14:58:29
3713 0 0

3.7k 0 0

　　环境信息：　　1.1 软件环境　　软件名称版本　　TBaseTBase_V2.15.10.1　　JDK1.8.0_40　　Hadoop3.3.0　　1.2 硬件环境　　节点IP端口　　CN1 协调节点 ( 主 )172.21.64.411379　　CN2 协调节点 ( 主 )172.21.64.1411379　　CN1 协调节点 ( 备 )172.21.64.1411300　　CN2 协...
Hadoop 数据库
Spark RDD
1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，...

菜鸟级攻城狮
发表于2021-03-14 15:31:53
4619 0 1

4.6k 0 1

1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，...
Hadoop spark
【详解】Hadoop自定义分组比较器实现分组功能
Hadoop自定义分组比较器实现分组功能在Hadoop MapReduce编程中，默认情况下，框架会根据键（Key）的自然排序来进行分组。然而，在某些应用场景下，我们可能需要根据特定的业务逻辑来对数据进行分组。这时，就需要自定义分组比较器（Grouping Comparator）来满足需求。本文将详细介绍如何在Hadoop中实现自定义分组比较器，并通过一个具体的例子来说明其应用。1. Had...

皮牙子抓饭
发表于2025-12-26 09:44:55
10835 1 0

10.8k 1 0

Hadoop自定义分组比较器实现分组功能在Hadoop MapReduce编程中，默认情况下，框架会根据键（Key）的自然排序来进行分组。然而，在某些应用场景下，我们可能需要根据特定的业务逻辑来对数据进行分组。这时，就需要自定义分组比较器（Grouping Comparator）来满足需求。本文将详细介绍如何在Hadoop中实现自定义分组比较器，并通过一个具体的例子来说明其应用。1. Had...
Hadoop MapReduce
五、Hive表类型、分区及数据加载
在 Hive 中设计表，绝不仅是“建个结构那么简单”。选对内部表或外部表，决定了数据的归属和生命周期；设计合理的静态/动态分区策略，则直接关系到大数据场景下的查询效率和存储管理成本。本文深入讲解 Hive 表类型与分区机制，配合大量实战代码与练习题，带你从“写对语法”走向“设计合理”，让你的数仓查询快到飞起！

IvanCodes
发表于2025-12-20 14:54:49
13025 0 0

13.0k 0 0

在 Hive 中设计表，绝不仅是“建个结构那么简单”。选对内部表或外部表，决定了数据的归属和生命周期；设计合理的静态/动态分区策略，则直接关系到大数据场景下的查询效率和存储管理成本。本文深入讲解 Hive 表类型与分区机制，配合大量实战代码与练习题，带你从“写对语法”走向“设计合理”，让你的数仓查询快到飞起！
Hadoop Hive
谨慎Apache-Zookeeper-3.5.5以后在CentOS7.X安装的坑
本文主要讲解在Centos7中，JDK正确安装及配置，系统防火墙也正常配置，但Zookeeper无法启动的一种可能问题及解决办法

夜郎king
发表于2025-12-04 08:55:20
7015 0 0

7.0k 0 0

本文主要讲解在Centos7中，JDK正确安装及配置，系统防火墙也正常配置，但Zookeeper无法启动的一种可能问题及解决办法
Hadoop Java 城市智能运营中心
分布式存储三国杀：对象存储 vs HDFS vs 列式存储，到底该怎么选？
分布式存储三国杀：对象存储 vs HDFS vs 列式存储，到底该怎么选？

Echo_Wish
发表于2025-12-02 21:57:17
6872 0 0

6.8k 0 0

分布式存储三国杀：对象存储 vs HDFS vs 列式存储，到底该怎么选？
Hadoop 对象存储服务 OBS

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript