Hadoop_标签_开发者

博客(763)
视频(1)
论坛(0)
云声(0)
代码示例(0)

MRS集群功能介绍- Kudu
Kudu是专为Apache Hadoop平台开发的列式存储管理器，具有Hadoop生态系统应用程序的共同技术特性：在通用的商用硬件上运行，可水平扩展，提供高可用性。 Kudu的设计具有以下优点： ● 能够快速处理OLAP工作负载 ● 支持与MapReduce，Spark和其他Hadoop生态系统组件集成 ● 与Apache Impala的紧密集成，使其成为将HDFS与Apache Parq...

Ragnar
发表于2020-08-25 14:08:54
5178 0 0

5.1k 0 0

Kudu是专为Apache Hadoop平台开发的列式存储管理器，具有Hadoop生态系统应用程序的共同技术特性：在通用的商用硬件上运行，可水平扩展，提供高可用性。 Kudu的设计具有以下优点： ● 能够快速处理OLAP工作负载 ● 支持与MapReduce，Spark和其他Hadoop生态系统组件集成 ● 与Apache Impala的紧密集成，使其成为将HDFS与Apache Parq...
Hadoop MapReduce
FusionInsight 集群功能介绍-Flume
基本原理简介 Flume是一个分布式、可靠和高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写入各种数据接受方（可定制）的能力。Flume有如下几个特点： ● 收集、聚合事件流数据的分布式框架 ● 通常用于log数据 ...

Ragnar
发表于2020-08-25 14:07:47
5055 0 0

5.0k 0 0

基本原理简介 Flume是一个分布式、可靠和高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写入各种数据接受方（可定制）的能力。Flume有如下几个特点： ● 收集、聚合事件流数据的分布式框架 ● 通常用于log数据 ...
Hadoop FusionInsight
2020-08-24：什么是小文件？很多小文件会有什么问题？很多小文件怎么解决？（大数据）
福哥答案2020-08-24：[知乎答案](https://www.zhihu.com/question/417040766)1.小文件：小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。2.小文件问题：HDFS的小文件问题：（１）HDFS 中任何一个文件，目录或者数据块在 NameNode 节点内存中均以一个对象形式...

福大大架构师每日一题
发表于2020-08-24 22:06:23
8043 0 0

8.0k 0 0

福哥答案2020-08-24：[知乎答案](https://www.zhihu.com/question/417040766)1.小文件：小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。2.小文件问题：HDFS的小文件问题：（１）HDFS 中任何一个文件，目录或者数据块在 NameNode 节点内存中均以一个对象形式...
Hadoop 大数据
hadoop分布式安装（一）
1，建立目录，解压软件清单mkdir -p /hadoop/{soft,nn,dn,tmp,zookeeper,jn}tar xvf hadoop-2.8.3.tar.gz -C /hadoop/softtar xvf zookeeper-3.4.12.tar.gz -C /hadoop/softtar -zxvf jdk-8u161-linux-x64.gz -C /hadoop/soft...

snowofsummer
发表于2020-08-20 13:55:20
7029 0 1

7.0k 0 1

1，建立目录，解压软件清单mkdir -p /hadoop/{soft,nn,dn,tmp,zookeeper,jn}tar xvf hadoop-2.8.3.tar.gz -C /hadoop/softtar xvf zookeeper-3.4.12.tar.gz -C /hadoop/softtar -zxvf jdk-8u161-linux-x64.gz -C /hadoop/soft...
Hadoop 分布式
2020-08-13：Hadoop生态圈的了解？
福哥答案2020-08-13：该项目包括以下模块：1.Common(公共工具)支持其他Hadoop模块的公共工具。2.HDFS（Hadoop分布式文件系统）提供对应用程序数据的高吞吐量访问的分布式文件系统。3.Mapreduce（分布式计算框架，地图还原）一个基于纱线的大数据集并行处理系统。4.Yarn(分布式资源管理器，纱线）一个用于作业调度和集群资源管理的框架。Apache的其他与Had...

福大大架构师每日一题
发表于2020-08-19 11:22:20
4394 0 0

4.3k 0 0

福哥答案2020-08-13：该项目包括以下模块：1.Common(公共工具)支持其他Hadoop模块的公共工具。2.HDFS（Hadoop分布式文件系统）提供对应用程序数据的高吞吐量访问的分布式文件系统。3.Mapreduce（分布式计算框架，地图还原）一个基于纱线的大数据集并行处理系统。4.Yarn(分布式资源管理器，纱线）一个用于作业调度和集群资源管理的框架。Apache的其他与Had...
Hadoop 分布式
HDFS和Yarn接入Rager的鉴权流程
背景：HDFS： HDFS通过ACL控制文件访问权限，不能够提供更加复杂的权限规则。 ACL的控制没有可视化的界面操作，不便于用户权限管理，没有统一的权限管理框架。 Ranger的UI界面操作简单。Yarn： Yarn原来是通过Manager的租户管理界面新建Yarn的队列，然后可以通过将队列绑定给特定的用户来实现权限控制。另外Ranger对所有的访问提供了审计的能力...

KDD
发表于2020-08-05 20:57:45
11154 0 0

11.1k 0 0

背景：HDFS： HDFS通过ACL控制文件访问权限，不能够提供更加复杂的权限规则。 ACL的控制没有可视化的界面操作，不便于用户权限管理，没有统一的权限管理框架。 Ranger的UI界面操作简单。Yarn： Yarn原来是通过Manager的租户管理界面新建Yarn的队列，然后可以通过将队列绑定给特定的用户来实现权限控制。另外Ranger对所有的访问提供了审计的能力...
Yarn Hadoop
Oozie源码分析 (一) : Oozie的客户端启动过程
Oozie（驭象者）是Yahoo开发的工作流引擎，主要用于管理Hadoop任务（支持MapReduce、Spark、Pig、Hive），把这些任务以DAG（有向无环图）方式串接起来。

那人好像一条狗~
发表于2020-06-24 10:46:48
11271 0 0

11.2k 0 0

Oozie（驭象者）是Yahoo开发的工作流引擎，主要用于管理Hadoop任务（支持MapReduce、Spark、Pig、Hive），把这些任务以DAG（有向无环图）方式串接起来。
Shell Hadoop
Hive Orc和Parquet格式默认采用Zstd压缩算法
hive性能优化

wangzhen
发表于2020-05-21 09:29:23
23452 2 2

23.4k 2 2

hive性能优化
Hive Hadoop
apache-atlas安装步骤
一. 简介：Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。二. 前置条件：1.节点上已经安装jdk1.82.由于利用先用hbase进行搭建所以集群已经部署安装hbase服务3.OS版本为 CentOS Linux release ...

李国有
发表于2020-04-27 09:52:47
15054 0 0

15.0k 0 0

一. 简介：Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。二. 前置条件：1.节点上已经安装jdk1.82.由于利用先用hbase进行搭建所以集群已经部署安装hbase服务3.OS版本为 CentOS Linux release ...
Apache Hadoop 华为Atlas 200 DK AI开发者套件
基于Docker搭建Hadoop集群
基于Docker搭建Hadoop集群将Hadoop打包到Docker镜像中，就可以快速的在单个机器上搭建Hadoop集群，这样可以方便新手测试和学习。Hadoop的master和slave分别运行在不同的Docker容器中，其中NameNode、ResourceManager运行在hadoop-master容器中，DataNode、NodeManager运行在hadoop-slave容器中。...

jimmybhb
发表于2019-10-29 17:11:33
9357 1 1

9.3k 1 1

基于Docker搭建Hadoop集群将Hadoop打包到Docker镜像中，就可以快速的在单个机器上搭建Hadoop集群，这样可以方便新手测试和学习。Hadoop的master和slave分别运行在不同的Docker容器中，其中NameNode、ResourceManager运行在hadoop-master容器中，DataNode、NodeManager运行在hadoop-slave容器中。...
Docker Hadoop
Hadoop概念理解
大数据：数据从GB (2的30次方byte) 急速增长到ZB (2的70次方byte)，需要通过分部署存储和分布式计算解决数据处理问题。

风中的叶子
发表于2019-09-25 11:38:58
5291 0 0

5.2k 0 0

大数据：数据从GB (2的30次方byte) 急速增长到ZB (2的70次方byte)，需要通过分部署存储和分布式计算解决数据处理问题。
Hadoop 大数据
HDFS官网翻译——HDFS 架构指南（三）
翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------数据复制HDFS主要用于集群中可靠存储大型文件。它将每个文件作为一个快序列存储起来；文件包含...

敏敏君主
发表于2021-01-29 10:05:22
11635 0 0

11.6k 0 0

翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------数据复制HDFS主要用于集群中可靠存储大型文件。它将每个文件作为一个快序列存储起来；文件包含...
Hadoop 机器翻译
HDFS官网翻译——HDFS 架构指南（二）
翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------NameNode 和 DataNodesHDFS是一个主备架构。一个HDFS集群包含一个Na...

敏敏君主
发表于2021-01-29 09:31:25
12030 0 0

12.0k 0 0

翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------NameNode 和 DataNodesHDFS是一个主备架构。一个HDFS集群包含一个Na...
Hadoop 机器翻译
海量小文件处理方式——新增组件完成小文件识别、合并与预取
上周我们一起了解了下合并算法，这篇我们开始聊聊组件架构。整体架构如下图所示：由原来的HDFS的NameNode、DataNode，与新增的组件中各个模块组成——Building TaskQueue（小文件队列）、File Merging Strategy（小文件合并）、Index File（索引文件）、Prefetching（预取）。除了HDFS原...

敏敏君主
发表于2021-01-26 11:46:38
11596 0 1

11.5k 0 1

上周我们一起了解了下合并算法，这篇我们开始聊聊组件架构。整体架构如下图所示：由原来的HDFS的NameNode、DataNode，与新增的组件中各个模块组成——Building TaskQueue（小文件队列）、File Merging Strategy（小文件合并）、Index File（索引文件）、Prefetching（预取）。除了HDFS原...
Hadoop
海量小文件处理方式——合并算法介绍
大数据分析平台以下面的格式存储设备文件：/var/work/${file type}/year/month/day，形象的图如下：比如/var/work/pcap/2018/10/02/file1，file2...... 大数据分析平台小文件合并算法是基于上述目录分层的，算法输入是上面的某个目录，比如/var/work/pcap/2018/10/02，算法输出是一个或者...

敏敏君主
发表于2021-01-21 19:58:09
12988 0 0

12.9k 0 0

大数据分析平台以下面的格式存储设备文件：/var/work/${file type}/year/month/day，形象的图如下：比如/var/work/pcap/2018/10/02/file1，file2...... 大数据分析平台小文件合并算法是基于上述目录分层的，算法输入是上面的某个目录，比如/var/work/pcap/2018/10/02，算法输出是一个或者...
Hadoop

上滑加载中

推荐直播

码道新技能，AI 新生产力——从自动视频生成到开源项目解析
2026/04/08 周三 19:00-21:00

童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人

本次华为云码道 Skill 实战活动，聚焦两大 AI 开发场景：通过实战教学，带你打造 AI 编程自动生成视频 Skill，并实现对 GitHub 热门开源项目的智能知识抽取，手把手掌握 Skill 开发全流程，用 AI 提升研发效率与内容生产力。
回顾中
华为云码道：零代码股票智能决策平台全功能实战
2026/04/18 周六 10:00-12:00

秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家

利用Tushare接口获取实时行情数据，采用Transformer算法进行时序预测与涨跌分析，并集成DeepSeek API提供智能解读。同时，项目深度结合华为云CodeArts（码道）的代码智能体能力，实现代码一键推送至云端代码仓库，建立起高效、可协作的团队开发新范式。开发者可快速上手，从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
华为云码道全新升级，多会话并行与多智能体协作
2026/05/08 周五 19:00-21:00

王一男-华为云码道产品专家；张嘉冉-华为云码道工程师；胡琦-华为云HCDE；程诗杰-华为云HCDG

华为云码道4月份版本全新升级，此次直播深度解读4月份产品特性，通过“特性解读+实操演示+实战案例+设计创新”的组合，全方位展现码道在多会话并行与多智能体协作方面的能力，赋能开发者提升效率
正在直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript