Hadoop_标签_开发者

博客(763)
视频(1)
论坛(0)
云声(0)
代码示例(0)

Yarn知识点整理
        前段时间记录了技术博客Yarn快速入门系列（1-5）,详情请见Yarn专栏。最近打算花点时间把Yarn也精炼...

大数据梦想家
发表于2021-09-28 22:52:18
4832 0 0

4.8k 0 0

        前段时间记录了技术博客Yarn快速入门系列（1-5）,详情请见Yarn专栏。最近打算花点时间把Yarn也精炼...
Hadoop Yarn
Hbase伪分布式模式部署
HBase是一个分布式、面向列的开源数据库，是Apache Hadoop项目的子项目，适用于非结构化数据存储的数据库。在Hadoop家族中，很多产品为HBase提供服务： Hadoop HDFS为HBase提供了高可靠性的底层存储支持；Hadoop MapReduce为HBase提供了高性能的计算能力；Zookeeper为HBas...

看山
发表于2021-09-28 22:46:35
4151 0 0

4.1k 0 0

HBase是一个分布式、面向列的开源数据库，是Apache Hadoop项目的子项目，适用于非结构化数据存储的数据库。在Hadoop家族中，很多产品为HBase提供服务： Hadoop HDFS为HBase提供了高可靠性的底层存储支持；Hadoop MapReduce为HBase提供了高性能的计算能力；Zookeeper为HBas...
Hadoop HBase 分布式
Hadoop单机模式部署
Hadoop的安装有三种运行模式：单机模式（Local (Standalone) Mode）：Hadoop的默认模式，0配置。Hadoop运行在一个Java进程中，使用本地文件系统，不使用HDFS，一般用于开发调试MapReduce程序的应用逻辑。伪分布式模式（Pseudo-Distributed Mode）：需简单配置，相当于只有...

看山
发表于2021-09-28 22:43:58
3219 0 0

3.2k 0 0

Hadoop的安装有三种运行模式：单机模式（Local (Standalone) Mode）：Hadoop的默认模式，0配置。Hadoop运行在一个Java进程中，使用本地文件系统，不使用HDFS，一般用于开发调试MapReduce程序的应用逻辑。伪分布式模式（Pseudo-Distributed Mode）：需简单配置，相当于只有...
Hadoop Java
Hue集成HDFS
        相信大家在看了《Hue的安装,配置,编译》之后,都已经成功把Hue安装好了。   &...

大数据梦想家
发表于2021-09-28 00:03:57
2907 0 0

2.9k 0 0

        相信大家在看了《Hue的安装,配置,编译》之后,都已经成功把Hue安装好了。   &...
Hadoop
Shell遍历hadoop目录的批量操作
需求背景每天产生3T（约2.5W个gz压缩文件）的DPI日志文件，因存储等各种问题，需要尽可能的节约存储。日志文件中有26个字段，根据业务需求需要提取6个字段。解决方法通过shell脚本通...

小工匠
发表于2021-09-11 01:09:38
3328 0 0

3.3k 0 0

需求背景每天产生3T（约2.5W个gz压缩文件）的DPI日志文件，因存储等各种问题，需要尽可能的节约存储。日志文件中有26个字段，根据业务需求需要提取6个字段。解决方法通过shell脚本通...
Hadoop Shell
Hdfs 导入Hive，时间相关的字段导入后为NULL
CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_...

小工匠
发表于2021-09-10 02:23:19
3321 0 0

3.3k 0 0

CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_...
Hadoop Hive
大数据文件分隔符
背景：DSG数据同步到hadoop平台，发现部分表中数据存在竖线分隔符（“|”）,导致hadoop平台数据不准确。为解决此问题并避免出现内容带分隔符的可能情况，商定分隔符修改为CtrlA（ascii是...

小工匠
发表于2021-09-10 01:55:31
3132 0 0

3.1k 0 0

背景：DSG数据同步到hadoop平台，发现部分表中数据存在竖线分隔符（“|”）,导致hadoop平台数据不准确。为解决此问题并避免出现内容带分隔符的可能情况，商定分隔符修改为CtrlA（ascii是...
Hadoop 大数据
Java: Hadoop文件系统的读写操作
所需jar包路径： hadoop-2.8.5/share/hadoop/common hadoop-2.8.5/share/hadoop/common/bin hadoop-2.8.5/share/hadoop/hdfs hadoop-2.8.5/share/hadoop/hdfs/bin 12345 java代码实例 import org.apache.had...

彭世瑜
发表于2021-08-13 23:28:15
3837 0 0

3.8k 0 0

所需jar包路径： hadoop-2.8.5/share/hadoop/common hadoop-2.8.5/share/hadoop/common/bin hadoop-2.8.5/share/hadoop/hdfs hadoop-2.8.5/share/hadoop/hdfs/bin 12345 java代码实例 import org.apache.had...
Hadoop Java
创建hadoop用户并配置ssh免密码登录
[root@node01]# adduser hadoop [root@node01]# passwd hadoop 更改用户 hadoop 的密码。新的密码：重新输入新的密码： passwd：所有的身份验证令牌已经成功更新。 [root@node01]# #添加hadoop授权 [root@node01]# chmod -v u+w /etc/sudoers...

毛利
发表于2021-07-15 04:54:40
3808 0 0

3.8k 0 0

[root@node01]# adduser hadoop [root@node01]# passwd hadoop 更改用户 hadoop 的密码。新的密码：重新输入新的密码： passwd：所有的身份验证令牌已经成功更新。 [root@node01]# #添加hadoop授权 [root@node01]# chmod -v u+w /etc/sudoers...
Hadoop ssh
二、HDFS基本架构和shell操作
@Author ： By Runsen @Date ： 2020/6/20 作者介绍：Runsen目前大三下学期，专业化学工程与工艺，大学沉迷日语，Python， Java和一系列数据分析软件。导致翘课严重，专业排名中下。.在大学60%的时间，都在CSDN。在一月到四月都没怎么写博客，因为决定写书，结果出书方说大学生就是一个菜鸟，看我确实还是一个菜鸟，就更新到博客...

毛利
发表于2021-07-15 04:49:26
3385 0 0

3.3k 0 0

@Author ： By Runsen @Date ： 2020/6/20 作者介绍：Runsen目前大三下学期，专业化学工程与工艺，大学沉迷日语，Python， Java和一系列数据分析软件。导致翘课严重，专业排名中下。.在大学60%的时间，都在CSDN。在一月到四月都没怎么写博客，因为决定写书，结果出书方说大学生就是一个菜鸟，看我确实还是一个菜鸟，就更新到博客...
Hadoop Shell
【大数据教程】HDFS基本架构、基本命令、回收站机制和API操作
文章目录概述优点缺点基本结构 Block NameNode 元数据持久化文件：edits和fsimage NameNode SecondaryNameNode DataNode 副本放置策略机架感知策略 HDFS基本命令其他命令一、概述二、配置三、注意事项 ...

毛利
发表于2021-07-15 03:54:37
3450 0 0

3.4k 0 0

文章目录概述优点缺点基本结构 Block NameNode 元数据持久化文件：edits和fsimage NameNode SecondaryNameNode DataNode 副本放置策略机架感知策略 HDFS基本命令其他命令一、概述二、配置三、注意事项 ...
API Hadoop 大数据
三、HDFS中的Python 和JavaAPI
@Author ： By Runsen @Date ： 2020/6/20 作者介绍：Runsen目前大三下学期，专业化学工程与工艺，大学沉迷日语，Python， Java和一系列数据分析软件。导致翘课严重，专业排名中下。.在大学60%的时间，都在CSDN。在一月到四月都没怎么写博客，因为决定写书，结果出书方说大学生就是一个菜鸟，看我确实还是一个菜鸟，就更新到博客...

毛利
发表于2021-07-15 03:43:06
3306 0 0

3.3k 0 0

@Author ： By Runsen @Date ： 2020/6/20 作者介绍：Runsen目前大三下学期，专业化学工程与工艺，大学沉迷日语，Python， Java和一系列数据分析软件。导致翘课严重，专业排名中下。.在大学60%的时间，都在CSDN。在一月到四月都没怎么写博客，因为决定写书，结果出书方说大学生就是一个菜鸟，看我确实还是一个菜鸟，就更新到博客...
Hadoop Java Python
二、分布式文件系统HDFS及其简单使用
在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS ...

毛利
发表于2021-07-15 03:07:57
3250 0 0

3.2k 0 0

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS ...
Hadoop 分布式
23篇大数据系列（三）sql基础知识（史上最全，建议收藏）
大数据系列文章，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌握大数据的基础知识，与其他同事沟通无障碍； ❖ 具备一定的项目实战能力，对于大数据工作直接上手；

不吃西红柿
发表于2021-07-15 00:24:35
5996 0 0

5.9k 0 0

大数据系列文章，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌握大数据的基础知识，与其他同事沟通无障碍； ❖ 具备一定的项目实战能力，对于大数据工作直接上手；
Hadoop SQL 大数据
两种列式存储格式：Parquet和ORC
背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本...

不吃西红柿
发表于2021-07-15 00:18:18
15657 0 1

15.6k 0 1

背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本...
Hadoop

上滑加载中

推荐直播

码道新技能，AI 新生产力——从自动视频生成到开源项目解析
2026/04/08 周三 19:00-21:00

童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人

本次华为云码道 Skill 实战活动，聚焦两大 AI 开发场景：通过实战教学，带你打造 AI 编程自动生成视频 Skill，并实现对 GitHub 热门开源项目的智能知识抽取，手把手掌握 Skill 开发全流程，用 AI 提升研发效率与内容生产力。
回顾中
华为云码道：零代码股票智能决策平台全功能实战
2026/04/18 周六 10:00-12:00

秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家

利用Tushare接口获取实时行情数据，采用Transformer算法进行时序预测与涨跌分析，并集成DeepSeek API提供智能解读。同时，项目深度结合华为云CodeArts（码道）的代码智能体能力，实现代码一键推送至云端代码仓库，建立起高效、可协作的团队开发新范式。开发者可快速上手，从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
华为云码道全新升级，多会话并行与多智能体协作
2026/05/08 周五 19:00-21:00

王一男-华为云码道产品专家；张嘉冉-华为云码道工程师；胡琦-华为云HCDE；程诗杰-华为云HCDG

华为云码道4月份版本全新升级，此次直播深度解读4月份产品特性，通过“特性解读+实操演示+实战案例+设计创新”的组合，全方位展现码道在多会话并行与多智能体协作方面的能力，赋能开发者提升效率
正在直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript