- 需求背景 每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。 解决方法 通过shell脚本通... 需求背景 每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。 解决方法 通过shell脚本通...
- CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_... CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_...
- 背景:DSG数据同步到hadoop平台,发现部分表中数据存在竖线分隔符(“|”),导致hadoop平台数据不准确。 为解决此问题并避免出现内容带分隔符的可能情况,商定分隔符修改为CtrlA(ascii是... 背景:DSG数据同步到hadoop平台,发现部分表中数据存在竖线分隔符(“|”),导致hadoop平台数据不准确。 为解决此问题并避免出现内容带分隔符的可能情况,商定分隔符修改为CtrlA(ascii是...
- 所需jar包路径: hadoop-2.8.5/share/hadoop/common hadoop-2.8.5/share/hadoop/common/bin hadoop-2.8.5/share/hadoop/hdfs hadoop-2.8.5/share/hadoop/hdfs/bin 12345 java代码实例 import org.apache.had... 所需jar包路径: hadoop-2.8.5/share/hadoop/common hadoop-2.8.5/share/hadoop/common/bin hadoop-2.8.5/share/hadoop/hdfs hadoop-2.8.5/share/hadoop/hdfs/bin 12345 java代码实例 import org.apache.had...
- [root@node01]# adduser hadoop [root@node01]# passwd hadoop 更改用户 hadoop 的密码 。 新的 密码: 重新输入新的 密码: passwd:所有的身份验证令牌已经成功更新。 [root@node01]# #添加hadoop授权 [root@node01]# chmod -v u+w /etc/sudoers... [root@node01]# adduser hadoop [root@node01]# passwd hadoop 更改用户 hadoop 的密码 。 新的 密码: 重新输入新的 密码: passwd:所有的身份验证令牌已经成功更新。 [root@node01]# #添加hadoop授权 [root@node01]# chmod -v u+w /etc/sudoers...
- @Author : By Runsen @Date : 2020/6/20 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客... @Author : By Runsen @Date : 2020/6/20 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客...
- 文章目录 概述 优点 缺点 基本结构 Block NameNode 元数据 持久化文件:edits和fsimage NameNode SecondaryNameNode DataNode 副本放置策略 机架感知策略 HDFS基本命令 其他命令 一、概述 二、配置 三、注意事项 ... 文章目录 概述 优点 缺点 基本结构 Block NameNode 元数据 持久化文件:edits和fsimage NameNode SecondaryNameNode DataNode 副本放置策略 机架感知策略 HDFS基本命令 其他命令 一、概述 二、配置 三、注意事项 ...
- @Author : By Runsen @Date : 2020/6/20 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客... @Author : By Runsen @Date : 2020/6/20 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客...
- 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS ... 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS ...
- 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌握大数据的基础知识,与其他同事沟通无障碍; ❖ 具备一定的项目实战能力,对于大数据工作直接上手; 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌握大数据的基础知识,与其他同事沟通无障碍; ❖ 具备一定的项目实战能力,对于大数据工作直接上手;
- 背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本... 背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本...
- 目录 1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型 1、olap和oltp的区别 OLTPOLAP对象业务开发人员分析决策人员功能日常事务处理面向分析决策模型关系模型多维模型数据量几条或几十条记录>百万于万条记录操作类型增、删、查、改(CRUD)查询为主总体概括联机事务处理在线分析处理 2、OLAP分类 MOLAP,... 目录 1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型 1、olap和oltp的区别 OLTPOLAP对象业务开发人员分析决策人员功能日常事务处理面向分析决策模型关系模型多维模型数据量几条或几十条记录>百万于万条记录操作类型增、删、查、改(CRUD)查询为主总体概括联机事务处理在线分析处理 2、OLAP分类 MOLAP,...
- 三更灯火五更鸡,正是男儿读书时。 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助。 分类名称简介功能特点使用场景大数据存储HDFSHDFS是一个分布式的文件系统,它具有高度的容错,高吞吐量,弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。高容错性 HDFS通过多方面保证数据的可靠性,多个副本... 三更灯火五更鸡,正是男儿读书时。 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助。 分类名称简介功能特点使用场景大数据存储HDFSHDFS是一个分布式的文件系统,它具有高度的容错,高吞吐量,弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。高容错性 HDFS通过多方面保证数据的可靠性,多个副本...
- 作者简介: 蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌... 作者简介: 蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌...
- 作者简介 蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 免费下载海量【PPT模板、简历模板、学习资料】: https://blog.csdn.net/weixin_39032019/article/details/118088462 ... 作者简介 蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 免费下载海量【PPT模板、简历模板、学习资料】: https://blog.csdn.net/weixin_39032019/article/details/118088462 ...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签