Hadoop_标签_开发者_华为云

博客(759)
视频(1)
论坛(0)
云声(0)
代码示例(0)

实时即未来，大数据项目车联网之原始数据实时ETL任务HBase调优（9）
theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第9天，点击查看活动详情 1. 原始数据实时ETL任务HBase调优 1.1 数据写入hbase优化上一节写入数据，一条条数据put到表中，对于大量数据的写入，效率极低，因此针对此项进行优化使用hbase客户端写缓存进行批量写入数据到hbase中hbase客户端写缓存对象:Buffer...

Maynor学长
发表于2022-10-31 12:29:27
4900 0 0

4.9k 0 0

theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第9天，点击查看活动详情 1. 原始数据实时ETL任务HBase调优 1.1 数据写入hbase优化上一节写入数据，一条条数据put到表中，对于大量数据的写入，效率极低，因此针对此项进行优化使用hbase客户端写缓存进行批量写入数据到hbase中hbase客户端写缓存对象:Buffer...
Hadoop HBase
Hadoop之初识MapReduce
1．MapReduce计算模型介绍 1.1．理解MapReduce思想 1.2．Hadoop MapReduce设计构思 2．官方MapReduce示例 2.1．示例1：评估圆周率π（PI） 2.2．示例2：单词词频统计WordCount 3．MapReduce Python接口接入 3.1．前言 3.3．程序执行

chad_chang
发表于2022-10-30 20:12:13
7874 0 0

7.8k 0 0

1．MapReduce计算模型介绍 1.1．理解MapReduce思想 1.2．Hadoop MapReduce设计构思 2．官方MapReduce示例 2.1．示例1：评估圆周率π（PI） 2.2．示例2：单词词频统计WordCount 3．MapReduce Python接口接入 3.1．前言 3.3．程序执行
Hadoop MapReduce
实时即未来，大数据项目车联网之实时ETL开发的核心逻辑
theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第6天，点击查看活动详情 1 实时ETL开发的核心逻辑 1 自定义方法解析json数据读取kafka数据后，对原始数据解析，筛选出解析成功的数据，并把数据转换对象，便于后续逻辑操作。自定义解析json数据为对象：//TODO 7）将json字符串解析成对象SingleOutputStr...

Maynor学长
发表于2022-10-20 14:19:24
5490 0 0

5.4k 0 0

theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第6天，点击查看活动详情 1 实时ETL开发的核心逻辑 1 自定义方法解析json数据读取kafka数据后，对原始数据解析，筛选出解析成功的数据，并把数据转换对象，便于后续逻辑操作。自定义解析json数据为对象：//TODO 7）将json字符串解析成对象SingleOutputStr...
Hadoop 弹性文件服务 SFS
大数据入门学习框架
大数据入门学习框架前言利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的为什么选择学习大数据开发，不选择Java开发？借棋弈做比喻，智商高的不要选择五子琪，要选择围棋，它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂，能够掌握如此复杂的技艺、产生...

Lansonli
发表于2022-10-09 20:13:23
2336 0 1

2.3k 0 1

大数据入门学习框架前言利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的为什么选择学习大数据开发，不选择Java开发？借棋弈做比喻，智商高的不要选择五子琪，要选择围棋，它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂，能够掌握如此复杂的技艺、产生...
Hadoop 大数据
数据治理（十六）：Ranger管理HDFS安全
Ranger管理HDFS安全我们还可以使用Ranger对HDFS进行目录权限访问控制。这里需要添加“HDFS-Plugin”插件。一、安装“HDFS-Plugin”插件安装“HDFS-Plugin”插件步骤如下：1）将编译好的“ranger-2.1.0-hdfs-plugin.tar.gz”发送到node1节点，并解压#将node3上编译好的HDFS插件发送到node1上[root@nod...

Lansonli
发表于2022-09-11 02:25:35
4276 0 2

4.2k 0 2

Ranger管理HDFS安全我们还可以使用Ranger对HDFS进行目录权限访问控制。这里需要添加“HDFS-Plugin”插件。一、安装“HDFS-Plugin”插件安装“HDFS-Plugin”插件步骤如下：1）将编译好的“ranger-2.1.0-hdfs-plugin.tar.gz”发送到node1节点，并解压#将node3上编译好的HDFS插件发送到node1上[root@nod...
Hadoop
大数据ClickHouse（十四）：Integration系列表引擎
Integration系列表引擎ClickHouse提供了许多与外部系统集成的方法，包括一些表引擎。这些表引擎与其他类型的表引擎类似，可以用于将外部数据导入到ClickHouse中，或者在ClickHouse中直接操作外部数据源。一、HDFSHDFS引擎支持ClickHouse 直接读取HDFS中特定格式的数据文件，目前文件格式支持Json,Csv文件等，ClickHouse通过HDFS引擎...

Lansonli
发表于2022-08-30 01:08:11
4128 0 1

4.1k 0 1

Integration系列表引擎ClickHouse提供了许多与外部系统集成的方法，包括一些表引擎。这些表引擎与其他类型的表引擎类似，可以用于将外部数据导入到ClickHouse中，或者在ClickHouse中直接操作外部数据源。一、HDFSHDFS引擎支持ClickHouse 直接读取HDFS中特定格式的数据文件，目前文件格式支持Json,Csv文件等，ClickHouse通过HDFS引擎...
Hadoop MySQL 大数据
docker下，极速搭建spark集群(含hdfs集群)
搭建spark和hdfs的集群环境会消耗一些时间和精力，今天咱们就借助docker，极速搭建和体验spark和hdfs的集群环境

程序员欣宸
发表于2022-08-17 00:02:04
2427 0 0

2.4k 0 0

搭建spark和hdfs的集群环境会消耗一些时间和精力，今天咱们就借助docker，极速搭建和体验spark和hdfs的集群环境
Docker Hadoop spark
行为抽象和Lambda分区
MapReduce功能实现系列： MapReduce功能实现一—Hbase和Hdfs之间数据相互转换 MapReduce功能实现二—排序 MapReduce功能实现三—Top N MapReduce功能实现四—小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3) MapReduce功能实现五—去重(Distinct)、计数(C...

xcc-2022
发表于2022-07-22 14:48:56
3924 0 0

3.9k 0 0

MapReduce功能实现系列： MapReduce功能实现一—Hbase和Hdfs之间数据相互转换 MapReduce功能实现二—排序 MapReduce功能实现三—Top N MapReduce功能实现四—小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3) MapReduce功能实现五—去重(Distinct)、计数(C...
Hadoop MapReduce
数据湖（十六）：Structured Streaming实时写入Iceberg
Structured Streaming实时写入Iceberg目前Spark中Structured Streaming只支持实时向Iceberg中写入数据，不支持实时从Iceberg中读取数据，下面案例我们将使用Structured Streaming从Kafka中实时读取数据，然后将结果实时写入到Iceberg中。一、创建Kafka topic启动Kafka集群，创建“kafka-ice...

Lansonli
发表于2022-07-11 10:37:57
2427 0 1

2.4k 0 1

Structured Streaming实时写入Iceberg目前Spark中Structured Streaming只支持实时向Iceberg中写入数据，不支持实时从Iceberg中读取数据，下面案例我们将使用Structured Streaming从Kafka中实时读取数据，然后将结果实时写入到Iceberg中。一、创建Kafka topic启动Kafka集群，创建“kafka-ice...
Hadoop
使用商业智能软件Superset分析MRS数据之最佳实践
Superset是一款由Airbnb开源的“现代化的企业级BI（商业智能） Web应用程序”，其通过创建和分享dashboard，为数据分析提供了轻量级的数据查询和可视化方案。 MRS是华为云提供的一站式大数据平台，覆盖常用的所有Hadoop生态组件，使用Superset可无缝对接MRS进行自助分析

啊喔YeYe
发表于2022-06-06 17:48:20
11270 0 2

11.2k 0 2

Superset是一款由Airbnb开源的“现代化的企业级BI（商业智能） Web应用程序”，其通过创建和分享dashboard，为数据分析提供了轻量级的数据查询和可视化方案。 MRS是华为云提供的一站式大数据平台，覆盖常用的所有Hadoop生态组件，使用Superset可无缝对接MRS进行自助分析
Hadoop MapReduce
数据湖（五）：Hudi与Hive集成
Hudi与Hive集成一、配置HiveServer2Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中，那么同时映射Hive表，让Hive表映射的数据对应到此路径上，这时Hudi需要通过JDBC方式连接Hive进行元数据操作，这时需要配置HiveServer2。1、在Hive服务端配置hive-site.xml#在Hive 服务端 $HIVE_HOME/con...

Lansonli
发表于2022-06-06 13:12:19
6321 0 0

6.3k 0 0

Hudi与Hive集成一、配置HiveServer2Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中，那么同时映射Hive表，让Hive表映射的数据对应到此路径上，这时Hudi需要通过JDBC方式连接Hive进行元数据操作，这时需要配置HiveServer2。1、在Hive服务端配置hive-site.xml#在Hive 服务端 $HIVE_HOME/con...
Hadoop Hive
hdfs dfs 常用命令
hdfs dfs命令是用来操作HDFS中的文件的，其包含如下参数：其中比较常用的命令有：ls使用方法：hdfs dfs -ls <args>如果是文件，则按照如下格式返回文件信息：权限 <副本数> 用户ID 组ID 文件大小修改日期修改时间文件名如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：权限 <-> 用户ID 组ID 0 修改日期修改时间...

nia nia
发表于2022-05-23 10:25:03
4483 0 0

4.4k 0 0

hdfs dfs命令是用来操作HDFS中的文件的，其包含如下参数：其中比较常用的命令有：ls使用方法：hdfs dfs -ls <args>如果是文件，则按照如下格式返回文件信息：权限 <副本数> 用户ID 组ID 文件大小修改日期修改时间文件名如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：权限 <-> 用户ID 组ID 0 修改日期修改时间...
Hadoop
如何构建、部署运行Flink程序
一、构建Flink程序构建一个Flink程序有两种方式方式一：构建 maven 工程，导入流式应用依赖包<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> ...

百思不得小赵
发表于2022-05-20 15:12:13
3387 0 0

3.3k 0 0

一、构建Flink程序构建一个Flink程序有两种方式方式一：构建 maven 工程，导入流式应用依赖包<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> ...
Flink Hadoop 大数据
Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)
Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)目录一、伪分布式搭建(60分)1、创建1台Linux虚拟机，并打开对应的网络连接(VMnet8)(5分)2、通过xshell正确连接Linux虚拟机(5分)3、在【/opt/】文件夹下上传【java】以及【hadoop】压缩包(5分)4、正确解压【java】以及【hadoop】的压缩文件(5分)5、修改【hado...

红目香薰
发表于2022-04-30 23:41:41
5234 0 0

5.2k 0 0

Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)目录一、伪分布式搭建(60分)1、创建1台Linux虚拟机，并打开对应的网络连接(VMnet8)(5分)2、通过xshell正确连接Linux虚拟机(5分)3、在【/opt/】文件夹下上传【java】以及【hadoop】压缩包(5分)4、正确解压【java】以及【hadoop】的压缩文件(5分)5、修改【hado...
Hadoop JAR 分布式
Hadoop快速入门——第三章、MapReduce案例(字符统计)
Hadoop快速入门——第三章、MapReduce案例目录环境要求：1、项目创建：2、修改Maven3、编码4、本地文件测试5、修改【Action】文件(修改测试文件路径)6、导出jar包7、启动hadoop服务 8、上传【jar】包以及【info.txt】文件至【/opt/soft/hadoop/share/hadoop/mapreduce】下9、创建存储文件的文件...

红目香薰
发表于2022-04-30 23:39:44
2347 0 0

2.3k 0 0

Hadoop快速入门——第三章、MapReduce案例目录环境要求：1、项目创建：2、修改Maven3、编码4、本地文件测试5、修改【Action】文件(修改测试文件路径)6、导出jar包7、启动hadoop服务 8、上传【jar】包以及【info.txt】文件至【/opt/soft/hadoop/share/hadoop/mapreduce】下9、创建存储文件的文件...
Hadoop MapReduce

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript