- theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第9天,点击查看活动详情 1. 原始数据实时ETL任务HBase调优 1.1 数据写入hbase优化上一节写入数据,一条条数据put到表中,对于大量数据的写入,效率极低,因此针对此项进行优化使用hbase客户端写缓存进行批量写入数据到hbase中hbase客户端写缓存对象:Buffer... theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第9天,点击查看活动详情 1. 原始数据实时ETL任务HBase调优 1.1 数据写入hbase优化上一节写入数据,一条条数据put到表中,对于大量数据的写入,效率极低,因此针对此项进行优化使用hbase客户端写缓存进行批量写入数据到hbase中hbase客户端写缓存对象:Buffer...
- 1.MapReduce计算模型介绍 1.1.理解MapReduce思想 1.2.Hadoop MapReduce设计构思 2.官方MapReduce示例 2.1.示例1:评估圆周率π(PI) 2.2.示例2:单词词频统计WordCount 3.MapReduce Python接口接入 3.1.前言 3.3.程序执行 1.MapReduce计算模型介绍 1.1.理解MapReduce思想 1.2.Hadoop MapReduce设计构思 2.官方MapReduce示例 2.1.示例1:评估圆周率π(PI) 2.2.示例2:单词词频统计WordCount 3.MapReduce Python接口接入 3.1.前言 3.3.程序执行
- theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天,点击查看活动详情 1 实时ETL开发的核心逻辑 1 自定义方法解析json数据读取kafka数据后,对原始数据解析,筛选出解析成功的数据,并把数据转换对象,便于后续逻辑操作。自定义解析json数据为对象://TODO 7)将json字符串解析成对象SingleOutputStr... theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天,点击查看活动详情 1 实时ETL开发的核心逻辑 1 自定义方法解析json数据读取kafka数据后,对原始数据解析,筛选出解析成功的数据,并把数据转换对象,便于后续逻辑操作。自定义解析json数据为对象://TODO 7)将json字符串解析成对象SingleOutputStr...
- 大数据入门学习框架前言利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的为什么选择学习大数据开发,不选择Java开发?借棋弈做比喻,智商高的不要选择五子琪,要选择围棋,它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂,能够掌握如此复杂的技艺、产生... 大数据入门学习框架前言利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的为什么选择学习大数据开发,不选择Java开发?借棋弈做比喻,智商高的不要选择五子琪,要选择围棋,它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂,能够掌握如此复杂的技艺、产生...
- Ranger管理HDFS安全我们还可以使用Ranger对HDFS进行目录权限访问控制。这里需要添加“HDFS-Plugin”插件。一、安装“HDFS-Plugin”插件安装“HDFS-Plugin”插件步骤如下:1)将编译好的“ranger-2.1.0-hdfs-plugin.tar.gz”发送到node1节点,并解压#将node3上编译好的HDFS插件发送到node1上[root@nod... Ranger管理HDFS安全我们还可以使用Ranger对HDFS进行目录权限访问控制。这里需要添加“HDFS-Plugin”插件。一、安装“HDFS-Plugin”插件安装“HDFS-Plugin”插件步骤如下:1)将编译好的“ranger-2.1.0-hdfs-plugin.tar.gz”发送到node1节点,并解压#将node3上编译好的HDFS插件发送到node1上[root@nod...
- Integration系列表引擎ClickHouse提供了许多与外部系统集成的方法,包括一些表引擎。这些表引擎与其他类型的表引擎类似,可以用于将外部数据导入到ClickHouse中,或者在ClickHouse中直接操作外部数据源。一、HDFSHDFS引擎支持ClickHouse 直接读取HDFS中特定格式的数据文件,目前文件格式支持Json,Csv文件等,ClickHouse通过HDFS引擎... Integration系列表引擎ClickHouse提供了许多与外部系统集成的方法,包括一些表引擎。这些表引擎与其他类型的表引擎类似,可以用于将外部数据导入到ClickHouse中,或者在ClickHouse中直接操作外部数据源。一、HDFSHDFS引擎支持ClickHouse 直接读取HDFS中特定格式的数据文件,目前文件格式支持Json,Csv文件等,ClickHouse通过HDFS引擎...
- 搭建spark和hdfs的集群环境会消耗一些时间和精力,今天咱们就借助docker,极速搭建和体验spark和hdfs的集群环境 搭建spark和hdfs的集群环境会消耗一些时间和精力,今天咱们就借助docker,极速搭建和体验spark和hdfs的集群环境
- MapReduce功能实现系列: MapReduce功能实现一—Hbase和Hdfs之间数据相互转换 MapReduce功能实现二—排序 MapReduce功能实现三—Top N MapReduce功能实现四—小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3) MapReduce功能实现五—去重(Distinct)、计数(C... MapReduce功能实现系列: MapReduce功能实现一—Hbase和Hdfs之间数据相互转换 MapReduce功能实现二—排序 MapReduce功能实现三—Top N MapReduce功能实现四—小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3) MapReduce功能实现五—去重(Distinct)、计数(C...
- Structured Streaming实时写入Iceberg目前Spark中Structured Streaming只支持实时向Iceberg中写入数据,不支持实时从Iceberg中读取数据,下面案例我们将使用Structured Streaming从Kafka中实时读取数据,然后将结果实时写入到Iceberg中。一、创建Kafka topic启动Kafka集群,创建“kafka-ice... Structured Streaming实时写入Iceberg目前Spark中Structured Streaming只支持实时向Iceberg中写入数据,不支持实时从Iceberg中读取数据,下面案例我们将使用Structured Streaming从Kafka中实时读取数据,然后将结果实时写入到Iceberg中。一、创建Kafka topic启动Kafka集群,创建“kafka-ice...
- Superset是一款由Airbnb开源的“现代化的企业级BI(商业智能) Web应用程序”,其通过创建和分享dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 MRS是华为云提供的一站式大数据平台,覆盖常用的所有Hadoop生态组件,使用Superset可无缝对接MRS进行自助分析 Superset是一款由Airbnb开源的“现代化的企业级BI(商业智能) Web应用程序”,其通过创建和分享dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 MRS是华为云提供的一站式大数据平台,覆盖常用的所有Hadoop生态组件,使用Superset可无缝对接MRS进行自助分析
- Hudi与Hive集成一、配置HiveServer2Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中,那么同时映射Hive表,让Hive表映射的数据对应到此路径上,这时Hudi需要通过JDBC方式连接Hive进行元数据操作,这时需要配置HiveServer2。1、在Hive服务端配置hive-site.xml#在Hive 服务端 $HIVE_HOME/con... Hudi与Hive集成一、配置HiveServer2Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中,那么同时映射Hive表,让Hive表映射的数据对应到此路径上,这时Hudi需要通过JDBC方式连接Hive进行元数据操作,这时需要配置HiveServer2。1、在Hive服务端配置hive-site.xml#在Hive 服务端 $HIVE_HOME/con...
- hdfs dfs命令是用来操作HDFS中的文件的,其包含如下参数:其中比较常用的命令有:ls使用方法:hdfs dfs -ls <args>如果是文件,则按照如下格式返回文件信息:权限 <副本数> 用户ID 组ID 文件大小 修改日期 修改时间 文件名如果是目录,则返回它直接子文件的一个列表,就像在Unix中一样。目录返回列表的信息如下:权限 <-> 用户ID 组ID 0 修改日期 修改时间... hdfs dfs命令是用来操作HDFS中的文件的,其包含如下参数:其中比较常用的命令有:ls使用方法:hdfs dfs -ls <args>如果是文件,则按照如下格式返回文件信息:权限 <副本数> 用户ID 组ID 文件大小 修改日期 修改时间 文件名如果是目录,则返回它直接子文件的一个列表,就像在Unix中一样。目录返回列表的信息如下:权限 <-> 用户ID 组ID 0 修改日期 修改时间...
- 一、构建Flink程序构建一个Flink程序有两种方式方式一:构建 maven 工程,导入流式应用依赖包<!-- 基础依赖 --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> ... 一、构建Flink程序构建一个Flink程序有两种方式方式一:构建 maven 工程,导入流式应用依赖包<!-- 基础依赖 --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> ...
- Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)目录一、伪分布式搭建(60分)1、创建1台Linux虚拟机,并打开对应的网络连接(VMnet8)(5分)2、通过xshell正确连接Linux虚拟机(5分)3、在【/opt/】文件夹下上传【java】以及【hadoop】压缩包(5分)4、正确解压【java】以及【hadoop】的压缩文件(5分)5、修改【hado... Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)目录一、伪分布式搭建(60分)1、创建1台Linux虚拟机,并打开对应的网络连接(VMnet8)(5分)2、通过xshell正确连接Linux虚拟机(5分)3、在【/opt/】文件夹下上传【java】以及【hadoop】压缩包(5分)4、正确解压【java】以及【hadoop】的压缩文件(5分)5、修改【hado...
- Hadoop快速入门——第三章、MapReduce案例目录 环境要求:1、项目创建:2、修改Maven3、编码4、本地文件测试5、修改【Action】文件(修改测试文件路径)6、导出jar包7、启动hadoop服务 8、上传【jar】包以及【info.txt】文件至【/opt/soft/hadoop/share/hadoop/mapreduce】 下9、创建存储文件的文件... Hadoop快速入门——第三章、MapReduce案例目录 环境要求:1、项目创建:2、修改Maven3、编码4、本地文件测试5、修改【Action】文件(修改测试文件路径)6、导出jar包7、启动hadoop服务 8、上传【jar】包以及【info.txt】文件至【/opt/soft/hadoop/share/hadoop/mapreduce】 下9、创建存储文件的文件...
上滑加载中
推荐直播
-
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中 -
华为云码道全新升级,多会话并行与多智能体协作2026/05/08 周五 19:00-21:00
王一男-华为云码道产品专家;张嘉冉-华为云码道工程师;胡琦-华为云HCDE;程诗杰-华为云HCDG
华为云码道4月份版本全新升级,此次直播深度解读4月份产品特性,通过“特性解读+实操演示+实战案例+设计创新”的组合,全方位展现码道在多会话并行与多智能体协作方面的能力,赋能开发者提升效率
正在直播
热门标签