- 1.使用HiveServer2 WebUI排除非大数据组件的问题 http://192.168.10.11:1002/hiveserver2.jsp http://192.168.10.11:10002/query_page?operationId=4e64ae44-5ec3-4cbe-b635-ed6e29f8e885#perfLogging image.png ... 1.使用HiveServer2 WebUI排除非大数据组件的问题 http://192.168.10.11:1002/hiveserver2.jsp http://192.168.10.11:10002/query_page?operationId=4e64ae44-5ec3-4cbe-b635-ed6e29f8e885#perfLogging image.png ...
- 通过HiveCatalog,可以使用Apache Flink对Apache Hive表进行统一的批处理和流处理。这意味着Flink可以作为Hive的批处理引擎的一个性能更好的替代,或者可以持续地在Hive表中读写数据,从而为实时数据仓库应用程序提供动力。 Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时,Flink将只在作业完成时才将这些记录写入H... 通过HiveCatalog,可以使用Apache Flink对Apache Hive表进行统一的批处理和流处理。这意味着Flink可以作为Hive的批处理引擎的一个性能更好的替代,或者可以持续地在Hive表中读写数据,从而为实时数据仓库应用程序提供动力。 Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时,Flink将只在作业完成时才将这些记录写入H...
- Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时,Flink将只在作业完成时才将这些记录写入Hive表。批写既支持追加现有表,也支持重写现有表。 # ------ INSERT INTO将追加到表或分区上,保持现有数据不变------ Flink SQL> INSERT INTO mytable SELECT 'Tom', 25; # -... Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时,Flink将只在作业完成时才将这些记录写入Hive表。批写既支持追加现有表,也支持重写现有表。 # ------ INSERT INTO将追加到表或分区上,保持现有数据不变------ Flink SQL> INSERT INTO mytable SELECT 'Tom', 25; # -...
- Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK 数据准备 cookie1,2018-04-10,1 cookie1,2018-04-11,5 cookie1,2018-04-12,7 cookie1,2018-04-13,3 cookie1,2018-04-14,2 cookie1,2018-04-15,4 cookie1,20... Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK 数据准备 cookie1,2018-04-10,1 cookie1,2018-04-11,5 cookie1,2018-04-12,7 cookie1,2018-04-13,3 cookie1,2018-04-14,2 cookie1,2018-04-15,4 cookie1,20...
- hive中 reflect函数的使用 使用java.lang.Math当中的Max求两列中最大值 --创建hive表 create table test_udf(col1 int,col2 int) row format delimited fields terminated by ','; --准备数据 test_udf.txt 1,2 4,3 6,4 7,5 5,6 -... hive中 reflect函数的使用 使用java.lang.Math当中的Max求两列中最大值 --创建hive表 create table test_udf(col1 int,col2 int) row format delimited fields terminated by ','; --准备数据 test_udf.txt 1,2 4,3 6,4 7,5 5,6 -...
- 1)hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive 使用:仓库、工具 (2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构。 (3)分区作用:防止数据倾斜 (4)UDF 函数:用户自定义的函数 (主要解决格式,计... 1)hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive 使用:仓库、工具 (2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构。 (3)分区作用:防止数据倾斜 (4)UDF 函数:用户自定义的函数 (主要解决格式,计...
- 在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。 在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,比如: 环境准备: create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, clic... 在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。 在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,比如: 环境准备: create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, clic...
- 1你们数据库怎么导入 hive 的,有没有出现问题 使用 sqoop 导入,我们公司的数据库中设计了 text 字段,导致导入的时候出现了缓存 不够的情况(见云笔记),开始解决起来感觉很棘手,后来查看了 sqoop 的文档,加上 了 limit 属性,解决了 2Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细) Redis 是缓存,围绕着内存和缓存说 H... 1你们数据库怎么导入 hive 的,有没有出现问题 使用 sqoop 导入,我们公司的数据库中设计了 text 字段,导致导入的时候出现了缓存 不够的情况(见云笔记),开始解决起来感觉很棘手,后来查看了 sqoop 的文档,加上 了 limit 属性,解决了 2Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细) Redis 是缓存,围绕着内存和缓存说 H...
- 主要报错信息如下: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec... 主要报错信息如下: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec...
- 问题描述: 前些时间,运维的同事反应小文件过多问题,需要我们去处理,所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata,所以小文件过多意味着消耗更大的内存空间。 过程 经过网上的调研发现通过hive表使用orc格式进行存储能够通过concatenate命令对分区进行小文件合并,并且能够节省80%以上的存储空间,... 问题描述: 前些时间,运维的同事反应小文件过多问题,需要我们去处理,所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata,所以小文件过多意味着消耗更大的内存空间。 过程 经过网上的调研发现通过hive表使用orc格式进行存储能够通过concatenate命令对分区进行小文件合并,并且能够节省80%以上的存储空间,...
- 1.开启Fetch抓取 Hive优化(十四)- Fetch抓取(Hive可以避免进行MapReduce) 2.使用本地模式 Hive优化(十五)-本地模式(小数据集缩短执行时间) 3.表的优化 Hive优化(九)-表优化 4.数据倾斜 Hive优化(五)-避免数据倾斜 某一个reduce处理数据量太大,产生处理效率降低。 1)map个数的设置 blocksize mi... 1.开启Fetch抓取 Hive优化(十四)- Fetch抓取(Hive可以避免进行MapReduce) 2.使用本地模式 Hive优化(十五)-本地模式(小数据集缩短执行时间) 3.表的优化 Hive优化(九)-表优化 4.数据倾斜 Hive优化(五)-避免数据倾斜 某一个reduce处理数据量太大,产生处理效率降低。 1)map个数的设置 blocksize mi...
- 1.查看当前所有的配置信息 hive>set; 2.参数的配置三种方式 (1)配置文件方式 默认配置文件:hive-default.xml 用户自定义配置文件:hive-site.xml 注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启... 1.查看当前所有的配置信息 hive>set; 2.参数的配置三种方式 (1)配置文件方式 默认配置文件:hive-default.xml 用户自定义配置文件:hive-site.xml 注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启...
- 一.原始数据 jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 - tony,2017-01-07,50 jack,2017-01-08,55 mart,2017-04-08,62 - mart,... 一.原始数据 jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 - tony,2017-01-07,50 jack,2017-01-08,55 mart,2017-04-08,62 - mart,...
- Hive 自定义函数 UDF UDF:用户定义(普通)函数,只对单行数值产生作用; UDF只能实现一进一出的操作。 定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null) ... Hive 自定义函数 UDF UDF:用户定义(普通)函数,只对单行数值产生作用; UDF只能实现一进一出的操作。 定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null) ...
- hive中的from_unixtime()函数,可以把时间戳格式的时间,转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数,且单位为秒。 如果从业务系统拿到的时间戳格式的时间单位为毫秒,则需要先将它转化为秒,方法如下 from_unixtime( int (timestamp_in_millisecond / 1000)) 示例: hive (defau... hive中的from_unixtime()函数,可以把时间戳格式的时间,转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数,且单位为秒。 如果从业务系统拿到的时间戳格式的时间单位为毫秒,则需要先将它转化为秒,方法如下 from_unixtime( int (timestamp_in_millisecond / 1000)) 示例: hive (defau...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签