Hive_标签_开发者_华为云

博客(370)
视频(0)
论坛(0)
云声(0)
代码示例(0)

hive定位性能瓶颈
1.使用HiveServer2 WebUI排除非大数据组件的问题 http://192.168.10.11:1002/hiveserver2.jsp http://192.168.10.11:10002/query_page?operationId=4e64ae44-5ec3-4cbe-b635-ed6e29f8e885#perfLogging image.png ...

bigdata张凯翔
发表于2021-03-29 05:03:20
3089 0 0

3.0k 0 0

1.使用HiveServer2 WebUI排除非大数据组件的问题 http://192.168.10.11:1002/hiveserver2.jsp http://192.168.10.11:10002/query_page?operationId=4e64ae44-5ec3-4cbe-b635-ed6e29f8e885#perfLogging image.png ...
Hive
Hive Read & Write Flink
通过HiveCatalog，可以使用Apache Flink对Apache Hive表进行统一的批处理和流处理。这意味着Flink可以作为Hive的批处理引擎的一个性能更好的替代，或者可以持续地在Hive表中读写数据，从而为实时数据仓库应用程序提供动力。 Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时，Flink将只在作业完成时才将这些记录写入H...

bigdata张凯翔
发表于2021-03-29 03:38:13
6081 0 0

6.0k 0 0

通过HiveCatalog，可以使用Apache Flink对Apache Hive表进行统一的批处理和流处理。这意味着Flink可以作为Hive的批处理引擎的一个性能更好的替代，或者可以持续地在Hive表中读写数据，从而为实时数据仓库应用程序提供动力。 Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时，Flink将只在作业完成时才将这些记录写入H...
Flink Hive
Writing
Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时，Flink将只在作业完成时才将这些记录写入Hive表。批写既支持追加现有表，也支持重写现有表。 # ------ INSERT INTO将追加到表或分区上，保持现有数据不变------ Flink SQL> INSERT INTO mytable SELECT 'Tom', 25; # -...

bigdata张凯翔
发表于2021-03-29 02:21:15
3014 0 0

3.0k 0 0

Flink支持在批处理和流模式下从Hive写入数据。当作为批处理应用程序运行时，Flink将只在作业完成时才将这些记录写入Hive表。批写既支持追加现有表，也支持重写现有表。 # ------ INSERT INTO将追加到表或分区上，保持现有数据不变------ Flink SQL> INSERT INTO mytable SELECT 'Tom', 25; # -...
Hive
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK 数据准备 cookie1,2018-04-10,1 cookie1,2018-04-11,5 cookie1,2018-04-12,7 cookie1,2018-04-13,3 cookie1,2018-04-14,2 cookie1,2018-04-15,4 cookie1,20...

bigdata张凯翔
发表于2021-03-29 02:15:02
3155 0 0

3.1k 0 0

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK 数据准备 cookie1,2018-04-10,1 cookie1,2018-04-11,5 cookie1,2018-04-12,7 cookie1,2018-04-13,3 cookie1,2018-04-14,2 cookie1,2018-04-15,4 cookie1,20...
Hive
Hive基础(十)-reflect函数的使用
hive中 reflect函数的使用使用java.lang.Math当中的Max求两列中最大值 --创建hive表 create table test_udf(col1 int,col2 int) row format delimited fields terminated by ','; --准备数据 test_udf.txt 1,2 4,3 6,4 7,5 5,6 -...

bigdata张凯翔
发表于2021-03-29 02:04:09
10184 0 0

10.1k 0 0

hive中 reflect函数的使用使用java.lang.Math当中的Max求两列中最大值 --创建hive表 create table test_udf(col1 int,col2 int) row format delimited fields terminated by ','; --准备数据 test_udf.txt 1,2 4,3 6,4 7,5 5,6 -...
Hive
揭秘hive常见面试题(一)-20道
1）hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化 (1)hive 使用：仓库、工具 (2)hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构。 (3)分区作用：防止数据倾斜 (4)UDF 函数：用户自定义的函数 (主要解决格式，计...

bigdata张凯翔
发表于2021-03-29 01:15:38
3711 0 0

3.7k 0 0

1）hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化 (1)hive 使用：仓库、工具 (2)hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构。 (3)分区作用：防止数据倾斜 (4)UDF 函数：用户自定义的函数 (主要解决格式，计...
Hadoop Hive
Hive优化(六)-使用分区剪裁、列剪裁-查询速度快
在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，比如：环境准备： create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, clic...

bigdata张凯翔
发表于2021-03-29 00:57:35
3526 0 0

3.5k 0 0

在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，比如：环境准备： create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, clic...
Hive
揭秘hive常见面试题(二)-20道
1你们数据库怎么导入 hive 的,有没有出现问题使用 sqoop 导入，我们公司的数据库中设计了 text 字段，导致导入的时候出现了缓存不够的情况（见云笔记），开始解决起来感觉很棘手，后来查看了 sqoop 的文档，加上了 limit 属性，解决了 2Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细) Redis 是缓存，围绕着内存和缓存说 H...

bigdata张凯翔
发表于2021-03-29 00:52:50
3752 0 0

3.7k 0 0

1你们数据库怎么导入 hive 的,有没有出现问题使用 sqoop 导入，我们公司的数据库中设计了 text 字段，导致导入的时候出现了缓存不够的情况（见云笔记），开始解决起来感觉很棘手，后来查看了 sqoop 的文档，加上了 limit 属性，解决了 2Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细) Redis 是缓存，围绕着内存和缓存说 H...
Hive 数据库
Hive动态分区表导入数据时报错
主要报错信息如下： Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec...

bigdata张凯翔
发表于2021-03-28 01:19:06
3518 0 0

3.5k 0 0

主要报错信息如下： Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec...
Hive
解决hive表小文件过多问题
问题描述: 前些时间，运维的同事反应小文件过多问题，需要我们去处理，所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata，所以小文件过多意味着消耗更大的内存空间。过程经过网上的调研发现通过hive表使用orc格式进行存储能够通过concatenate命令对分区进行小文件合并，并且能够节省80%以上的存储空间，...

bigdata张凯翔
发表于2021-03-28 01:05:03
4995 0 0

4.9k 0 0

问题描述: 前些时间，运维的同事反应小文件过多问题，需要我们去处理，所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata，所以小文件过多意味着消耗更大的内存空间。过程经过网上的调研发现通过hive表使用orc格式进行存储能够通过concatenate命令对分区进行小文件合并，并且能够节省80%以上的存储空间，...
Hive
Hive 公司调优总结(一)
1.开启Fetch抓取 Hive优化(十四)- Fetch抓取（Hive可以避免进行MapReduce） 2.使用本地模式 Hive优化(十五)-本地模式（小数据集缩短执行时间） 3.表的优化 Hive优化(九)-表优化 4.数据倾斜 Hive优化(五)-避免数据倾斜某一个reduce处理数据量太大，产生处理效率降低。 1)map个数的设置 blocksize mi...

bigdata张凯翔
发表于2021-03-28 00:25:31
3241 0 0

3.2k 0 0

1.开启Fetch抓取 Hive优化(十四)- Fetch抓取（Hive可以避免进行MapReduce） 2.使用本地模式 Hive优化(十五)-本地模式（小数据集缩短执行时间） 3.表的优化 Hive优化(九)-表优化 4.数据倾斜 Hive优化(五)-避免数据倾斜某一个reduce处理数据量太大，产生处理效率降低。 1)map个数的设置 blocksize mi...
Hive JVM
【hive基础增强】Hive参数配置及数据类型
1．查看当前所有的配置信息 hive>set; 2．参数的配置三种方式（1）配置文件方式默认配置文件：hive-default.xml 用户自定义配置文件：hive-site.xml 注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启...

bigdata张凯翔
发表于2021-03-28 00:05:07
4379 0 0

4.3k 0 0

1．查看当前所有的配置信息 hive>set; 2．参数的配置三种方式（1）配置文件方式默认配置文件：hive-default.xml 用户自定义配置文件：hive-site.xml 注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启...
Hive 数据结构
Hive基础增强-（窗口函数）
一.原始数据 jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 - tony,2017-01-07,50 jack,2017-01-08,55 mart,2017-04-08,62 - mart,...

bigdata张凯翔
发表于2021-03-27 23:46:25
3704 0 0

3.7k 0 0

一.原始数据 jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 - tony,2017-01-07,50 jack,2017-01-08,55 mart,2017-04-08,62 - mart,...
Hive
Hive 自定义函数 UDF
Hive 自定义函数 UDF UDF：用户定义（普通）函数，只对单行数值产生作用； UDF只能实现一进一出的操作。定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null) ...

bigdata张凯翔
发表于2021-03-27 23:40:27
3349 0 0

3.3k 0 0

Hive 自定义函数 UDF UDF：用户定义（普通）函数，只对单行数值产生作用； UDF只能实现一进一出的操作。定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null) ...
Hive
HIVE中的from_unixtime函数
hive中的from_unixtime()函数，可以把时间戳格式的时间，转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数，且单位为秒。如果从业务系统拿到的时间戳格式的时间单位为毫秒，则需要先将它转化为秒，方法如下 from_unixtime( int (timestamp_in_millisecond / 1000)) 示例： hive (defau...

bigdata张凯翔
发表于2021-03-27 23:18:33
4264 0 0

4.2k 0 0

hive中的from_unixtime()函数，可以把时间戳格式的时间，转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数，且单位为秒。如果从业务系统拿到的时间戳格式的时间单位为毫秒，则需要先将它转化为秒，方法如下 from_unixtime( int (timestamp_in_millisecond / 1000)) 示例： hive (defau...
Hive

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript