Hive_标签_开发者_华为云

博客(368)
视频(0)
论坛(0)
云声(0)
代码示例(0)

BigData之Hive beeline：beeline的简介、使用方法之详细攻略
BigData之Hive beeline：beeline的简介、使用方法之详细攻略     目录 beeline的简介 beeline的使用方法 1、命令行参数解释 2、beeline的输出格式 2.1、table

一个处女座的程序猿
发表于2021-03-27 00:39:40
6100 0 1

6.1k 0 1

BigData之Hive beeline：beeline的简介、使用方法之详细攻略     目录 beeline的简介 beeline的使用方法 1、命令行参数解释 2、beeline的输出格式 2.1、table
BigData Pro 大数据 Hive
Hive优化(十一)-常用参数
常用参数 // 输出合并小文件 SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件 SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件 SET hive.merge.size.per.task = 268435456; ...

bigdata张凯翔
发表于2021-03-26 01:55:12
2796 0 0

2.7k 0 0

常用参数 // 输出合并小文件 SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件 SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件 SET hive.merge.size.per.task = 268435456; ...
Hive
Hive基础(五)-hive参数的调优
8.hive参数的调优 1.fetch抓取 2.本地模式开启 3.表的优化 1）小表join大表对于我们来说，尽量把小表放前面；再进一步，可以使用group by将比较小的表放在map端进行数据加载和处理。 select count(distinct s_id) from score; select count(s_id...

bigdata张凯翔
发表于2021-03-26 01:53:15
2996 0 0

2.9k 0 0

8.hive参数的调优 1.fetch抓取 2.本地模式开启 3.表的优化 1）小表join大表对于我们来说，尽量把小表放前面；再进一步，可以使用group by将比较小的表放在map端进行数据加载和处理。 select count(distinct s_id) from score; select count(s_id...
Hive
hive中分区表和分桶表的区别
Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区在HDFS上的表现形式是一个目录，分桶是一个单独的文件分区: 细化数...

bigdata张凯翔
发表于2021-03-26 01:47:13
3296 0 0

3.2k 0 0

Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区在HDFS上的表现形式是一个目录，分桶是一个单独的文件分区: 细化数...
Hive
Hive优化(十三)-小文件进行合并
小文件进行合并在Map执行前合并小文件，减少Map数： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。 HiveInputFormat没有对小文件合并功能。 1）参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...

bigdata张凯翔
发表于2021-03-26 01:38:18
3187 0 0

3.1k 0 0

小文件进行合并在Map执行前合并小文件，减少Map数： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。 HiveInputFormat没有对小文件合并功能。 1）参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...
Hive
揭秘hive常见面试题(六)-20道
为什么创建类 DataWritable？【揭秘hive常见面试题(一)-13】如何实现统计手机流量？【揭秘hive常见面试题(一)-13】对比 hive 与 mapreduce 统计手机流量的区别？【揭秘hive常见面试题(一)-13】如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜，功能，运用 ...

bigdata张凯翔
发表于2021-03-26 01:19:18
3141 0 0

3.1k 0 0

为什么创建类 DataWritable？【揭秘hive常见面试题(一)-13】如何实现统计手机流量？【揭秘hive常见面试题(一)-13】对比 hive 与 mapreduce 统计手机流量的区别？【揭秘hive常见面试题(一)-13】如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜，功能，运用 ...
HBase Hive
Hive中yyyymmdd和yyyy-mm-dd日期之间的切换
方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual; --2017-12-05转成20171205 select from_unixtime(un...

bigdata张凯翔
发表于2021-03-26 01:18:08
3228 0 0

3.2k 0 0

方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual; --2017-12-05转成20171205 select from_unixtime(un...
Hive
Hive优化(九)-表优化
Join原则： 1）小表Join大表， 2）大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度...

bigdata张凯翔
发表于2021-03-26 01:16:43
3347 0 0

3.3k 0 0

Join原则： 1）小表Join大表， 2）大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度...
Hive
sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive
请问下sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive？如果不行，使用什么样的工具或者方法可以实现？【表很多，如何导】 1、建个临时变，先把某个用户的数据抽出来在倒出去。 2、这个要啥资料，要么select查出来存成文件，本地文件导到hive 3、 sqoop不是可以 --query指定sql吗 <meta charset="utf-8"> ...

bigdata张凯翔
发表于2021-03-26 01:16:29
3040 0 0

3.0k 0 0

请问下sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive？如果不行，使用什么样的工具或者方法可以实现？【表很多，如何导】 1、建个临时变，先把某个用户的数据抽出来在倒出去。 2、这个要啥资料，要么select查出来存成文件，本地文件导到hive 3、 sqoop不是可以 --query指定sql吗 <meta charset="utf-8"> ...
Hive Oracle
hive数据类型
1. hive的数据类型 Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型 2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。 image 3...

bigdata张凯翔
发表于2021-03-26 01:14:19
3109 0 0

3.1k 0 0

1. hive的数据类型 Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型 2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。 image 3...
Hive 数据结构
揭秘hive常见面试题(一)-使用 Hive 进行手机流量统计
使用 Hive 进行手机流量统计问题导读 1.hive 实现统计的查询语句是什么？ 2.生产环境中为什么建议使用外部表？ 3.hadoop mapreduce 创建类 DataWritable 的作用是什么？ 4. 为什么创建类类 DataWritable ？ 5.如何实现统计手机流量？对比 hive 与与 mapreduce 统计手机流量的区别？很多公司在使用 ...

bigdata张凯翔
发表于2021-03-26 01:14:15
2972 0 0

2.9k 0 0

使用 Hive 进行手机流量统计问题导读 1.hive 实现统计的查询语句是什么？ 2.生产环境中为什么建议使用外部表？ 3.hadoop mapreduce 创建类 DataWritable 的作用是什么？ 4. 为什么创建类类 DataWritable ？ 5.如何实现统计手机流量？对比 hive 与与 mapreduce 统计手机流量的区别？很多公司在使用 ...
Hive
揭秘hive常见面试题(四)-解释一下什么是数据倾斜，并说明在hive中如何避免数据倾斜。
解释一下什么是数据倾斜，并说明在hive中如何避免数据倾斜。参数调节： hive.map.aggr=true hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理...

bigdata张凯翔
发表于2021-03-26 01:13:18
2788 0 0

2.7k 0 0

解释一下什么是数据倾斜，并说明在hive中如何避免数据倾斜。参数调节： hive.map.aggr=true hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理...
Hive
Hive优化(十)-控制hive任务中的map数和reduce数
合理设置Map数（1）通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M，可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2）举例： a) 假设input目录下有1个文件a，大小为780M，那么hadoop会将该...

bigdata张凯翔
发表于2021-03-26 01:12:50
3401 0 0

3.4k 0 0

合理设置Map数（1）通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M，可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2）举例： a) 假设input目录下有1个文件a，大小为780M，那么hadoop会将该...
Hive 大数据
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK 这两个序列分析函数不是很常用，注意：序列函数不支持WINDOW子句数据准备 d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,5000 CREATE EXTERNAL TABLE itzkx_t3 ( dept STR...

bigdata张凯翔
发表于2021-03-26 01:11:42
2906 0 0

2.9k 0 0

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK 这两个序列分析函数不是很常用，注意：序列函数不支持WINDOW子句数据准备 d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,5000 CREATE EXTERNAL TABLE itzkx_t3 ( dept STR...
Hive
Hive基础(十一)-reflect函数的使用
hive中的lateral view（）与 explode函数的使用背景介绍： explode与lateral view在关系型数据库中本身是不该出现的。因为他的出现本身就是在操作不满足第一范式的数据（每个属性都不可再分）。本身已经违背了数据库的设计原理（不论是业务系统还是数据仓库系统），在面向分析的数据库数据仓库中，发生了改变。 explode函数可以将一个array...

bigdata张凯翔
发表于2021-03-26 01:00:52
9872 0 0

9.8k 0 0

hive中的lateral view（）与 explode函数的使用背景介绍： explode与lateral view在关系型数据库中本身是不该出现的。因为他的出现本身就是在操作不满足第一范式的数据（每个属性都不可再分）。本身已经违背了数据库的设计原理（不论是业务系统还是数据仓库系统），在面向分析的数据库数据仓库中，发生了改变。 explode函数可以将一个array...
Hive SQL 数据库

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript