Hive_标签_开发者_华为云

博客(385)
视频(0)
论坛(0)
云声(0)
代码示例(0)

Hadoop 家族技能图谱——包含Hive和Mahout两个大类
导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...

孙叫兽
发表于2021-03-27 22:54:52
3913 0 0

3.9k 0 0

导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...
Hadoop Hive
BigData之Hive：Hive数据管理的简介、下载、案例应用之详细攻略
BigData之Hive：Hive数据管理的简介、下载、案例应用之详细攻略         目录 Hive数据管理的简介 1、Hive的适用场景——不适合那些需要高实性的应用(不能够在大规模数据集上实现低延迟快速的查询)、不适合用联机(online)事务处理、不提供实时查询 2、Hive 的设计特点 3、Hive数据存...

一个处女座的程序猿
发表于2021-03-27 00:51:04
6456 0 0

6.4k 0 0

BigData之Hive：Hive数据管理的简介、下载、案例应用之详细攻略         目录 Hive数据管理的简介 1、Hive的适用场景——不适合那些需要高实性的应用(不能够在大规模数据集上实现低延迟快速的查询)、不适合用联机(online)事务处理、不提供实时查询 2、Hive 的设计特点 3、Hive数据存...
BigData Pro 大数据 Hive 数据管理服务 DAS
BigData之Hive beeline：beeline的简介、使用方法之详细攻略
BigData之Hive beeline：beeline的简介、使用方法之详细攻略     目录 beeline的简介 beeline的使用方法 1、命令行参数解释 2、beeline的输出格式 2.1、table

一个处女座的程序猿
发表于2021-03-27 00:39:40
7381 0 1

7.3k 0 1

BigData之Hive beeline：beeline的简介、使用方法之详细攻略     目录 beeline的简介 beeline的使用方法 1、命令行参数解释 2、beeline的输出格式 2.1、table
BigData Pro 大数据 Hive
Hive优化(十一)-常用参数
常用参数 // 输出合并小文件 SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件 SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件 SET hive.merge.size.per.task = 268435456; ...

bigdata张凯翔
发表于2021-03-26 01:55:12
3908 0 0

3.9k 0 0

常用参数 // 输出合并小文件 SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件 SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件 SET hive.merge.size.per.task = 268435456; ...
Hive
Hive基础(五)-hive参数的调优
8.hive参数的调优 1.fetch抓取 2.本地模式开启 3.表的优化 1）小表join大表对于我们来说，尽量把小表放前面；再进一步，可以使用group by将比较小的表放在map端进行数据加载和处理。 select count(distinct s_id) from score; select count(s_id...

bigdata张凯翔
发表于2021-03-26 01:53:15
4118 0 0

4.1k 0 0

8.hive参数的调优 1.fetch抓取 2.本地模式开启 3.表的优化 1）小表join大表对于我们来说，尽量把小表放前面；再进一步，可以使用group by将比较小的表放在map端进行数据加载和处理。 select count(distinct s_id) from score; select count(s_id...
Hive
hive中分区表和分桶表的区别
Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区在HDFS上的表现形式是一个目录，分桶是一个单独的文件分区: 细化数...

bigdata张凯翔
发表于2021-03-26 01:47:13
4556 0 0

4.5k 0 0

Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区在HDFS上的表现形式是一个目录，分桶是一个单独的文件分区: 细化数...
Hive
Hive优化(十三)-小文件进行合并
小文件进行合并在Map执行前合并小文件，减少Map数： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。 HiveInputFormat没有对小文件合并功能。 1）参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...

bigdata张凯翔
发表于2021-03-26 01:38:18
4527 0 0

4.5k 0 0

小文件进行合并在Map执行前合并小文件，减少Map数： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。 HiveInputFormat没有对小文件合并功能。 1）参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...
Hive
揭秘hive常见面试题(六)-20道
为什么创建类 DataWritable？【揭秘hive常见面试题(一)-13】如何实现统计手机流量？【揭秘hive常见面试题(一)-13】对比 hive 与 mapreduce 统计手机流量的区别？【揭秘hive常见面试题(一)-13】如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜，功能，运用 ...

bigdata张凯翔
发表于2021-03-26 01:19:18
4135 0 0

4.1k 0 0

为什么创建类 DataWritable？【揭秘hive常见面试题(一)-13】如何实现统计手机流量？【揭秘hive常见面试题(一)-13】对比 hive 与 mapreduce 统计手机流量的区别？【揭秘hive常见面试题(一)-13】如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜，功能，运用 ...
HBase Hive
Hive中yyyymmdd和yyyy-mm-dd日期之间的切换
方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual; --2017-12-05转成20171205 select from_unixtime(un...

bigdata张凯翔
发表于2021-03-26 01:18:08
4329 0 0

4.3k 0 0

方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual; --2017-12-05转成20171205 select from_unixtime(un...
Hive
Hive优化(九)-表优化
Join原则： 1）小表Join大表， 2）大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度...

bigdata张凯翔
发表于2021-03-26 01:16:43
4656 0 0

4.6k 0 0

Join原则： 1）小表Join大表， 2）大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度...
Hive
sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive
请问下sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive？如果不行，使用什么样的工具或者方法可以实现？【表很多，如何导】 1、建个临时变，先把某个用户的数据抽出来在倒出去。 2、这个要啥资料，要么select查出来存成文件，本地文件导到hive 3、 sqoop不是可以 --query指定sql吗 <meta charset="utf-8"> ...

bigdata张凯翔
发表于2021-03-26 01:16:29
3989 0 0

3.9k 0 0

请问下sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive？如果不行，使用什么样的工具或者方法可以实现？【表很多，如何导】 1、建个临时变，先把某个用户的数据抽出来在倒出去。 2、这个要啥资料，要么select查出来存成文件，本地文件导到hive 3、 sqoop不是可以 --query指定sql吗 <meta charset="utf-8"> ...
Hive Oracle
hive数据类型
1. hive的数据类型 Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型 2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。 image 3...

bigdata张凯翔
发表于2021-03-26 01:14:19
4130 0 0

4.1k 0 0

1. hive的数据类型 Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型 2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。 image 3...
Hive 数据结构
揭秘hive常见面试题(一)-使用 Hive 进行手机流量统计
使用 Hive 进行手机流量统计问题导读 1.hive 实现统计的查询语句是什么？ 2.生产环境中为什么建议使用外部表？ 3.hadoop mapreduce 创建类 DataWritable 的作用是什么？ 4. 为什么创建类类 DataWritable ？ 5.如何实现统计手机流量？对比 hive 与与 mapreduce 统计手机流量的区别？很多公司在使用 ...

bigdata张凯翔
发表于2021-03-26 01:14:15
4058 0 0

4.0k 0 0

使用 Hive 进行手机流量统计问题导读 1.hive 实现统计的查询语句是什么？ 2.生产环境中为什么建议使用外部表？ 3.hadoop mapreduce 创建类 DataWritable 的作用是什么？ 4. 为什么创建类类 DataWritable ？ 5.如何实现统计手机流量？对比 hive 与与 mapreduce 统计手机流量的区别？很多公司在使用 ...
Hive
揭秘hive常见面试题(四)-解释一下什么是数据倾斜，并说明在hive中如何避免数据倾斜。
解释一下什么是数据倾斜，并说明在hive中如何避免数据倾斜。参数调节： hive.map.aggr=true hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理...

bigdata张凯翔
发表于2021-03-26 01:13:18
3755 0 0

3.7k 0 0

解释一下什么是数据倾斜，并说明在hive中如何避免数据倾斜。参数调节： hive.map.aggr=true hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理...
Hive
Hive优化(十)-控制hive任务中的map数和reduce数
合理设置Map数（1）通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M，可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2）举例： a) 假设input目录下有1个文件a，大小为780M，那么hadoop会将该...

bigdata张凯翔
发表于2021-03-26 01:12:50
4533 0 0

4.5k 0 0

合理设置Map数（1）通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M，可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2）举例： a) 假设input目录下有1个文件a，大小为780M，那么hadoop会将该...
Hive 大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript