Hive_标签_开发者

博客(385)
视频(0)
论坛(0)
云声(0)
代码示例(0)

Hive优化(十七)-严格模式
严格模式 Hive提供了一个严格模式，可以防止用户执行那些可能意向不到的不好的影响的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。 <property> <name>hive.mapred.mode</name> <value>...

bigdata张凯翔
发表于2021-03-25 23:49:49
4194 0 0

4.1k 0 0

严格模式 Hive提供了一个严格模式，可以防止用户执行那些可能意向不到的不好的影响的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。 <property> <name>hive.mapred.mode</name> <value>...
Hive
hive数据仓库的设计，项目中分了几层，都有什么
hive数据仓库的设计，项目中分了几层，都有什么 ODS层: 是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中，数据经过了一定的清洗，比如字段的统一，脏数据的去除等，但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。 DW 层： DW层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的数据。这一层...

bigdata张凯翔
发表于2021-03-25 23:45:41
5902 0 0

5.9k 0 0

hive数据仓库的设计，项目中分了几层，都有什么 ODS层: 是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中，数据经过了一定的清洗，比如字段的统一，脏数据的去除等，但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。 DW 层： DW层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的数据。这一层...
Hive 云数据仓库 GaussDB(DWS)
Hive优化(十六)-使用EXPLAIN（执行计划）
使用EXPLAIN（执行计划） 1）基本语法 EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 2）案例实操（1）查看下面这条语句的执行计划 hive (default)> explain select * from course; hive (default)> explain select s_id ,avg(s_...

bigdata张凯翔
发表于2021-03-25 23:45:25
3709 0 0

3.7k 0 0

使用EXPLAIN（执行计划） 1）基本语法 EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 2）案例实操（1）查看下面这条语句的执行计划 hive (default)> explain select * from course; hive (default)> explain select s_id ,avg(s_...
Hive
Hive优化(十八)-推测执行
推测执行在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop采用了推测执行（Speculative Ex...

bigdata张凯翔
发表于2021-03-25 23:33:40
4500 0 0

4.5k 0 0

推测执行在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop采用了推测执行（Speculative Ex...
Hadoop Hive
为什么有些项目又用Hive sql又用Spark sql
关于sparksql Spark SQL是Spark中专门用来处理结构化数据（每一行数据都遵循Schema信息 —— 建表时表的字段及其类型）的一个模块；提供了 DataFrame/Dataset 的对分布式数据处理的基本抽象；是一个分布式的 SQL 引擎。关于hive 数据仓库，能使用 SQL 读取、写入和管理存在于分布式存储架构上的大数据集；结构可以映射到已经存储...

bigdata张凯翔
发表于2021-03-25 23:30:38
5387 0 0

5.3k 0 0

关于sparksql Spark SQL是Spark中专门用来处理结构化数据（每一行数据都遵循Schema信息 —— 建表时表的字段及其类型）的一个模块；提供了 DataFrame/Dataset 的对分布式数据处理的基本抽象；是一个分布式的 SQL 引擎。关于hive 数据仓库，能使用 SQL 读取、写入和管理存在于分布式存储架构上的大数据集；结构可以映射到已经存储...
Hive spark SQL
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE 注意：这几个函数不支持WINDOW子句 - 准备数据 cookie1,2018-04-10 10:00:02,url2 cookie1,2018-04-10 10:00:00,url1 cookie1,2018-04-10 10:03:04,1url3 cookie1,2018-04-...

bigdata张凯翔
发表于2021-03-25 23:19:14
4138 0 0

4.1k 0 0

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE 注意：这几个函数不支持WINDOW子句 - 准备数据 cookie1,2018-04-10 10:00:02,url2 cookie1,2018-04-10 10:00:00,url1 cookie1,2018-04-10 10:03:04,1url3 cookie1,2018-04-...
Hive
【Hive基础增强】Hive数据导入与导出
1.向表中装载数据（Load）基本语法 hive>load data local inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; （1）load data:表示加载数据（2）local:表示从本地加载数据到hive表...

bigdata张凯翔
发表于2021-03-25 23:16:51
6599 0 0

6.5k 0 0

1.向表中装载数据（Load）基本语法 hive>load data local inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; （1）load data:表示加载数据（2）local:表示从本地加载数据到hive表...
Hadoop Hive
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。数据准备 2018-03,2018-03-10,cookie1 2018-03,2018-03-10,cookie5 2018-03,2018-03...

bigdata张凯翔
发表于2021-03-25 23:12:31
4194 0 0

4.1k 0 0

Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。数据准备 2018-03,2018-03-10,cookie1 2018-03,2018-03-10,cookie5 2018-03,2018-03...
Hive
Hive删除表中数据
问题描述: 当我们想要删除Hive表中部分符合条件的数据时：发现Hive表删除数据不能使用DELETE FROM table_name 中SQL语句 image.png 解决方案 1.删除符合条件的数据: 其中xxx是你需要保留的数据的查询条件。 insert overwrite table t_table1 select * from t_table1 whe...

bigdata张凯翔
发表于2021-03-25 23:11:13
5104 0 0

5.1k 0 0

问题描述: 当我们想要删除Hive表中部分符合条件的数据时：发现Hive表删除数据不能使用DELETE FROM table_name 中SQL语句 image.png 解决方案 1.删除符合条件的数据: 其中xxx是你需要保留的数据的查询条件。 insert overwrite table t_table1 select * from t_table1 whe...
Hive
HIVE数据库与ORACLE数据库有什么区别,目前HIVE数据库不支持哪些函数?
a. 查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 b. 数据存储位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。 c. 数据格式。Hiv...

bigdata张凯翔
发表于2021-03-25 23:07:56
5121 0 0

5.1k 0 0

a. 查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 b. 数据存储位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。 c. 数据格式。Hiv...
Hive Oracle 数据库
Kylin快速入门系列(2) | Kylin的快速入门
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2021-01-07 19:07:54
4370 0 0

4.3k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
Hive
HIVE的搭建配置及关联MySQL
概念： Hive是由Facebook实现并开源。是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL（Hive SQL）查询功能。其底层数据时存储在HDFS上。Hive的本质是将SQL语句转换为MapReduce任务运行，使部署需MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据，使用于离线的批量数据计...

扶醉
发表于2020-12-31 00:57:11
5552 0 1

5.5k 0 1

概念： Hive是由Facebook实现并开源。是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL（Hive SQL）查询功能。其底层数据时存储在HDFS上。Hive的本质是将SQL语句转换为MapReduce任务运行，使部署需MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据，使用于离线的批量数据计...
Hive MySQL
数据分析高级教程(二)
6 模块开发——ETL 该项目的数据分析过程在hadoop集群上实现，主要应用hive数据仓库工具，因此，采集并经过预处理后的数据，需要加载到hive数据仓库中，以进行后续的挖掘分析。 6.1创建原始数据表 --在hive仓库中建贴源数据表 drop table if exists ods_weblog_origin;create table...

Python爱好者
发表于2020-12-29 00:31:18
5142 0 0

5.1k 0 0

6 模块开发——ETL 该项目的数据分析过程在hadoop集群上实现，主要应用hive数据仓库工具，因此，采集并经过预处理后的数据，需要加载到hive数据仓库中，以进行后续的挖掘分析。 6.1创建原始数据表 --在hive仓库中建贴源数据表 drop table if exists ods_weblog_origin;create table...
Hive 数据挖掘
Hive快速入门系列(1) | Hive的基本概念(超详细，入门推荐！)
经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分。目录基本概念1.1 什么是Hive1.2 为什么使用Hive1.3 Hive的优缺点1. 优点2. 缺点 1.4 Hive架构1.5 执行过程1.6 ...

不温卜火
发表于2020-12-03 01:11:44
6393 0 0

6.3k 0 0

经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分。目录基本概念1.1 什么是Hive1.2 为什么使用Hive1.3 Hive的优缺点1. 优点2. 缺点 1.4 Hive架构1.5 执行过程1.6 ...
Hadoop Hive
Hive快速入门系列(15) | Hive性能调优 [二] 表的优化
此次博主为大家带来的是Hive性能调优中的表的优化。目录一. 小表、大表Join二. 大表Join大表2.1 空KEY过滤2.2 空key转换1. 不随机分布空null值：2. 随机分布空null值三. MapJoin（小表join大表）3.1 开启MapJoin参数设置3.1 MapJoin工作机制四. Group By五. Cou...

不温卜火
发表于2020-12-03 01:08:27
6806 0 0

6.8k 0 0

此次博主为大家带来的是Hive性能调优中的表的优化。目录一. 小表、大表Join二. 大表Join大表2.1 空KEY过滤2.2 空key转换1. 不随机分布空null值：2. 随机分布空null值三. MapJoin（小表join大表）3.1 开启MapJoin参数设置3.1 MapJoin工作机制四. Group By五. Cou...
Hive 应用性能调优

上滑加载中

推荐直播

码道新技能，AI 新生产力——从自动视频生成到开源项目解析
2026/04/08 周三 19:00-21:00

童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人

本次华为云码道 Skill 实战活动，聚焦两大 AI 开发场景：通过实战教学，带你打造 AI 编程自动生成视频 Skill，并实现对 GitHub 热门开源项目的智能知识抽取，手把手掌握 Skill 开发全流程，用 AI 提升研发效率与内容生产力。
回顾中
华为云码道：零代码股票智能决策平台全功能实战
2026/04/18 周六 10:00-12:00

秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家

利用Tushare接口获取实时行情数据，采用Transformer算法进行时序预测与涨跌分析，并集成DeepSeek API提供智能解读。同时，项目深度结合华为云CodeArts（码道）的代码智能体能力，实现代码一键推送至云端代码仓库，建立起高效、可协作的团队开发新范式。开发者可快速上手，从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
华为云码道全新升级，多会话并行与多智能体协作
2026/05/08 周五 19:00-21:00

王一男-华为云码道产品专家；张嘉冉-华为云码道工程师；胡琦-华为云HCDE；程诗杰-华为云HCDG

华为云码道4月份版本全新升级，此次直播深度解读4月份产品特性，通过“特性解读+实操演示+实战案例+设计创新”的组合，全方位展现码道在多会话并行与多智能体协作方面的能力，赋能开发者提升效率
正在直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript