Hive_标签_开发者_华为云

博客(385)
视频(0)
论坛(0)
云声(0)
代码示例(0)

什么是 Hive Metastore (HMS)？如何区分托管 Metastore 与外部 Metastore？
Apache Hive 是一个基于 Hadoop 的数据仓库工具，它提供了一个类似于 SQL 的查询语言，用于大规模数据处理。Hive Metastore（HMS）是 Hive 架构中的关键组件，负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念，对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H...

wljslmz
发表于2024-08-12 23:53:40
3559 0 0

3.5k 0 0

Apache Hive 是一个基于 Hadoop 的数据仓库工具，它提供了一个类似于 SQL 的查询语言，用于大规模数据处理。Hive Metastore（HMS）是 Hive 架构中的关键组件，负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念，对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H...
Hive
【Spark On Hive】—— 基于电商数据分析的项目实战
@[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求，在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后，将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。一、项目配置 1. 创建工程首先，创建一个空的Maven工程，在创建之后...

Byyyi耀
发表于2024-08-09 14:24:53
3472 0 0

3.4k 0 0

@[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求，在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后，将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。一、项目配置 1. 创建工程首先，创建一个空的Maven工程，在创建之后...
Hive spark 自建电商
Hive的查询、数据加载和交换、聚合、排序、优化
Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...

Byyyi耀
发表于2024-05-06 11:05:21
3473 0 0

3.4k 0 0

Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...
Hive
Hive 拉链表详解及实例
拉链表版本迭代：hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表，用户分区存储历史增量数据，缺点是重复数据太多定义：数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储：创建拉链表时使用列式存储ORC：不能使用load加载数据压缩比高效率高场景：【数据规模庞大】，新数据【在有限的时间】内存在多种状...

Byyyi耀
发表于2024-05-06 10:57:48
3507 0 0

3.5k 0 0

拉链表版本迭代：hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表，用户分区存储历史增量数据，缺点是重复数据太多定义：数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储：创建拉链表时使用列式存储ORC：不能使用load加载数据压缩比高效率高场景：【数据规模庞大】，新数据【在有限的时间】内存在多种状...
Hive 数据结构
Hive 优化总结
Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)group by：有的分组键在表中数据很多，有的分组键数据很少。小表 join 大表：小表数据小，大表数据多，造成倾斜。如何识别倾斜？- 若表为分区分桶表，以分区字段作为聚合条件聚合，并进行抽样。- 若有HDFS的权限，查看分区文件夹的大...

Byyyi耀
发表于2024-05-06 10:57:01
5990 0 0

5.9k 0 0

Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)group by：有的分组键在表中数据很多，有的分组键数据很少。小表 join 大表：小表数据小，大表数据多，造成倾斜。如何识别倾斜？- 若表为分区分桶表，以分区字段作为聚合条件聚合，并进行抽样。- 若有HDFS的权限，查看分区文件夹的大...
Hadoop Hive
Hive 取两个字符串的相同部分
Hive 取两个字符串的相同部分在数据处理中，有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中，我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例：sqlCopy code...

皮牙子抓饭
发表于2024-03-25 09:20:36
5522 0 0

5.5k 0 0

Hive 取两个字符串的相同部分在数据处理中，有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中，我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例：sqlCopy code...
Hadoop Hive
大数据技术实践之hive安装和配置
官网下载官网地址：http://hive.apache.org/由于我们的Hadoop版本是2.9.2，所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓，自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面，将文件夹重命名为 hi...

人工智能-张晨光
发表于2024-02-07 09:48:50
3375 0 0

3.3k 0 0

官网下载官网地址：http://hive.apache.org/由于我们的Hadoop版本是2.9.2，所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓，自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面，将文件夹重命名为 hi...
Hive 大数据
数据仓库技术与Hive入门
数据仓库基本概念场景案例主要特征主流开发语言-SQL 数仓开发语言概述 SQL语言介绍结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署元数据 Hive SQL语言数据仓库基本概念数据仓库(Data Warehouse,简称数仓、DW)，是一个用于存储，分析，报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境，分析结构为企业提供...

北山啦
发表于2023-12-07 16:23:04
8616 0 0

8.6k 0 0

数据仓库基本概念场景案例主要特征主流开发语言-SQL 数仓开发语言概述 SQL语言介绍结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署元数据 Hive SQL语言数据仓库基本概念数据仓库(Data Warehouse,简称数仓、DW)，是一个用于存储，分析，报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境，分析结构为企业提供...
Hive SQL
sql语法（mysql,sqlserver,hivesql）
sql学习的语法。万事皆备于我，我心即使宇宙。不定时补充笔记。

yd_240468416
发表于2023-11-22 11:41:42
6122 0 0

6.1k 0 0

sql学习的语法。万事皆备于我，我心即使宇宙。不定时补充笔记。
Hive MySQL SQL SQL Server
Dart笔记：一些代码生成工具站点的介绍
Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式，支持多种编程语言。该站点的要功能包括：JSON 转代码：通过 quicktype 的 web 应用程序，用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询，quicktype 就能生成相应的代码。

jcLee95
发表于2023-11-13 20:51:36
4510 0 0

4.5k 0 0

Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式，支持多种编程语言。该站点的要功能包括：JSON 转代码：通过 quicktype 的 web 应用程序，用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询，quicktype 就能生成相应的代码。
Android Flutter Hive iOS JSON
Hive安装超详细教程
Hive安装超详细教程

笑看风云路
发表于2023-06-16 16:05:14
8755 0 0

8.7k 0 0

Hive安装超详细教程
Hive
sqoop避免输入密码自动增量job脚本介绍
将关系型数据库ORACLE的数据导入到HDFS中，可以通过Sqoop、OGG来实现，相比较ORACLE GOLDENGATE，Sqoop不仅不需要复杂的安装配置，而且传输效率很高，同时也能实现增量数据同步。说明：本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作，是对第二篇文章环境的一个简单使用测试，使用过程中出现的错误亦可以验证暴

赵延东的一亩三分地
发表于2023-03-25 12:09:05
5371 0 0

5.3k 0 0

将关系型数据库ORACLE的数据导入到HDFS中，可以通过Sqoop、OGG来实现，相比较ORACLE GOLDENGATE，Sqoop不仅不需要复杂的安装配置，而且传输效率很高，同时也能实现增量数据同步。说明：本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作，是对第二篇文章环境的一个简单使用测试，使用过程中出现的错误亦可以验证暴
Hive Oracle
Sqoop全量同步mysql/Oracle数据到hive
接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive，这里实验采用oracle数据库为例，后面一篇文章将详细介绍： 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive

赵延东的一亩三分地
发表于2023-03-25 12:06:12
7585 0 0

7.5k 0 0

接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive，这里实验采用oracle数据库为例，后面一篇文章将详细介绍： 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive
Hive MySQL Oracle
Sqoop增量同步mysql/oracle数据到hive(merge-key/append）测试文档
在生产环境中，系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据，导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍，此时我们就需要增量数据导入这一模式了。增量数据导入分两种，一是基于递增列的增量数据导入（Append方式）。二是基于时间列的增量数据导入（LastModified方式），增量导入使用到的核心参数主要是： –check-column

赵延东的一亩三分地
发表于2023-03-25 12:02:02
6280 0 0

6.2k 0 0

在生产环境中，系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据，导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍，此时我们就需要增量数据导入这一模式了。增量数据导入分两种，一是基于递增列的增量数据导入（Append方式）。二是基于时间列的增量数据导入（LastModified方式），增量导入使用到的核心参数主要是： –check-column
Hive MySQL Oracle
记一次同事不慎用root起动weblogic以及启动日志卡在The server started in RUNNING mode
最近因为单位换了新版本华为HD集群，有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群，需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事，也将实施文档给了同事，但是同事在操作完成后，Smarbi节点无法正常起来(后台日志卡在：The server st

赵延东的一亩三分地
发表于2023-03-25 00:07:46
5874 0 0

5.8k 0 0

最近因为单位换了新版本华为HD集群，有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群，需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事，也将实施文档给了同事，但是同事在操作完成后，Smarbi节点无法正常起来(后台日志卡在：The server st
Hive

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript