- Apache Hive 是一个基于 Hadoop 的数据仓库工具,它提供了一个类似于 SQL 的查询语言,用于大规模数据处理。Hive Metastore(HMS)是 Hive 架构中的关键组件,负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念,对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H... Apache Hive 是一个基于 Hadoop 的数据仓库工具,它提供了一个类似于 SQL 的查询语言,用于大规模数据处理。Hive Metastore(HMS)是 Hive 架构中的关键组件,负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念,对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H...
- @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后... @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后...
- Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询 基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先 面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后... Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询 基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先 面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...
- 拉链表版本迭代:hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储:创建拉链表时使用列式存储ORC:不能使用load加载数据压缩比高 效率高场景:【数据规模庞大】,新数据【在有限的时间】内存在多种状... 拉链表版本迭代:hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储:创建拉链表时使用列式存储ORC:不能使用load加载数据压缩比高 效率高场景:【数据规模庞大】,新数据【在有限的时间】内存在多种状...
- Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大... Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大...
- Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code... Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code...
- 官网下载 官网地址:http://hive.apache.org/由于我们的Hadoop版本是2.9.2,所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓,自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面,将文件夹重命名为 hi... 官网下载 官网地址:http://hive.apache.org/由于我们的Hadoop版本是2.9.2,所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓,自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面,将文件夹重命名为 hi...
- 数据仓库 基本概念 场景案例 主要特征 主流开发语言-SQL 数仓开发语言概述 SQL语言介绍 结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署 元数据 Hive SQL语言 数据仓库 基本概念数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储,分析,报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结构为企业提供... 数据仓库 基本概念 场景案例 主要特征 主流开发语言-SQL 数仓开发语言概述 SQL语言介绍 结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署 元数据 Hive SQL语言 数据仓库 基本概念数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储,分析,报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结构为企业提供...
- sql学习的语法。 万事皆备于我,我心即使宇宙。 不定时补充笔记。 sql学习的语法。 万事皆备于我,我心即使宇宙。 不定时补充笔记。
- Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式,支持多种编程语言。该站点的要功能包括:JSON 转代码: 通过 quicktype 的 web 应用程序,用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询,quicktype 就能生成相应的代码。 Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式,支持多种编程语言。该站点的要功能包括:JSON 转代码: 通过 quicktype 的 web 应用程序,用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询,quicktype 就能生成相应的代码。
- Hive安装超详细教程 Hive安装超详细教程
- 将关系型数据库ORACLE的数据导入到HDFS中,可以通过Sqoop、OGG来实现,相比较ORACLE GOLDENGATE,Sqoop不仅不需要复杂的安装配置,而且传输效率很高,同时也能实现增量数据同步。 说明:本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作,是对第二篇文章环境的一个简单使用测试,使用过程中出现的错误亦可以验证暴 将关系型数据库ORACLE的数据导入到HDFS中,可以通过Sqoop、OGG来实现,相比较ORACLE GOLDENGATE,Sqoop不仅不需要复杂的安装配置,而且传输效率很高,同时也能实现增量数据同步。 说明:本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作,是对第二篇文章环境的一个简单使用测试,使用过程中出现的错误亦可以验证暴
- 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例, 后面一篇文章将详细介绍: 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例, 后面一篇文章将详细介绍: 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive
- 在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。 增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式),增量导入使用到的核心参数主要是: –check-column 在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。 增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式),增量导入使用到的核心参数主要是: –check-column
- 最近因为单位换了新版本华为HD集群,有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群,需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事,也将实施文档给了同事,但是同事在操作完成后,Smarbi节点无法正常起来(后台日志卡在:The server st 最近因为单位换了新版本华为HD集群,有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群,需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事,也将实施文档给了同事,但是同事在操作完成后,Smarbi节点无法正常起来(后台日志卡在:The server st
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签