Hive_标签_开发者_华为云

博客(385)
视频(0)
论坛(0)
云声(0)
代码示例(0)

Hive UDF UDTF UDAF 自定义函数详解
Hive笔记05 – Hive UDF UDTF UDAF UDF UDF在Hive中的实现 UDF的创建与配置类名定义规则示例：com.ybg.hive.ql.func.udf.UDFDateDiffByUnit规则：反向域名+模块名+功能分类(ql.func.udf：hive查询语言中的UDF函数)+具体功能|类名基本配置New Project - Maven模板<properti...

Byyyi耀
发表于2024-05-06 11:04:48
4510 0 0

4.5k 0 0

Hive笔记05 – Hive UDF UDTF UDAF UDF UDF在Hive中的实现 UDF的创建与配置类名定义规则示例：com.ybg.hive.ql.func.udf.UDFDateDiffByUnit规则：反向域名+模块名+功能分类(ql.func.udf：hive查询语言中的UDF函数)+具体功能|类名基本配置New Project - Maven模板<properti...
Hive
Hive实战 —— 电商数据分析(全流程详解真实数据)
前言该实战项目的目的在于通过基于小型数据的Hive数仓构建进行的业务分析来做到以小见大，熟悉实际生产情况下构建Hive数仓解决实际问题的场景。本文内容较多，包含了从前期准备到数据分析的方案，代码，问题，解决方法等等，分析的数据文件和 Zeppelin中的源文件都已放在文章顶部，请先行下载，并配置好Zeppelin Hive相关环境后再进行阅读。相信认真读完并参与你一定会有收获！需求概...

Byyyi耀
发表于2024-05-06 11:02:15
8096 0 0

8.0k 0 0

前言该实战项目的目的在于通过基于小型数据的Hive数仓构建进行的业务分析来做到以小见大，熟悉实际生产情况下构建Hive数仓解决实际问题的场景。本文内容较多，包含了从前期准备到数据分析的方案，代码，问题，解决方法等等，分析的数据文件和 Zeppelin中的源文件都已放在文章顶部，请先行下载，并配置好Zeppelin Hive相关环境后再进行阅读。相信认真读完并参与你一定会有收获！需求概...
Hive 应用与数据集成平台 ROMA Connect 数据挖掘自建电商
对接HiveMetaStore，拥抱开源大数据
对接HiveMetaStore，拥抱开源大数据对接HiveMetaStore，拥抱开源大数据 1. 前言 2. 原理浅析 2.1 什么是HiveMetaStore 2.2 external schema与schema的区别 2.3 原理说明 3. 与hivememtastore对接流程 3.1 准备环境 3.2 在hive端创建需要对接的表 3.3 创建外部服务器 3.4 创建EXTER...

睡觉是大事
发表于2024-04-22 17:01:14
8254 0 0

8.2k 0 0

对接HiveMetaStore，拥抱开源大数据对接HiveMetaStore，拥抱开源大数据 1. 前言 2. 原理浅析 2.1 什么是HiveMetaStore 2.2 external schema与schema的区别 2.3 原理说明 3. 与hivememtastore对接流程 3.1 准备环境 3.2 在hive端创建需要对接的表 3.3 创建外部服务器 3.4 创建EXTER...
Hive 大数据
大数据NiFi（二十）：实时同步MySQL数据到Hive
实时同步MySQL数据到Hive案例：将mysql中新增的数据实时同步到Hive中。以上案例需要用到的处理器有：“CaptureChangeMySQL”、“RouteOnAttribute”、“EvaluateJsonPath”、“ReplaceText”、“PutHiveQL”。首先通过“CaptureChangeMySQL”读取MySQL中数据的变化（需要开启MySQL binlog日...

Lansonli
发表于2023-02-27 08:54:07
6966 0 1

6.9k 0 1

实时同步MySQL数据到Hive案例：将mysql中新增的数据实时同步到Hive中。以上案例需要用到的处理器有：“CaptureChangeMySQL”、“RouteOnAttribute”、“EvaluateJsonPath”、“ReplaceText”、“PutHiveQL”。首先通过“CaptureChangeMySQL”读取MySQL中数据的变化（需要开启MySQL binlog日...
Hive MySQL 大数据
客快物流大数据项目（七十）：Impala入门介绍
Impala入门介绍一、impala基本介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，impala是参照谷歌的新三篇论文（Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具）当中的...

Lansonli
发表于2022-12-19 11:59:05
6928 0 0

6.9k 0 0

Impala入门介绍一、impala基本介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，impala是参照谷歌的新三篇论文（Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具）当中的...
Hive 大数据智慧物流
CDH+Kylin三部曲之三：Kylin官方demo
本文是《CDH+Kylin三部曲》系列的终篇，一起来实践kylin官方的demo

程序员欣宸
发表于2022-12-07 09:40:09
6435 1 0

6.4k 1 0

本文是《CDH+Kylin三部曲》系列的终篇，一起来实践kylin官方的demo
Hadoop Hive
数据湖（十二）：Spark3.1.2与Iceberg0.12.1整合
Spark3.1.2与Iceberg0.12.1整合Spark可以操作Iceberg数据湖，这里使用的Iceberg的版本为0.12.1，此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持DDL、增加分区及增加分区转换、Iceberg元数据查询、insert into/overwrite等操作，建议使用Spark3.x版本来整合Iceberg0.1...

Lansonli
发表于2022-07-08 06:29:11
7224 0 1

7.2k 0 1

Spark3.1.2与Iceberg0.12.1整合Spark可以操作Iceberg数据湖，这里使用的Iceberg的版本为0.12.1，此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持DDL、增加分区及增加分区转换、Iceberg元数据查询、insert into/overwrite等操作，建议使用Spark3.x版本来整合Iceberg0.1...
Hive spark
大数据物流项目：主题及指标开发之即席查询引擎Impala（分布式内存计算)（十一）
theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第15天，点击查看活动详情 Logistics_Day11：主题及指标开发 01-[复习]-上次内容回顾业务一：将业务数据实时增量存储至Kudu表，进行离线报表分析及即席查询分析，技术框架如下。1）、离线报表分析：1个主题报表【快递单tbl_express_bill主题报表开发】按照数据仓库...

Maynor学长
发表于2022-06-29 20:38:03
6771 0 0

6.7k 0 0

theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第15天，点击查看活动详情 Logistics_Day11：主题及指标开发 01-[复习]-上次内容回顾业务一：将业务数据实时增量存储至Kudu表，进行离线报表分析及即席查询分析，技术框架如下。1）、离线报表分析：1个主题报表【快递单tbl_express_bill主题报表开发】按照数据仓库...
Hive SQL
数据湖（十）：Hive与Iceberg整合
Hive与Iceberg整合Iceberg就是一种表格式，支持使用Hive对Iceberg进行读写操作，但是对Hive的版本有要求，如下：操作Hive 2.xHive 3.1.2CREATE EXTERNAL TABLE√√CREATE TABLE√√DROP TABLE√√SELECT√√INSERT INTO√√这里基于Hive3.1.2版本进行Hive操作Iceberg表讲解。一、开启...

Lansonli
发表于2022-06-26 06:54:13
11278 0 1

11.2k 0 1

Hive与Iceberg整合Iceberg就是一种表格式，支持使用Hive对Iceberg进行读写操作，但是对Hive的版本有要求，如下：操作Hive 2.xHive 3.1.2CREATE EXTERNAL TABLE√√CREATE TABLE√√DROP TABLE√√SELECT√√INSERT INTO√√这里基于Hive3.1.2版本进行Hive操作Iceberg表讲解。一、开启...
Hive
Hive简介
Hive是一个基于hadoop的数据仓库，他可以将Parquet/ORC等结构化数据文件映射成表，并提供类SQL功能（HQL），输入的SQL语句会在处理后转化为MapReduce作业，最后提交到Yarn上运行。特点：简单容易上手，通过提供类似SQL的语言HQL，使得熟悉sql的人可以平滑迁移到hive上来，进行大数据分析。灵活性高，可以自定义用户函数和存储格式为超大的数据集设计的计算和存储能...

xiatch
发表于2022-05-31 19:23:07
8742 0 1

8.7k 0 1

Hive是一个基于hadoop的数据仓库，他可以将Parquet/ORC等结构化数据文件映射成表，并提供类SQL功能（HQL），输入的SQL语句会在处理后转化为MapReduce作业，最后提交到Yarn上运行。特点：简单容易上手，通过提供类似SQL的语言HQL，使得熟悉sql的人可以平滑迁移到hive上来，进行大数据分析。灵活性高，可以自定义用户函数和存储格式为超大的数据集设计的计算和存储能...
Hive SQL
Spark性能优化案例
Spark性能优化案例主流大数据技术都是开源的：Hadoop大数据存储与计算产品Hive、Spark SQL大数据仓库Storm、Flink这样的大数据流计算产品Mahout、MLlib大数据机器学习算法库如何参与Apache软件开发，如何进行软件性能优化及Spark源码优化：更深入、系统地了解软件性能优化更深入了解Spark的一些运行机制，同时也可以了解Apache开源社区的运作模式。因...

JavaEdge
发表于2022-04-28 22:59:45
6732 0 0

6.7k 0 0

Spark性能优化案例主流大数据技术都是开源的：Hadoop大数据存储与计算产品Hive、Spark SQL大数据仓库Storm、Flink这样的大数据流计算产品Mahout、MLlib大数据机器学习算法库如何参与Apache软件开发，如何进行软件性能优化及Spark源码优化：更深入、系统地了解软件性能优化更深入了解Spark的一些运行机制，同时也可以了解Apache开源社区的运作模式。因...
Hive spark 大数据
Hive实现离线计算（HQL）
👨🏻‍🎓博主介绍：大家好，我是芝士味的椒盐，一名在校大学生，热爱分享知识，很高兴在这里认识大家🌟🌈擅长领域：Java、大数据、运维、电子🙏🏻如果本文章各位小伙伴们有帮助的话，🍭关注+👍🏻点赞+🗣评论+📦收藏，相应的有空了我也会回访，互助！！！🤝另本人水平有限，旨在创作简单易懂的文章，在文章描述时如有错，恳请各位大佬指正，在此感谢！！！大数据业务分为两大：实时计...

芝士味的椒盐
发表于2022-04-23 10:43:11
9412 0 0

9.4k 0 0

👨🏻‍🎓博主介绍：大家好，我是芝士味的椒盐，一名在校大学生，热爱分享知识，很高兴在这里认识大家🌟🌈擅长领域：Java、大数据、运维、电子🙏🏻如果本文章各位小伙伴们有帮助的话，🍭关注+👍🏻点赞+🗣评论+📦收藏，相应的有空了我也会回访，互助！！！🤝另本人水平有限，旨在创作简单易懂的文章，在文章描述时如有错，恳请各位大佬指正，在此感谢！！！大数据业务分为两大：实时计...
Hive SQL
Hive如何让MapReduce实现SQL操作
Hive如何让MapReduce实现SQL操作MapReduce简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人，比如从事研究商业智能（BI）的数据分析师来说，他们通常使用SQL进行大数据分析和统计，MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce...

JavaEdge
发表于2022-04-15 22:48:24
7601 0 1

7.6k 0 1

Hive如何让MapReduce实现SQL操作MapReduce简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人，比如从事研究商业智能（BI）的数据分析师来说，他们通常使用SQL进行大数据分析和统计，MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce...
Hive MapReduce SQL
【最全的大数据面试系列】Hive面试题大全
1.Hive 表关联查询，如何解决数据倾斜的问题？1.倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。1）key 分布不均匀;2）业务数据本身的特性;3）建表时考虑不周;4）某些 SQL 语句本身就有数据倾斜;如何避免：对于 key 为空产生的数据倾斜，可...

大数据小禅
发表于2021-12-25 20:32:18
6926 0 0

6.9k 0 0

1.Hive 表关联查询，如何解决数据倾斜的问题？1.倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。1）key 分布不均匀;2）业务数据本身的特性;3）建表时考虑不周;4）某些 SQL 语句本身就有数据倾斜;如何避免：对于 key 为空产生的数据倾斜，可...
Hive 大数据
Hive虚拟列的生成与计算【4】
本文主要解析介绍Hive虚拟列BLOCK__OFFSET__INSIDE__FILE相关源码

想要一只猫
发表于2021-09-09 23:17:24
11261 0 0

11.2k 0 0

本文主要解析介绍Hive虚拟列BLOCK__OFFSET__INSIDE__FILE相关源码
EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript