- Apache Flink 是一个分布式的流式计算引擎,我司相关云服务产品DLI(数据湖探索,Data Lake Insight)完全兼容Apache Flink。本博客,总结了本人在初入DLI团队,试着在Windows端编译Flink官方Demo,并成功提交运行FlinkDemo的例子。希望对有需要了解Apache Flink的新同学能有所帮助,也可以对DLI的Flink引擎底层原理有一定认识。 Apache Flink 是一个分布式的流式计算引擎,我司相关云服务产品DLI(数据湖探索,Data Lake Insight)完全兼容Apache Flink。本博客,总结了本人在初入DLI团队,试着在Windows端编译Flink官方Demo,并成功提交运行FlinkDemo的例子。希望对有需要了解Apache Flink的新同学能有所帮助,也可以对DLI的Flink引擎底层原理有一定认识。
- 该文章主要对DLI中Flink OpenSource SQL的使用场景样例进行介绍。 该文章主要对DLI中Flink OpenSource SQL的使用场景样例进行介绍。
- 1. 问题描述使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。2. 初步分析该表的结果是由两表join后生成。经分析,join的结果产生了数据倾斜,且倾斜key为null。Join后每个task写一个文件,所以partition key为null的那个task将大量的null... 1. 问题描述使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。2. 初步分析该表的结果是由两表join后生成。经分析,join的结果产生了数据倾斜,且倾斜key为null。Join后每个task写一个文件,所以partition key为null的那个task将大量的null...
- 当前实时数据的接入和处理在DWS承载的业务中所占的比例越来越大,DWS可以和DLI Flink结合,实现实时数据处理结果的报表展示。同时,DWS可以作为Flink维表引擎,存储维表数据,共Flink关联时使用。下面介绍DWS如何与DLI Flink相结合,实现实时数据的存储和查询。一、创建DLI Flink作业 在DLI管理控制台的左侧导航栏中,单击“作业管理”>“Fli... 当前实时数据的接入和处理在DWS承载的业务中所占的比例越来越大,DWS可以和DLI Flink结合,实现实时数据处理结果的报表展示。同时,DWS可以作为Flink维表引擎,存储维表数据,共Flink关联时使用。下面介绍DWS如何与DLI Flink相结合,实现实时数据的存储和查询。一、创建DLI Flink作业 在DLI管理控制台的左侧导航栏中,单击“作业管理”>“Fli...
- DLI Flink提供了完整可靠的Checkpoint/Savepoint机制,您可以利用该机制,保证在手动重启或者作业异常重启场景下,数据不丢失。 DLI Flink提供了完整可靠的Checkpoint/Savepoint机制,您可以利用该机制,保证在手动重启或者作业异常重启场景下,数据不丢失。
- 使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。 使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。
- 关于数据分析的这些技术你了解吗? 关于数据分析的这些技术你了解吗?
- 一、执行计划是什么,有什么作用SQL语句在数据库中,经过SQL解析器时,解析器会分析SQL语句,并根据索引等信息,制定数据查询的步骤顺序。我们可以通过在SQL语句前添加 EXPLAIN关键字来输出执行计划。通过分析执行计划,我们可以了解到:SQL的索引使用情况。连接查询的执行顺序。查询扫描的数据函数。二、SQL执行顺序分析在了解执行计划之前,首先要清楚数据库SQL的执行顺序。SQL书写顺序:... 一、执行计划是什么,有什么作用SQL语句在数据库中,经过SQL解析器时,解析器会分析SQL语句,并根据索引等信息,制定数据查询的步骤顺序。我们可以通过在SQL语句前添加 EXPLAIN关键字来输出执行计划。通过分析执行计划,我们可以了解到:SQL的索引使用情况。连接查询的执行顺序。查询扫描的数据函数。二、SQL执行顺序分析在了解执行计划之前,首先要清楚数据库SQL的执行顺序。SQL书写顺序:...
- 01什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。02小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像,用户... 01什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。02小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像,用户...
- 湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,能够更加便捷地满足各种数据处理分析的需求。Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。我们将通过一系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Paimon、Iceberg、OSS、D... 湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,能够更加便捷地满足各种数据处理分析的需求。Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。我们将通过一系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Paimon、Iceberg、OSS、D...
- MRSDLIDWSCSS简述半托管式Hadoop全家桶,包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。高性能关系型分布式数据仓库。基于开源ES自研改进的搜索服务对标服务/产品A1EMRAthena/... MRSDLIDWSCSS简述半托管式Hadoop全家桶,包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。高性能关系型分布式数据仓库。基于开源ES自研改进的搜索服务对标服务/产品A1EMRAthena/...
- 数据湖概念一、什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。二、大数据为什么需要数据湖当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据仓库中对记录级别的数据进行更新是非常麻烦的,需要对待... 数据湖概念一、什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。二、大数据为什么需要数据湖当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据仓库中对记录级别的数据进行更新是非常麻烦的,需要对待...
- 背景:数据湖里面建表,可以使用DataSource语法或Hive语法 ,两种建表语法创建的OBS表(即外表)在运行job时,在分区表下的文件夹路径会有所不同,DataSource语法创建的OBS分区表路径生成无规律,不利于CDM做数据的增量导出。 背景:数据湖里面建表,可以使用DataSource语法或Hive语法 ,两种建表语法创建的OBS表(即外表)在运行job时,在分区表下的文件夹路径会有所不同,DataSource语法创建的OBS分区表路径生成无规律,不利于CDM做数据的增量导出。
- 本案例是《大数据全栈成长计划-第二期》的一个实操任务,本实验通过使用DLI SQL作业,体验会SQL就会大数据分析。 一、实验目的1、快速熟悉华为云大数据serverless服务DLI。2、掌握使用DLI创建表、读写表。 二、实验步骤如下 1、领取免费试用《数据湖探索服务DLI》(1)前往活动页领取DLI免费实验资源:https://activity.huaweicloud.cn/Date... 本案例是《大数据全栈成长计划-第二期》的一个实操任务,本实验通过使用DLI SQL作业,体验会SQL就会大数据分析。 一、实验目的1、快速熟悉华为云大数据serverless服务DLI。2、掌握使用DLI创建表、读写表。 二、实验步骤如下 1、领取免费试用《数据湖探索服务DLI》(1)前往活动页领取DLI免费实验资源:https://activity.huaweicloud.cn/Date...
- 概述 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Apache Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格... 概述 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Apache Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格...
上滑加载中
推荐直播
-
“智见未来”数字文旅创新大赛 线上培训
2025/04/16 周三 19:30-21:00
洪洁/行业算力发展部
4月16日19:30-21:00,大赛组委会将于线上举办培训,汇聚行业专家与技术大牛,从文旅产业的前沿趋势到AI技术的深度应用,全方位为你赋能
回顾中 -
WS63E星闪开发板快速入门指南:开启星闪技术之旅
2025/05/15 周四 19:00-20:30
杨阳 华为开发者布道师
本期直播,深度解析星闪技术核心优势与开发实战技巧,分享从环境搭建到“海思智棒”优秀星闪体验官案例开发的完整路径,覆盖技术原理、场景化案例、备赛避坑指南,助力开发者快速攻克物联网项目开发难题。
回顾中 -
星闪应用开发技术课程(群)建设思路与设想
2025/05/22 周四 19:00-21:00
葛非 华为开发者布道师
华中师范大学计算机学院副教授-葛非老师将深入讲解星闪核心技术及其支撑技术,并讨论如何将这些技术融入到通信工程、计算机科学与技术、软件工程等专业的课程内容中,旨在推动高等教育领域星闪鸿蒙生态的有序发展。
即将直播
热门标签