- 关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Fl... 关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Fl...
- 本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink SQL与kafka构建的实时数仓,本文以上述文章为基础。 在完成本文实践的同时可以同步参考上述文章。 最终结果: ... 本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink SQL与kafka构建的实时数仓,本文以上述文章为基础。 在完成本文实践的同时可以同步参考上述文章。 最终结果: ...
- 在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的基础,我们再来理解Flink Table/SQL是如何实现Hudi的数据读取与写入就比较容易了。动态表是自定义sources/sinks的核心,通过查阅源码我们可以知道在flink-hudi子模块中,org.apa... 在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的基础,我们再来理解Flink Table/SQL是如何实现Hudi的数据读取与写入就比较容易了。动态表是自定义sources/sinks的核心,通过查阅源码我们可以知道在flink-hudi子模块中,org.apa...
- 总览本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi中。与此同时,在将数据写入到hudi中时,同步进行查询。 组件版本与依赖datafaker 0.6.3mysql 5.7zookeeper 3.6.3kafka 2.8.0hadoop 3.2.0flink 1.1... 总览本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi中。与此同时,在将数据写入到hudi中时,同步进行查询。 组件版本与依赖datafaker 0.6.3mysql 5.7zookeeper 3.6.3kafka 2.8.0hadoop 3.2.0flink 1.1...
- GES-Flink-Connector是一款自定义的离线/实时数据同步Flink连接器(connector),用于外部数据源与GES图数据库的数据同步。 GES-Flink-Connector是一款自定义的离线/实时数据同步Flink连接器(connector),用于外部数据源与GES图数据库的数据同步。
- 使用华为FusionInsight MRS的Flink组件进行开发工作时,需要了解如何配置Flink客户端。本文将介绍如何进行该配置。 使用华为FusionInsight MRS的Flink组件进行开发工作时,需要了解如何配置Flink客户端。本文将介绍如何进行该配置。
- 需求描述Slot可以认为是taskmanager上面一块独立分配的资源,是taskmanager并行执行的能力的体现。Taskmanager中有两种使用slot的方法:一个taskmanager中设置了一个slot。一个taskmanager中设置了多个slot。每个task slot 表示TaskManager 拥有资源的一个固定大小的子集。假如一个taskManager 有三个slot,... 需求描述Slot可以认为是taskmanager上面一块独立分配的资源,是taskmanager并行执行的能力的体现。Taskmanager中有两种使用slot的方法:一个taskmanager中设置了一个slot。一个taskmanager中设置了多个slot。每个task slot 表示TaskManager 拥有资源的一个固定大小的子集。假如一个taskManager 有三个slot,...
- 开发人员可以利用Scala的Actor模型在JVM上设计具伸缩性的并发应用程序,它会自动获得多核心处理器带来的优势,而不必依照复杂的Java线程模型来编写程序。本文重点讲解如何在用Maven来创建Scala语言的Flink入门项目模板,并在IDEA中进行调试运行。 开发人员可以利用Scala的Actor模型在JVM上设计具伸缩性的并发应用程序,它会自动获得多核心处理器带来的优势,而不必依照复杂的Java线程模型来编写程序。本文重点讲解如何在用Maven来创建Scala语言的Flink入门项目模板,并在IDEA中进行调试运行。
- Flink是一个开源的大数据框架和分布式处理引擎,它由Apache软件基金会开源,用于在无界和有界流数据上进行有状态的计算。本文在Linux操作系统上搭建了单机运行的Flink部署环境,并给出了基本的字数统计示例。 Flink是一个开源的大数据框架和分布式处理引擎,它由Apache软件基金会开源,用于在无界和有界流数据上进行有状态的计算。本文在Linux操作系统上搭建了单机运行的Flink部署环境,并给出了基本的字数统计示例。
- 这个比较靠谱,下面操作的是单机https://blog.csdn.net/high2011/article/details/90272331从github上clone ambari-flink-service到对应目录sudo git clone https://github.com/abajwa-hw/ambari-flink-service.git /var/lib/ambari-s... 这个比较靠谱,下面操作的是单机https://blog.csdn.net/high2011/article/details/90272331从github上clone ambari-flink-service到对应目录sudo git clone https://github.com/abajwa-hw/ambari-flink-service.git /var/lib/ambari-s...
- 1.1.1 Flink任务运行一段时间后卡住但未失败问题现象Flink的运行日志发现,任务运行一段时间后持续打印以下日志:RPC Server Kerberos principal name for service=ClientService is hbase/xxxx.xxxx.xxx.com并且没有出现其它错误。 可能原因HBase在认证过程中缓存中的票据信息没有更新,导致HBase一直... 1.1.1 Flink任务运行一段时间后卡住但未失败问题现象Flink的运行日志发现,任务运行一段时间后持续打印以下日志:RPC Server Kerberos principal name for service=ClientService is hbase/xxxx.xxxx.xxx.com并且没有出现其它错误。 可能原因HBase在认证过程中缓存中的票据信息没有更新,导致HBase一直...
- DataStreamDataStream通过Map、flatMap、filter等转换,而所有的转换在提交任务前都缓存在env的operators中(Operators将一个或多个dataStream转换成新的dataStream)代码解析以flatMap为例需要注意的是 keyBy、shuffle、rebalance不会发生datastream转换https://ci.apache.org... DataStreamDataStream通过Map、flatMap、filter等转换,而所有的转换在提交任务前都缓存在env的operators中(Operators将一个或多个dataStream转换成新的dataStream)代码解析以flatMap为例需要注意的是 keyBy、shuffle、rebalance不会发生datastream转换https://ci.apache.org...
- JM内存参数参数默认值解释jobmanager.memory.process.sizeNoneJM的总内存如果没有设置,会使用旧的配置jobmanager.heap.sizejobmanager.memory.flink.sizeNonejobmanager.memory.process.size= jobmanager.memory.flink.size+ JVM Metaspace an... JM内存参数参数默认值解释jobmanager.memory.process.sizeNoneJM的总内存如果没有设置,会使用旧的配置jobmanager.heap.sizejobmanager.memory.flink.sizeNonejobmanager.memory.process.size= jobmanager.memory.flink.size+ JVM Metaspace an...
- Flink 容错机制主要有作业执行的容错以及守护进程的容错两方面,前者包括 Flink runtime 的 ExecutionGraph 和Execution的容错,后者则包括 JobManager 和 TaskManager 的容错。一、作业执行容错 Flink 的错误恢复机制分为多个级别,即 Execution 级别的 Failover 策略和 ExecutionG... Flink 容错机制主要有作业执行的容错以及守护进程的容错两方面,前者包括 Flink runtime 的 ExecutionGraph 和Execution的容错,后者则包括 JobManager 和 TaskManager 的容错。一、作业执行容错 Flink 的错误恢复机制分为多个级别,即 Execution 级别的 Failover 策略和 ExecutionG...
- DLI Flink提供了完整可靠的Checkpoint/Savepoint机制,您可以利用该机制,保证在手动重启或者作业异常重启场景下,不丢失数据。为了避免系统故障导致作业异常自动重启后,丢失数据:对于Flink SQL作业,您可以勾选“开启Checkpoint”,并合理配置Checkpoint间隔(权衡执行Checkpoint对业务性能的影响以及异常恢复的时长),同时勾选“异常自动重启”,... DLI Flink提供了完整可靠的Checkpoint/Savepoint机制,您可以利用该机制,保证在手动重启或者作业异常重启场景下,不丢失数据。为了避免系统故障导致作业异常自动重启后,丢失数据:对于Flink SQL作业,您可以勾选“开启Checkpoint”,并合理配置Checkpoint间隔(权衡执行Checkpoint对业务性能的影响以及异常恢复的时长),同时勾选“异常自动重启”,...
上滑加载中
推荐直播
-
基于开源鸿蒙+海思星闪开发板:嵌入式系统开发实战(Day1)
2025/03/29 周六 09:00-18:00
华为开发者布道师
本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用,涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容,旨在帮助学员全面掌握相关技术并进行实际操作
回顾中 -
基于开源鸿蒙+海思星闪开发板:嵌入式系统开发实战(Day2)
2025/03/30 周日 09:00-12:00
华为开发者布道师
本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用,涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容,旨在帮助学员全面掌握相关技术并进行实际操作
回顾中 -
从AI基础到昇腾:大模型初探、DeepSeek解析与昇腾入门
2025/04/02 周三 16:00-17:30
不易 / 华为云学堂技术讲师
昇腾是华为研发的AI芯片,其具有哪些能力?我们如何基于其进行开发?本期直播将从AI以及大模型基础知识开始,介绍人工智能核心概念、昇腾AI基础软硬件平台以及昇腾专区,旨在为零基础或入门级学习者搭建从AI基础知识到昇腾技术的完整学习路径。
回顾中
热门标签