- 关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Fl... 关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Fl...
- 本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink SQL与kafka构建的实时数仓,本文以上述文章为基础。 在完成本文实践的同时可以同步参考上述文章。 最终结果: ... 本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink SQL与kafka构建的实时数仓,本文以上述文章为基础。 在完成本文实践的同时可以同步参考上述文章。 最终结果: ...
- 在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的基础,我们再来理解Flink Table/SQL是如何实现Hudi的数据读取与写入就比较容易了。动态表是自定义sources/sinks的核心,通过查阅源码我们可以知道在flink-hudi子模块中,org.apa... 在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的基础,我们再来理解Flink Table/SQL是如何实现Hudi的数据读取与写入就比较容易了。动态表是自定义sources/sinks的核心,通过查阅源码我们可以知道在flink-hudi子模块中,org.apa...
- 总览本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi中。与此同时,在将数据写入到hudi中时,同步进行查询。 组件版本与依赖datafaker 0.6.3mysql 5.7zookeeper 3.6.3kafka 2.8.0hadoop 3.2.0flink 1.1... 总览本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi中。与此同时,在将数据写入到hudi中时,同步进行查询。 组件版本与依赖datafaker 0.6.3mysql 5.7zookeeper 3.6.3kafka 2.8.0hadoop 3.2.0flink 1.1...
- GES-Flink-Connector是一款自定义的离线/实时数据同步Flink连接器(connector),用于外部数据源与GES图数据库的数据同步。 GES-Flink-Connector是一款自定义的离线/实时数据同步Flink连接器(connector),用于外部数据源与GES图数据库的数据同步。
- 使用华为FusionInsight MRS的Flink组件进行开发工作时,需要了解如何配置Flink客户端。本文将介绍如何进行该配置。 使用华为FusionInsight MRS的Flink组件进行开发工作时,需要了解如何配置Flink客户端。本文将介绍如何进行该配置。
- 需求描述Slot可以认为是taskmanager上面一块独立分配的资源,是taskmanager并行执行的能力的体现。Taskmanager中有两种使用slot的方法:一个taskmanager中设置了一个slot。一个taskmanager中设置了多个slot。每个task slot 表示TaskManager 拥有资源的一个固定大小的子集。假如一个taskManager 有三个slot,... 需求描述Slot可以认为是taskmanager上面一块独立分配的资源,是taskmanager并行执行的能力的体现。Taskmanager中有两种使用slot的方法:一个taskmanager中设置了一个slot。一个taskmanager中设置了多个slot。每个task slot 表示TaskManager 拥有资源的一个固定大小的子集。假如一个taskManager 有三个slot,...
- 开发人员可以利用Scala的Actor模型在JVM上设计具伸缩性的并发应用程序,它会自动获得多核心处理器带来的优势,而不必依照复杂的Java线程模型来编写程序。本文重点讲解如何在用Maven来创建Scala语言的Flink入门项目模板,并在IDEA中进行调试运行。 开发人员可以利用Scala的Actor模型在JVM上设计具伸缩性的并发应用程序,它会自动获得多核心处理器带来的优势,而不必依照复杂的Java线程模型来编写程序。本文重点讲解如何在用Maven来创建Scala语言的Flink入门项目模板,并在IDEA中进行调试运行。
- Flink是一个开源的大数据框架和分布式处理引擎,它由Apache软件基金会开源,用于在无界和有界流数据上进行有状态的计算。本文在Linux操作系统上搭建了单机运行的Flink部署环境,并给出了基本的字数统计示例。 Flink是一个开源的大数据框架和分布式处理引擎,它由Apache软件基金会开源,用于在无界和有界流数据上进行有状态的计算。本文在Linux操作系统上搭建了单机运行的Flink部署环境,并给出了基本的字数统计示例。
- 这个比较靠谱,下面操作的是单机https://blog.csdn.net/high2011/article/details/90272331从github上clone ambari-flink-service到对应目录sudo git clone https://github.com/abajwa-hw/ambari-flink-service.git /var/lib/ambari-s... 这个比较靠谱,下面操作的是单机https://blog.csdn.net/high2011/article/details/90272331从github上clone ambari-flink-service到对应目录sudo git clone https://github.com/abajwa-hw/ambari-flink-service.git /var/lib/ambari-s...
- 1.1.1 Flink任务运行一段时间后卡住但未失败问题现象Flink的运行日志发现,任务运行一段时间后持续打印以下日志:RPC Server Kerberos principal name for service=ClientService is hbase/xxxx.xxxx.xxx.com并且没有出现其它错误。 可能原因HBase在认证过程中缓存中的票据信息没有更新,导致HBase一直... 1.1.1 Flink任务运行一段时间后卡住但未失败问题现象Flink的运行日志发现,任务运行一段时间后持续打印以下日志:RPC Server Kerberos principal name for service=ClientService is hbase/xxxx.xxxx.xxx.com并且没有出现其它错误。 可能原因HBase在认证过程中缓存中的票据信息没有更新,导致HBase一直...
- DataStreamDataStream通过Map、flatMap、filter等转换,而所有的转换在提交任务前都缓存在env的operators中(Operators将一个或多个dataStream转换成新的dataStream)代码解析以flatMap为例需要注意的是 keyBy、shuffle、rebalance不会发生datastream转换https://ci.apache.org... DataStreamDataStream通过Map、flatMap、filter等转换,而所有的转换在提交任务前都缓存在env的operators中(Operators将一个或多个dataStream转换成新的dataStream)代码解析以flatMap为例需要注意的是 keyBy、shuffle、rebalance不会发生datastream转换https://ci.apache.org...
- JM内存参数参数默认值解释jobmanager.memory.process.sizeNoneJM的总内存如果没有设置,会使用旧的配置jobmanager.heap.sizejobmanager.memory.flink.sizeNonejobmanager.memory.process.size= jobmanager.memory.flink.size+ JVM Metaspace an... JM内存参数参数默认值解释jobmanager.memory.process.sizeNoneJM的总内存如果没有设置,会使用旧的配置jobmanager.heap.sizejobmanager.memory.flink.sizeNonejobmanager.memory.process.size= jobmanager.memory.flink.size+ JVM Metaspace an...
- Flink 容错机制主要有作业执行的容错以及守护进程的容错两方面,前者包括 Flink runtime 的 ExecutionGraph 和Execution的容错,后者则包括 JobManager 和 TaskManager 的容错。一、作业执行容错 Flink 的错误恢复机制分为多个级别,即 Execution 级别的 Failover 策略和 ExecutionG... Flink 容错机制主要有作业执行的容错以及守护进程的容错两方面,前者包括 Flink runtime 的 ExecutionGraph 和Execution的容错,后者则包括 JobManager 和 TaskManager 的容错。一、作业执行容错 Flink 的错误恢复机制分为多个级别,即 Execution 级别的 Failover 策略和 ExecutionG...
- DLI Flink提供了完整可靠的Checkpoint/Savepoint机制,您可以利用该机制,保证在手动重启或者作业异常重启场景下,不丢失数据。为了避免系统故障导致作业异常自动重启后,丢失数据:对于Flink SQL作业,您可以勾选“开启Checkpoint”,并合理配置Checkpoint间隔(权衡执行Checkpoint对业务性能的影响以及异常恢复的时长),同时勾选“异常自动重启”,... DLI Flink提供了完整可靠的Checkpoint/Savepoint机制,您可以利用该机制,保证在手动重启或者作业异常重启场景下,不丢失数据。为了避免系统故障导致作业异常自动重启后,丢失数据:对于Flink SQL作业,您可以勾选“开启Checkpoint”,并合理配置Checkpoint间隔(权衡执行Checkpoint对业务性能的影响以及异常恢复的时长),同时勾选“异常自动重启”,...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢
2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
苏州工业园区“华为云杯”2025人工智能应用创新大赛赛中直播
2025/08/21 周四 16:00-17:00
Vz 华为云AIoT技术布道师
本期直播将与您一起探讨如何基于华为云IoT平台全场景云服务,结合AI、鸿蒙、大数据等技术,打造有创新性,有竞争力的方案和产品。
即将直播
热门标签