Kafka_标签_开发者_华为云

博客(488)
视频(0)
论坛(0)
云声(0)
代码示例(0)

A(18) Kafka数据重复
幂等性+ack-1+事务 Kafka数据重复，可以再下一级：SparkStreaming、redis或者hive中dwd层去重，去重的手段：分组、按照id开窗只取第一个值； Kafka数据重复怎么处理? 在下一级消费者中去重。（redis、SparkStreaming）二、重复消费问题：即上述消费方第1种情况—consumer在从broker读取消息后等消费完再comm...

bigdata张凯翔
发表于2021-03-28 00:23:46
3476 0 0

3.4k 0 0

幂等性+ack-1+事务 Kafka数据重复，可以再下一级：SparkStreaming、redis或者hive中dwd层去重，去重的手段：分组、按照id开窗只取第一个值； Kafka数据重复怎么处理? 在下一级消费者中去重。（redis、SparkStreaming）二、重复消费问题：即上述消费方第1种情况—consumer在从broker读取消息后等消费完再comm...
Kafka Redis
Hadoop宕机
1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数： yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰...

bigdata张凯翔
发表于2021-03-28 00:02:59
3494 0 0

3.4k 0 0

1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数： yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰...
Hadoop Kafka
A(10) Kafka丢不丢数据
10 Kafka丢不丢数据 Ack=0，相当于异步发送，消息发送完毕即offset增加，继续生产。 Ack=1，leader收到leader replica 对一个消息的接受ack才增加offset，然后继续生产。 Ack=-1，leader收到所有replica 对一个消息的接受ack才增加offset，然后继续生产。 kafka 如何保证数据不丢失 kafka的分区策略==...

bigdata张凯翔
发表于2021-03-27 23:47:57
3276 0 0

3.2k 0 0

10 Kafka丢不丢数据 Ack=0，相当于异步发送，消息发送完毕即offset增加，继续生产。 Ack=1，leader收到leader replica 对一个消息的接受ack才增加offset，然后继续生产。 Ack=-1，leader收到所有replica 对一个消息的接受ack才增加offset，然后继续生产。 kafka 如何保证数据不丢失 kafka的分区策略==...
Kafka
A(12)Kafka分区分配策略
在 Kafka内部存在两种默认的分区分配策略：Range和 RoundRobin。 Range是默认策略。Range是对每个Topic而言的（即一个Topic一个Topic分），首先对同一个Topic里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽，那么前面几个消费者...

bigdata张凯翔
发表于2021-03-27 23:22:32
3795 0 0

3.7k 0 0

在 Kafka内部存在两种默认的分区分配策略：Range和 RoundRobin。 Range是默认策略。Range是对每个Topic而言的（即一个Topic一个Topic分），首先对同一个Topic里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽，那么前面几个消费者...
Kafka 任务调度
A(19)Kafka参数优化
19 Kafka参数优化 1）Broker参数配置（server.properties） 1、网络和io操作线程配置优化 broker处理消息的最大线程数（默认为3） num.network.threads=cpu核数+1 broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据文件刷盘策略每当producer写入10000条消息时，刷数...

bigdata张凯翔
发表于2021-03-27 23:10:44
4376 0 0

4.3k 0 0

19 Kafka参数优化 1）Broker参数配置（server.properties） 1、网络和io操作线程配置优化 broker处理消息的最大线程数（默认为3） num.network.threads=cpu核数+1 broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据文件刷盘策略每当producer写入10000条消息时，刷数...
Kafka
SparkStreaming
Spark Streming的特性易用、容错、易整合 Spark Streaming 对比 Storm & SparkStreaming Storm 开发语言 Scala Clojure 编程模型3 DStream Spout/Bolt 实时性准实时，批处理实时流处理 Spark Streming编程实战开发流程： 1、构建sparkCon...

bigdata张凯翔
发表于2021-03-26 01:57:46
3293 0 0

3.2k 0 0

Spark Streming的特性易用、容错、易整合 Spark Streaming 对比 Storm & SparkStreaming Storm 开发语言 Scala Clojure 编程模型3 DStream Spout/Bolt 实时性准实时，批处理实时流处理 Spark Streming编程实战开发流程： 1、构建sparkCon...
Kafka spark
Kafka命令行使用指南
创建主题： ./kafka-topics.sh --create --topic topic_zkx --partitions 2 --replication-factor 2 --zookeeper host1:24002/kafka 查看主题： ./kafka-topics.sh --list --zookeeper host1:24002/kafka 修改主题： ./ka...

bigdata张凯翔
发表于2021-03-26 01:45:36
4263 0 0

4.2k 0 0

创建主题： ./kafka-topics.sh --create --topic topic_zkx --partitions 2 --replication-factor 2 --zookeeper host1:24002/kafka 查看主题： ./kafka-topics.sh --list --zookeeper host1:24002/kafka 修改主题： ./ka...
Kafka
解决发送数据到kafka效率低下的问题
image.png 错误，注释掉速度非常快 image.png image.png 这个错误很常见 image.png 创建producer的是在driver端创建，但是foreach具体执行的时候在executor, 封装的对象发送到executor不能被序列化，所以不能使用。 image.png 解决思路：把p...

bigdata张凯翔
发表于2021-03-26 00:38:03
5988 0 0

5.9k 0 0

image.png 错误，注释掉速度非常快 image.png image.png 这个错误很常见 image.png 创建producer的是在driver端创建，但是foreach具体执行的时候在executor, 封装的对象发送到executor不能被序列化，所以不能使用。 image.png 解决思路：把p...
Image Kafka
kafka配置命令
nohup /export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh /export/servers/kafka_2.11-1.0.0/config/server.properties > /dev/null 2>&1 & 关闭 bin/kafka-server-stop.sh 3.10.3 创建topic bin/k...

bigdata张凯翔
发表于2021-03-25 23:09:29
3273 0 0

3.2k 0 0

nohup /export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh /export/servers/kafka_2.11-1.0.0/config/server.properties > /dev/null 2>&1 & 关闭 bin/kafka-server-stop.sh 3.10.3 创建topic bin/k...
Kafka
分布式进阶(二十) Kafka简介
一、简介 1.1　概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。 Kafka主...

SHQ1874009
发表于2020-12-30 00:31:50
3770 0 0

3.7k 0 0

一、简介 1.1　概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。 Kafka主...
Kafka 分布式
17 个方面，综合对比 Kafka、RabbitMQ、RocketMQ、ActiveMQ
本文将从，Kafka、RabbitMQ、ZeroMQ、RocketMQ、ActiveMQ 17 个方面综合对比作为消息队列使用时的差异。一、资料文档 Kafka：中。有kafka作者自己写的书，网上资料也有一些。rabbitmq：多。有一些不错的书，网上资料多。zeromq：少。没有专门写zeromq的书，网上的资料多是一些代码的实现和简单介绍。rocketmq：少...

轻狂书生FS
发表于2020-12-03 01:16:59
4831 0 0

4.8k 0 0

本文将从，Kafka、RabbitMQ、ZeroMQ、RocketMQ、ActiveMQ 17 个方面综合对比作为消息队列使用时的差异。一、资料文档 Kafka：中。有kafka作者自己写的书，网上资料也有一些。rabbitmq：多。有一些不错的书，网上资料多。zeromq：少。没有专门写zeromq的书，网上的资料多是一些代码的实现和简单介绍。rocketmq：少...
Kafka RabbitMQ
Kafka快速入门系列(4) | 超好用的Kafka和zookeeper群起脚本(建议收藏！)
本篇博主带来的是Kafka和zookeeper群起脚本的创建与使用。目录一. Zookeeper1. 一键启动脚本2. 一键关闭脚本二. Kafka1. 启动2. 关闭之前介绍过Kafka集群环境的搭建，但是细心的朋友们都发现，Kafka与ZooKeeper一样，都需要在每台节点上执行对应的开启/关闭脚本，十分的不方便。现在...

不温卜火
发表于2020-12-03 01:16:32
6848 0 0

6.8k 0 0

本篇博主带来的是Kafka和zookeeper群起脚本的创建与使用。目录一. Zookeeper1. 一键启动脚本2. 一键关闭脚本二. Kafka1. 启动2. 关闭之前介绍过Kafka集群环境的搭建，但是细心的朋友们都发现，Kafka与ZooKeeper一样，都需要在每台节点上执行对应的开启/关闭脚本，十分的不方便。现在...
Kafka ZooKeeper
spark streaming 整合 kafka 两种 Receiver-based 和 Direct Approach
一、Receiver 方式整合 spark streaming  和 kafka 启动zookeeper zkServer.sh start 启动kafka ： kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties 创建topic： kafka-to...

小米粒-biubiubiu
发表于2020-12-03 00:57:24
5671 0 0

5.6k 0 0

一、Receiver 方式整合 spark streaming  和 kafka 启动zookeeper zkServer.sh start 启动kafka ： kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties 创建topic： kafka-to...
Kafka spark
Spark Streaming 快速入门系列(3) | DStream中如何创建数据源
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2020-12-03 00:53:59
3862 0 0

3.8k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
Kafka spark
大数据之 kafka 入门
一、zookeeper 下载安装 cdh 版本的 zookeeper 下载地址 http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz 解压 tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz 配置环境变量 export ZK_HOME=/home/h...

小米粒-biubiubiu
发表于2020-12-03 00:50:21
4740 0 0

4.7k 0 0

一、zookeeper 下载安装 cdh 版本的 zookeeper 下载地址 http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz 解压 tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz 配置环境变量 export ZK_HOME=/home/h...
Kafka 大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript