- 一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大)二、负责存储数据的工具:HBaseMongoDBCassandraAccumuloMySqlOracleDB2HDFS(Hadoop Distribut File System)2.0三、底层组件Apache Common(通用模块)、A... 一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大)二、负责存储数据的工具:HBaseMongoDBCassandraAccumuloMySqlOracleDB2HDFS(Hadoop Distribut File System)2.0三、底层组件Apache Common(通用模块)、A...
- 论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来,社交媒体已经成为... 论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来,社交媒体已经成为...
- 什么是Hadoop?Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/va... 什么是Hadoop?Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/va...
- 学习hadoop,必不可少的就是编写 MapReduce 程序。当然,对于简单的分析程序,我们只需一个MapReduce任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。 学习hadoop,必不可少的就是编写 MapReduce 程序。当然,对于简单的分析程序,我们只需一个MapReduce任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。
- 创建RDD 创建RDD
- Apache Spark™ is a fast and general engine for large-scale data processing. Apache Spark™ is a fast and general engine for large-scale data processing.
- Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。
- Flume NG部署 Flume NG部署
- Sqoop Export 应用场景 Sqoop Export 应用场景
- Sqoop Import HDFS Sqoop Import HDFS
- 什么是Sqoop 什么是Sqoop
- Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对Hive的表操作进行深入讲解。 Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对Hive的表操作进行深入讲解。
- Hive在客户端上的安装部署 Hive在客户端上的安装部署
- 本次使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。 本次使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。
- ZooKeeper 提供了一系列 API编程接口,这些API接口非常简单,就像一个可提供强一致性保证的分布式小文件系统。 ZooKeeper 提供了一系列 API编程接口,这些API接口非常简单,就像一个可提供强一致性保证的分布式小文件系统。
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢
2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考
2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本
2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签