- 目录 1、创建Scala项目SparkScalaWordCount 2、创建lib目录,添加spark的jar,并添加作为项目的库 目录 1、创建Scala项目SparkScalaWordCount 2、创建lib目录,添加spark的jar,并添加作为项目的库
- 1、Maven项目JavaSparkWordCount 2、在pom.xml里,添加对spark的依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:x... 1、Maven项目JavaSparkWordCount 2、在pom.xml里,添加对spark的依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:x...
- 1、Python项目PythonSparkWordCount 2、input目录里的文本文件test.txt 3、创建word_count.py文件实现词频统计 import osimport shutil from pyspark import SparkContext inputpath = 'input'output... 1、Python项目PythonSparkWordCount 2、input目录里的文本文件test.txt 3、创建word_count.py文件实现词频统计 import osimport shutil from pyspark import SparkContext inputpath = 'input'output...
- 日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。 日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。 主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。 随着有赞业务的发展与增长,每天都会产生百亿级别的日志量(据统计,平均每秒产生 50 万条... 日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。 日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。 主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。 随着有赞业务的发展与增长,每天都会产生百亿级别的日志量(据统计,平均每秒产生 50 万条...
- 文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟... 文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟...
- 文章目录 一、Spark概述 (一)Spark来源 (二)Spark特点 (三)Spark与Hadoop差异 (四)搭建Spark单机模式... 文章目录 一、Spark概述 (一)Spark来源 (二)Spark特点 (三)Spark与Hadoop差异 (四)搭建Spark单机模式...
- 前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服务,需要及时识别新添加的领域词与停用词; 实时风控服务,需要根据业务情况调整触发警告的规则。  ... 前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服务,需要及时识别新添加的领域词与停用词; 实时风控服务,需要根据业务情况调整触发警告的规则。  ...
- 前言 Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的... 前言 Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的...
- 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1.... 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1....
- 批处理是把数据攒起来,一次性进行处理的方法。相对而言,流处理是不保存数据,按照到达处理服务器的顺序对数据依次进行处理。 想实时对数据做出反应时,流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理,所以从数据到达之后到处理完毕为止,会出现时间延迟。因此,流处理这种把到达的数据逐次进行处理的思路就变得很重要了。此外... 批处理是把数据攒起来,一次性进行处理的方法。相对而言,流处理是不保存数据,按照到达处理服务器的顺序对数据依次进行处理。 想实时对数据做出反应时,流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理,所以从数据到达之后到处理完毕为止,会出现时间延迟。因此,流处理这种把到达的数据逐次进行处理的思路就变得很重要了。此外...
- 目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE_RANK连续排序 NTILE分组排名[了解] ... 目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE_RANK连续排序 NTILE分组排名[了解] ...
- Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 第一、Driver Program 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行;运行JVM P... Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 第一、Driver Program 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行;运行JVM P...
- 目录 Spark 四大特点 速度快 易于使用 通用性强 运行方式 Spark 四大特点 Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 ... 目录 Spark 四大特点 速度快 易于使用 通用性强 运行方式 Spark 四大特点 Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 ...
- 目录 RDD、DF、DS相关操作 SparkSQL初体验 SparkSession 应用入口 获取DataFrame/DataSet 使用样例类 指定类型+列名 自定义Schema RDD、DF、DS相互转换 RDD、DF、DS相关操作 SparkSQL初体验 Spark... 目录 RDD、DF、DS相关操作 SparkSQL初体验 SparkSession 应用入口 获取DataFrame/DataSet 使用样例类 指定类型+列名 自定义Schema RDD、DF、DS相互转换 RDD、DF、DS相关操作 SparkSQL初体验 Spark...
- 1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 答:Spark具有如下4个主要特点: ①运行速度快;②容易使用;③通用性;④运行模式多样。  ... 1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 答:Spark具有如下4个主要特点: ①运行速度快;②容易使用;③通用性;④运行模式多样。  ...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签