- 1、SparkContext [经常简称为 sc] spark app 的起点和入口,一般用来加载数据集,生成第一个 rdd。1 2、定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,... 1、SparkContext [经常简称为 sc] spark app 的起点和入口,一般用来加载数据集,生成第一个 rdd。1 2、定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,...
- 一、首先准备需要安装的软件 scala-2.10.4 下载地址:http://www.scala-lang.org/download/2.10.4.html scala-SDK-4.4.1-vfin... 一、首先准备需要安装的软件 scala-2.10.4 下载地址:http://www.scala-lang.org/download/2.10.4.html scala-SDK-4.4.1-vfin...
- 一、Spark与Hive的差异 (1)、in 不支持子查询(2.0支持https://issues.apache.org/jira/browse/SPARK-4226) eg: select * fr... 一、Spark与Hive的差异 (1)、in 不支持子查询(2.0支持https://issues.apache.org/jira/browse/SPARK-4226) eg: select * fr...
- 作者: vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 Spark SQL 相对于 Hiv... 作者: vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 Spark SQL 相对于 Hiv...
- 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算... 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算...
- 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =... 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =...
- 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质... 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质...
- 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读... 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读...
- 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de... 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de...
- 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I... 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I...
- 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ... 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ...
- 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I... 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I...
- 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、... 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、...
- 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap... 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap...
- 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签