- 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算... 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算...
- 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =... 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =...
- 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质... 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质...
- 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读... 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读...
- 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de... 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de...
- 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I... 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I...
- 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ... 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ...
- 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I... 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I...
- 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、... 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、...
- 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap... 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap...
- 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了
- 文章目录 一、提出任务 二、完成任务 (一)准备数据文件 (二)导入线性回归相关类 (三)读取数据文件得到RDD (四)拆分每行生成新... 文章目录 一、提出任务 二、完成任务 (一)准备数据文件 (二)导入线性回归相关类 (三)读取数据文件得到RDD (四)拆分每行生成新...
- 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建计算平均分单例对象(五)本地运行程序,查看结果 三、课后练习任务1、计算平... 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建计算平均分单例对象(五)本地运行程序,查看结果 三、课后练习任务1、计算平...
- 文章目录 一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得... 文章目录 一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得...
- 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建分组排行榜单例对象(五)本地运行程序,查看结果(六)交互式操作查看中间结果1、... 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建分组排行榜单例对象(五)本地运行程序,查看结果(六)交互式操作查看中间结果1、...
上滑加载中
推荐直播
-
香橙派AIpro的远程推理框架与实验案例
2025/07/04 周五 19:00-20:00
郝家胜 -华为开发者布道师-高校教师
AiR推理框架创新采用将模型推理与模型应用相分离的机制,把香橙派封装为AI推理黑盒服务,构建了分布式远程推理框架,并提供多种输入模态、多种输出方式以及多线程支持的高度复用框架,解决了开发板环境配置复杂上手困难、缺乏可视化体验和资源稀缺课程受限等痛点问题,真正做到开箱即用,并支持多种笔记本电脑环境、多种不同编程语言,10行代码即可体验图像分割迁移案例。
回顾中 -
鸿蒙端云一体化应用开发
2025/07/10 周四 19:00-20:00
倪红军 华为开发者布道师-高校教师
基于鸿蒙平台终端设备的应用场景越来越多、使用范围越来越广。本课程以云数据库服务为例,介绍云侧项目应用的创建、新建对象类型、新增存储区及向对象类型中添加数据对象的方法,端侧(HarmonyOS平台)一体化工程项目的创建、云数据资源的关联方法及对云侧数据的增删改查等操作方法,为开发端云一体化应用打下坚实基础。
即将直播
热门标签