- 开发者
- Spark
#Spark#
- 随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。 随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。
- external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。
- 本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。 本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。
- 本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。 本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。
- 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。
- Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-) Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-)
- 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.1节,作者是马海平、于俊、吕昕、向海。
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.1节,作者是马海平、于俊、吕昕、向海。
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。
- 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。
- 本文介绍了如何创建cce、安装spark,并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务 本文介绍了如何创建cce、安装spark,并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务
- 揭秘华为云DLI背后的核心计算引擎 本文主要给大家介绍隐藏在华为云EI(企业智能)数据湖探索服务(以下简称DLI)背后的核心计算引擎——Spark。华为云EI数据湖探索服务团队在Spark之上做了大量的性能优化与服务化改造,但其本质还是脱离不了Spark的核心概念与思想,本文从以下几点阐述,让读者快速对Spark有一个直观的认识,玩转DLI。更多资讯关注公众号“智能数据湖” Spark的诞生... 揭秘华为云DLI背后的核心计算引擎 本文主要给大家介绍隐藏在华为云EI(企业智能)数据湖探索服务(以下简称DLI)背后的核心计算引擎——Spark。华为云EI数据湖探索服务团队在Spark之上做了大量的性能优化与服务化改造,但其本质还是脱离不了Spark的核心概念与思想,本文从以下几点阐述,让读者快速对Spark有一个直观的认识,玩转DLI。更多资讯关注公众号“智能数据湖” Spark的诞生...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)往期直通车:Hello Spark!为什么需要 Yarn?Yarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop 的一个组件,官方对它的定义是一个... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)往期直通车:Hello Spark!为什么需要 Yarn?Yarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop 的一个组件,官方对它的定义是一个...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)如上图所示是 Spark 的执行过程,那么具体 Drvier 是如何把 Task 提交给 Executor 的呢?本文将通过 DAGScheduler 、TaskScheduler、调度池和 Executor 四部... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)如上图所示是 Spark 的执行过程,那么具体 Drvier 是如何把 Task 提交给 Executor 的呢?本文将通过 DAGScheduler 、TaskScheduler、调度池和 Executor 四部...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)什么是 RDD?传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resili... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)什么是 RDD?传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resili...
上滑加载中
推荐直播
-
鸿蒙应用入门:轻松掌握ArkTS开发语言
2024/12/05 周四 16:00-18:00
Edi 华为云学堂技术讲师
本期直播课旨在让开发者了解ArkTS语法、轻松掌握ArkUI组件开发,带你零门槛入门鸿蒙开发,掌握状态管理实验和渲染控制实验。
回顾中 -
人工智能应用测试深度解析:理论基础与实践应用指南
2024/12/06 周五 14:30-16:30
Alex 华为云学堂技术讲师
本期直播主要结合理论及人工智能的相关实验,给大家讲述AI应用测试的主要流程和方法。帮助开发者了解AI应用测试的理论及方法,和AI应用测试在模型迭代调优过程中的作用。
去报名 -
2024 华为云开源开发者论坛 — 主论坛
2024/12/07 周六 09:00-12:00
华为及外部讲师团
2024年12月7日,首届华为云开源开发者论坛将于上海静安香格里拉酒店举行。论坛主题为“开放创新,释放云上数字生产力”,面向生态合作伙伴、企业、个人和高校开发者。论坛将围绕当前热门的开源话题,如“开源生态前景剖析”、“开源技术解读”、“开源开发者支持与实践”等进行分享和讨论,旨在帮助开发者利用开源链接鲲鹏、昇腾根生态和华为云生态,实现高效创新和价值裂变。
即将直播
热门标签