- 随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。 随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。
- external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。
- 本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。 本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。
- 本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。 本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。
- 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。
- Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-) Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-)
- 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.1节,作者是马海平、于俊、吕昕、向海。
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.1节,作者是马海平、于俊、吕昕、向海。
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。
- 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。
- 本文介绍了如何创建cce、安装spark,并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务 本文介绍了如何创建cce、安装spark,并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务
- 揭秘华为云DLI背后的核心计算引擎 本文主要给大家介绍隐藏在华为云EI(企业智能)数据湖探索服务(以下简称DLI)背后的核心计算引擎——Spark。华为云EI数据湖探索服务团队在Spark之上做了大量的性能优化与服务化改造,但其本质还是脱离不了Spark的核心概念与思想,本文从以下几点阐述,让读者快速对Spark有一个直观的认识,玩转DLI。更多资讯关注公众号“智能数据湖” Spark的诞生... 揭秘华为云DLI背后的核心计算引擎 本文主要给大家介绍隐藏在华为云EI(企业智能)数据湖探索服务(以下简称DLI)背后的核心计算引擎——Spark。华为云EI数据湖探索服务团队在Spark之上做了大量的性能优化与服务化改造,但其本质还是脱离不了Spark的核心概念与思想,本文从以下几点阐述,让读者快速对Spark有一个直观的认识,玩转DLI。更多资讯关注公众号“智能数据湖” Spark的诞生...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)往期直通车:Hello Spark!为什么需要 Yarn?Yarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop 的一个组件,官方对它的定义是一个... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)往期直通车:Hello Spark!为什么需要 Yarn?Yarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop 的一个组件,官方对它的定义是一个...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)如上图所示是 Spark 的执行过程,那么具体 Drvier 是如何把 Task 提交给 Executor 的呢?本文将通过 DAGScheduler 、TaskScheduler、调度池和 Executor 四部... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)如上图所示是 Spark 的执行过程,那么具体 Drvier 是如何把 Task 提交给 Executor 的呢?本文将通过 DAGScheduler 、TaskScheduler、调度池和 Executor 四部...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)什么是 RDD?传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resili... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)什么是 RDD?传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resili...
上滑加载中
推荐直播
-
“智见未来”数字文旅创新大赛 线上培训
2025/04/16 周三 19:30-21:00
洪洁/行业算力发展部
4月16日19:30-21:00,大赛组委会将于线上举办培训,汇聚行业专家与技术大牛,从文旅产业的前沿趋势到AI技术的深度应用,全方位为你赋能
回顾中 -
WS63E星闪开发板快速入门指南:开启星闪技术之旅
2025/05/15 周四 19:00-20:30
杨阳 华为开发者布道师
本期直播,深度解析星闪技术核心优势与开发实战技巧,分享从环境搭建到“海思智棒”优秀星闪体验官案例开发的完整路径,覆盖技术原理、场景化案例、备赛避坑指南,助力开发者快速攻克物联网项目开发难题。
回顾中 -
星闪应用开发技术课程(群)建设思路与设想
2025/05/22 周四 19:00-21:00
葛非 华为开发者布道师
华中师范大学计算机学院副教授-葛非老师将深入讲解星闪核心技术及其支撑技术,并讨论如何将这些技术融入到通信工程、计算机科学与技术、软件工程等专业的课程内容中,旨在推动高等教育领域星闪鸿蒙生态的有序发展。
即将直播
热门标签