大数据_标签_开发者_华为云

博客(3.2k)
视频(24)
论坛(0)
云声(0)
代码示例(0)

华为云DataArts Studio帮助文档场景为先，重塑文档体验！
华为云DataArts Studio帮助文档场景为先，从大纲和内容两方面优化，重塑文档体验！

阅识风云
发表于2024-09-25 16:15:51
3503 0 0

3.5k 0 0

华为云DataArts Studio帮助文档场景为先，从大纲和内容两方面优化，重塑文档体验！
大数据数据治理中心 DataArts Studio
数据中台过时了？是否需要升级到数据飞轮？
今天我们来讨论一下，有了数据中台之后是否还需要升级到数据飞轮，如果需要的话，那要怎么做才能升级到数据飞轮？先不说别的，最起码我觉得是否要升级到数据飞轮主要还是取决于企业本身，数据中台已经可以为企业整合和管理数据，并提供基础的数据服务了，对于小企业来说这些就已经足够了。然而数据飞轮还可以带来更强大的驱动力和价值创造，更适合大企业，有足够的资本。那对于这些大企业，他们想升级到数据飞轮，肯定不是说

Xxy_1008
发表于2024-09-16 10:23:24
1467 0 0

1.4k 0 0

今天我们来讨论一下，有了数据中台之后是否还需要升级到数据飞轮，如果需要的话，那要怎么做才能升级到数据飞轮？先不说别的，最起码我觉得是否要升级到数据飞轮主要还是取决于企业本身，数据中台已经可以为企业整合和管理数据，并提供基础的数据服务了，对于小企业来说这些就已经足够了。然而数据飞轮还可以带来更强大的驱动力和价值创造，更适合大企业，有足够的资本。那对于这些大企业，他们想升级到数据飞轮，肯定不是说
大数据
华为云MapReduce服务MRS 帮助文档焕新发布，开启知识探索新篇章！
华为云MapReduce服务MRS帮助文档焕新发布，全新文档结构及内容优化，开启知识探索新篇章！

阅识风云
发表于2024-09-12 11:31:34
5973 0 1

5.9k 0 1

华为云MapReduce服务MRS帮助文档焕新发布，全新文档结构及内容优化，开启知识探索新篇章！
Hadoop MapReduce服务 MRS 大数据
Apache Doris Flink Connector 24.0.0 版本正式发布
亲爱的社区伙伴们，Apache Doris Flink Connector 24.0.0 版本已于 2024 年 9 月 5 日正式发布。该版本新增了对 Flink 1.20 的支持，并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。此外，整库同步所依赖的 FlinkCDC，也需升级至 3.1.x 版本，以便更好的应用。下载地址：https://github.com...

SelectDB技术团队
发表于2024-09-11 18:19:11
3421 0 0

3.4k 0 0

亲爱的社区伙伴们，Apache Doris Flink Connector 24.0.0 版本已于 2024 年 9 月 5 日正式发布。该版本新增了对 Flink 1.20 的支持，并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。此外，整库同步所依赖的 FlinkCDC，也需升级至 3.1.x 版本，以便更好的应用。下载地址：https://github.com...
Flink 大数据数据仓库数据分析
兼容Trino Connector，扩展Apache Doris数据源接入能力｜Lakehouse 使用手册（四）
Apache Doris 内置支持包括 Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC 在内的多种 Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着 Apache Doris 用户的增加，新的数据源连接需求也随之增加。因此，从 3.0 版本开始，Apache Doris 引入了 Trino Connector 兼容框架。Tr...

SelectDB技术团队
发表于2024-09-06 14:25:36
3140 0 0

3.1k 0 0

Apache Doris 内置支持包括 Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC 在内的多种 Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着 Apache Doris 用户的增加，新的数据源连接需求也随之增加。因此，从 3.0 版本开始，Apache Doris 引入了 Trino Connector 兼容框架。Tr...
大数据数据仓库数据分析数据湖湖仓构建 LakeFormation
招联金融基于 Apache Doris 数仓升级：单集群 QPS 超 10w，存储成本降低 70%
在竞争激烈的消费金融市场中，有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的 Lambda 架构提供业务报表、数据运营、个性推荐、风险控制等数据服务，而 Lambda 过多的技术栈也引发了数据孤岛、查询效率不足、代码复用性差以及开发运维成本高昂等诸多问题。因此，招联引入 Apache Doris 对架构进行了升级，不仅替换了冗余的技术栈，还实现了实时数仓存储和计算引擎的...

SelectDB技术团队
发表于2024-08-29 19:12:21
3211 0 0

3.2k 0 0

在竞争激烈的消费金融市场中，有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的 Lambda 架构提供业务报表、数据运营、个性推荐、风险控制等数据服务，而 Lambda 过多的技术栈也引发了数据孤岛、查询效率不足、代码复用性差以及开发运维成本高昂等诸多问题。因此，招联引入 Apache Doris 对架构进行了升级，不仅替换了冗余的技术栈，还实现了实时数仓存储和计算引擎的...
大数据数据仓库数据分析数据库金融专区
大数据解决方案-LakeHouse数据湖方案类FAQ（进阶问题）
Hudi与Iceberg选型优势答：国内用hudi要远超lceberg,所以国内在各大论坛,技术成熟度上hudi更好,从数据更新能力这个角度来看,Hudi通过文件组、索引、主键可以降低数据文件冗余,而Iceberg每次数据跟新都会有commit,如果频繁写入更新,小文件问题严重更多参考：· Hudi 凭借文件组+索引+主键的设计模式，能够有效减少数据文件的冗余更新，提高数据更新效率。· Ic...

服务伙伴知识管理社区
发表于2024-07-29 15:19:39
4025 0 0

4.0k 0 0

Hudi与Iceberg选型优势答：国内用hudi要远超lceberg,所以国内在各大论坛,技术成熟度上hudi更好,从数据更新能力这个角度来看,Hudi通过文件组、索引、主键可以降低数据文件冗余,而Iceberg每次数据跟新都会有commit,如果频繁写入更新,小文件问题严重更多参考：· Hudi 凭借文件组+索引+主键的设计模式，能够有效减少数据文件的冗余更新，提高数据更新效率。· Ic...
大数据
大数据组件Spark在鲲鹏920服务器的部署
在鲲鹏920服务器上部署Spark-3.5.1的两种方法和详细过程。

wyj17999824
发表于2024-07-25 10:06:46
4403 0 0

4.4k 0 0

在鲲鹏920服务器上部署Spark-3.5.1的两种方法和详细过程。
ARM spark 大数据
Apache Doris + Apache Hudi 快速搭建指南｜Lakehouse 使用手册（一）
作者：SelectDB 技术团队导读：湖仓一体（Data Lakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，Apache Doris 持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的...

SelectDB技术团队
发表于2024-07-11 14:45:28
3712 0 0

3.7k 0 0

作者：SelectDB 技术团队导读：湖仓一体（Data Lakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，Apache Doris 持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的...
大数据数据分析数据库数据湖湖仓构建 LakeFormation
从 ClickHouse 到 Apache Doris：快成物流的数智化货运应用实践
导读：随着快成物流的大宗商品产业链的不断发展，货运轨迹规划和实时数据分析的需求日益迫切，为了保障数据报表更新、用户画像圈选与物流轨迹实时更新等大数据核心系统性能，快成物流引入 Apache Doris 实时数仓升级了大数据算法平台，目前已经部署在 2 套生产集群，存储数据总量达百亿规模，覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。作者共创：快成物流大数据算法平台技术负...

SelectDB技术团队
发表于2024-07-03 19:21:10
3591 0 0

3.5k 0 0

导读：随着快成物流的大宗商品产业链的不断发展，货运轨迹规划和实时数据分析的需求日益迫切，为了保障数据报表更新、用户画像圈选与物流轨迹实时更新等大数据核心系统性能，快成物流引入 Apache Doris 实时数仓升级了大数据算法平台，目前已经部署在 2 套生产集群，存储数据总量达百亿规模，覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。作者共创：快成物流大数据算法平台技术负...
ClickHouse 大数据数据仓库数据库智慧物流
网易游戏如何基于 Apache Doris 构建全新湖仓一体架构
导读：随着网易游戏品类及产品的快速发展，游戏数据分析场景面临着越来越多的挑战，为了保证系统性能和 SLA，要求引入新的组件来解决特定业务场景问题。为此，网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张，目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次，整体查询性能得到 10-20 倍提升。内容共建：胡彪，网易游戏高级大数据开发...

SelectDB技术团队
发表于2024-06-28 16:54:31
3151 0 0

3.1k 0 0

导读：随着网易游戏品类及产品的快速发展，游戏数据分析场景面临着越来越多的挑战，为了保证系统性能和 SLA，要求引入新的组件来解决特定业务场景问题。为此，网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张，目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次，整体查询性能得到 10-20 倍提升。内容共建：胡彪，网易游戏高级大数据开发...
大数据数据分析数据可视化数据库数据湖
大数据技术HBase之指令操作实战
本节我们将向您展示如何使用 hbase shell CLI 在 HBase 中创建表、在表中插入行、对表执行放置和扫描操作、启用或禁用表以及启动和停止 HBase。主要讲述了HBase的CRUD等基本DDL和DML操作。注意：HBase Shell 中的删除键没用，要用【Ctrl+Backspace】，每个命令之后不需要分号(;)结束。客户端进出命令# 进入客户端： ...

人工智能-张晨光
发表于2024-06-24 09:00:29
2668 0 0

2.6k 0 0

本节我们将向您展示如何使用 hbase shell CLI 在 HBase 中创建表、在表中插入行、对表执行放置和扫描操作、启用或禁用表以及启动和停止 HBase。主要讲述了HBase的CRUD等基本DDL和DML操作。注意：HBase Shell 中的删除键没用，要用【Ctrl+Backspace】，每个命令之后不需要分号(;)结束。客户端进出命令# 进入客户端： ...
HBase 大数据
大数据解决方案-存算分离方案类FAQ（进阶问题）
存算分离方案为什么要用OBS的并行文件桶？相比普通对象桶有什么好处？答：并行文件桶是OBS专门为大数据场景所推出的针对性方案，它的好处是提供了标准Posix文件语义，并且能够实现hdfs rename等语义的原子操作，确保大数据的计算性能。使用obs存算分离方案为什么能做到避免namenode压力的问题？答：1.首先，因为使用OBS方案之后，数据存储在OBS，元数据也保存在OBS，hdfs...

服务伙伴知识管理社区
发表于2024-06-20 11:24:24
7789 0 0

7.7k 0 0

存算分离方案为什么要用OBS的并行文件桶？相比普通对象桶有什么好处？答：并行文件桶是OBS专门为大数据场景所推出的针对性方案，它的好处是提供了标准Posix文件语义，并且能够实现hdfs rename等语义的原子操作，确保大数据的计算性能。使用obs存算分离方案为什么能做到避免namenode压力的问题？答：1.首先，因为使用OBS方案之后，数据存储在OBS，元数据也保存在OBS，hdfs...
Hadoop 大数据对象存储服务 OBS
大数据技术之RDD的概述
一、RDD的基本概念接下来我们来学习RDD的一些核心概念：RDD是Spark中最重要的概念之一，全称叫弹性分布式数据集，我们可以简单的把它理解为提供了很多操作接口的数据集合。但是它跟我们一般使用的数据集不同的点在哪里呢？比如平时我们用Python或java开发程序时，操作的数据集合都是存放在我们单台的计算机上的，但是RDD实际上是把数据以分布式的方式存储在一批机器的内存或磁盘当中，这个概念跟...

人工智能-张晨光
发表于2024-06-10 18:06:27
3767 0 0

3.7k 0 0

一、RDD的基本概念接下来我们来学习RDD的一些核心概念：RDD是Spark中最重要的概念之一，全称叫弹性分布式数据集，我们可以简单的把它理解为提供了很多操作接口的数据集合。但是它跟我们一般使用的数据集不同的点在哪里呢？比如平时我们用Python或java开发程序时，操作的数据集合都是存放在我们单台的计算机上的，但是RDD实际上是把数据以分布式的方式存储在一批机器的内存或磁盘当中，这个概念跟...
spark 大数据
大数据技术实战之Spark开发环境配置-scala项目
一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程（在已有的scala工程中配置也可以）：3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ，选择“Libraries”。(2) 单击“+”按钮，选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹，...

人工智能-张晨光
发表于2024-06-10 17:33:31
3017 0 0

3.0k 0 0

一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程（在已有的scala工程中配置也可以）：3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ，选择“Libraries”。(2) 单击“+”按钮，选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹，...
Scala spark 大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript