- 开篇语哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云/阿里云/华为云/51CTO;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一个人虽可以走的更快,但一群人可以走的更远。 我是一名后端开发爱好者,工作日常接触到最多的就是Java语言啦,所以我都尽量抽业余时间把自己所学到所会的,通过文章的形式进行输出,... 开篇语哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云/阿里云/华为云/51CTO;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一个人虽可以走的更快,但一群人可以走的更远。 我是一名后端开发爱好者,工作日常接触到最多的就是Java语言啦,所以我都尽量抽业余时间把自己所学到所会的,通过文章的形式进行输出,...
- 性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率,结合文件内/间排序优化I/O与压缩,辅以Z-Order实现多维数据聚集。同时,合理配置元数据缓存与清单合并,加速查询规划。适用于点查、全表扫描及高并发写入场景,显著提升系统性能与资源利用率。 性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率,结合文件内/间排序优化I/O与压缩,辅以Z-Order实现多维数据聚集。同时,合理配置元数据缓存与清单合并,加速查询规划。适用于点查、全表扫描及高并发写入场景,显著提升系统性能与资源利用率。
- 近日,JSONBench 官网引入了 Apache Doris 的测试成绩,未经调优的测试结果显示,Apache Doris 性能表现位列第三名,仅次于榜单维护方 ClickHouse 的两个版本。 近日,JSONBench 官网引入了 Apache Doris 的测试成绩,未经调优的测试结果显示,Apache Doris 性能表现位列第三名,仅次于榜单维护方 ClickHouse 的两个版本。
- Apache Iceberg 是新一代数据湖表格式,旨在解决传统数据湖(如 Hive)在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎,提供 ACID 事务、模式演化、分区演化等核心特性,具备良好的云存储兼容性和高性能查询能力,适用于大规模结构化数据分析场景。 Apache Iceberg 是新一代数据湖表格式,旨在解决传统数据湖(如 Hive)在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎,提供 ACID 事务、模式演化、分区演化等核心特性,具备良好的云存储兼容性和高性能查询能力,适用于大规模结构化数据分析场景。
- 一、Apache Doris:面向 Agent 时代的智能数据平台当我们谈论 2025 年时,业界普遍认为这将是"Agent 革命年"(Agentic Revolution)的开端。与传统的人机交互模式不同,AI Agent 作为一个全新的"用户角色"正在重塑整个数据分析领域的使用模式。这些智能代理不再是被动等待指令的工具,而是具备自主决策能力、能够理解上下文、执行复杂任务的智能实体。它们... 一、Apache Doris:面向 Agent 时代的智能数据平台当我们谈论 2025 年时,业界普遍认为这将是"Agent 革命年"(Agentic Revolution)的开端。与传统的人机交互模式不同,AI Agent 作为一个全新的"用户角色"正在重塑整个数据分析领域的使用模式。这些智能代理不再是被动等待指令的工具,而是具备自主决策能力、能够理解上下文、执行复杂任务的智能实体。它们...
- 亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。 亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。
- 本文以Java编程为例,讲解了在Java中求解两个字符串的几种方法。通过求解编辑距离、Q-gram Matching、还有余弦相似性计算,通过对比不同的方法,调用Apache 的Common-text中基于余弦的字符相似性得到了比较比错的结果。最后讲解了一个实际的案例,将之前我们采集的漂亮数据库数据和百科的数据进行对齐。 本文以Java编程为例,讲解了在Java中求解两个字符串的几种方法。通过求解编辑距离、Q-gram Matching、还有余弦相似性计算,通过对比不同的方法,调用Apache 的Common-text中基于余弦的字符相似性得到了比较比错的结果。最后讲解了一个实际的案例,将之前我们采集的漂亮数据库数据和百科的数据进行对齐。
- Apache Spark 是一个开源、分布式计算引擎,专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性,大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX,支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型,支持多语言(Scala/Ja Apache Spark 是一个开源、分布式计算引擎,专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性,大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX,支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型,支持多语言(Scala/Ja
- 边缘设备硬件资源差异显著,运行深度学习模型时算子优化面临诸多挑战。传统手动优化耗时费力且易出错,难以适应日益复杂的模型需求。Apache TVM作为开源深度学习编译器栈,通过中间表示(IR)层实现框架与硬件的高效对接,并提供稳定优化平台。 边缘设备硬件资源差异显著,运行深度学习模型时算子优化面临诸多挑战。传统手动优化耗时费力且易出错,难以适应日益复杂的模型需求。Apache TVM作为开源深度学习编译器栈,通过中间表示(IR)层实现框架与硬件的高效对接,并提供稳定优化平台。
- Apache Solr 是一种强大而灵活的开源搜索平台,它基于 Apache Lucene 构建,专门用于处理复杂的全文搜索和信息检索任务。它在许多行业和应用场景中得到了广泛应用,尤其适合需要高效处理大规模数据查询和搜索的系统。Solr 作为一款搜索引擎,提供了高度可扩展、基于 REST API 的功能,并具备分布式搜索、实时索引以及复杂的查询能力,这些特性使得它在现代互联网系统中尤为重要。... Apache Solr 是一种强大而灵活的开源搜索平台,它基于 Apache Lucene 构建,专门用于处理复杂的全文搜索和信息检索任务。它在许多行业和应用场景中得到了广泛应用,尤其适合需要高效处理大规模数据查询和搜索的系统。Solr 作为一款搜索引擎,提供了高度可扩展、基于 REST API 的功能,并具备分布式搜索、实时索引以及复杂的查询能力,这些特性使得它在现代互联网系统中尤为重要。...
- Apache Shiro 简介Apache Shiro 是一个强大且易于使用的 Java 安全框架,旨在简化应用程序的身份验证、授权、加密和会话管理。它提供了全面的安全功能,同时保持了简洁性和灵活性,适用于各种规模的应用程序,从小型独立应用到大型企业级系统。 Shiro 的核心功能Shiro 的核心功能可以归纳为四个主要方面:认证(Authentication)、授权(Authorizat... Apache Shiro 简介Apache Shiro 是一个强大且易于使用的 Java 安全框架,旨在简化应用程序的身份验证、授权、加密和会话管理。它提供了全面的安全功能,同时保持了简洁性和灵活性,适用于各种规模的应用程序,从小型独立应用到大型企业级系统。 Shiro 的核心功能Shiro 的核心功能可以归纳为四个主要方面:认证(Authentication)、授权(Authorizat...
- Apache-2.0 许可证,是 Apache 软件基金会(ASF)发布的一种开源许可证。它为用户和开发者提供了广泛的权利,使他们可以自由地使用、修改和分发软件。但与此同时,Apache-2.0 也对如何合理地运用和共享这些代码提出了一些要求。我们可以逐步剖析这个许可证的内容,从理解其法律语言的本质,到如何应用在实际的软件开发过程中,以保证项目的合规性和高效性。Apache-2.0 的基础特... Apache-2.0 许可证,是 Apache 软件基金会(ASF)发布的一种开源许可证。它为用户和开发者提供了广泛的权利,使他们可以自由地使用、修改和分发软件。但与此同时,Apache-2.0 也对如何合理地运用和共享这些代码提出了一些要求。我们可以逐步剖析这个许可证的内容,从理解其法律语言的本质,到如何应用在实际的软件开发过程中,以保证项目的合规性和高效性。Apache-2.0 的基础特...
- Apache Flink是一款开源流处理框架,由Apache软件基金会进行维护和开发,专为实时数据处理、批处理以及流批一体的大规模数据处理场景而设计。Flink的核心理念是提供了一种统一的数据处理模型,使得无论是实时流处理还是批量处理,都可以在同一个系统中以一致的方式高效执行。Flink的设计基于数据流编程模型,其核心特性包括事件时间处理(Event Time Processing)、精确一... Apache Flink是一款开源流处理框架,由Apache软件基金会进行维护和开发,专为实时数据处理、批处理以及流批一体的大规模数据处理场景而设计。Flink的核心理念是提供了一种统一的数据处理模型,使得无论是实时流处理还是批量处理,都可以在同一个系统中以一致的方式高效执行。Flink的设计基于数据流编程模型,其核心特性包括事件时间处理(Event Time Processing)、精确一...
- Kafka 是个分布式的、持分区的(partition)、多副本的 (replica),基于 zookeeper 协调的分布式消息系统,它最大的特性就是可以实时处理大量数据以满足各类需求场景:日志收集:使用 Kafka 收集各种服务的日志,并通过 kafka 以统一接口服务的方式开放给各种 consumer,例如 hadoop、Hbase、Solr 等消息系统:解耦和生产者和消费者、缓存消息... Kafka 是个分布式的、持分区的(partition)、多副本的 (replica),基于 zookeeper 协调的分布式消息系统,它最大的特性就是可以实时处理大量数据以满足各类需求场景:日志收集:使用 Kafka 收集各种服务的日志,并通过 kafka 以统一接口服务的方式开放给各种 consumer,例如 hadoop、Hbase、Solr 等消息系统:解耦和生产者和消费者、缓存消息...
- 消息队列中间件就是用来存储消息的软件(组件)。举个例子来理解,为了分析网站的用户行为,我们需要记录用户的访问日志。这些一条条的日志,可以看成是一条条的消息,我们可以将它们保存到消息队列中。Kafka作为分布式流处理的代表,通过分区、副本、零拷贝等技术实现了高吞吐量与可靠性,尤其适合大规模数据处理和实时分析场景。其技术生态(如Kafka Streams、KSQL)进一步扩展了应用范围,但在复杂路由和 消息队列中间件就是用来存储消息的软件(组件)。举个例子来理解,为了分析网站的用户行为,我们需要记录用户的访问日志。这些一条条的日志,可以看成是一条条的消息,我们可以将它们保存到消息队列中。Kafka作为分布式流处理的代表,通过分区、副本、零拷贝等技术实现了高吞吐量与可靠性,尤其适合大规模数据处理和实时分析场景。其技术生态(如Kafka Streams、KSQL)进一步扩展了应用范围,但在复杂路由和
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签