Hadoop_标签_开发者_华为云

博客(759)
视频(1)
论坛(0)
云声(0)
代码示例(0)

[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS
目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！

Maynor学长
发表于2022-02-25 17:03:09
2789 0 0

2.7k 0 0

目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！
API Hadoop http
macOS下 Hive 2.x 的安装与配置
1 简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是...

JavaEdge
发表于2022-01-21 21:35:21
4552 0 0

4.5k 0 0

1 简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是...
Hadoop Hive
【Hadoop】关于Sqoop导出数据到postgresql时schema的设置问题
说明使用sqoop导出导入数据非常的方便，但是对于postgresql(简称PG库)时就碰到了一个问题，pg库是三层结构的database——schema——table。如果想导入到某一个模式下，那就需要指定模式才可以。但是sqoop如何指定pg库的模式？解决办法碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址文档已经说了，如果向指定schema需...

Copy工程师
发表于2022-01-17 20:08:52
6563 0 0

6.5k 0 0

说明使用sqoop导出导入数据非常的方便，但是对于postgresql(简称PG库)时就碰到了一个问题，pg库是三层结构的database——schema——table。如果想导入到某一个模式下，那就需要指定模式才可以。但是sqoop如何指定pg库的模式？解决办法碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址文档已经说了，如果向指定schema需...
EI企业智能 Hadoop PostgreSQL 可信智能计算服务 TICS 智能数据
FusionInsight MRS Hudi原理解析之Clustering
什么是Hudi的Clustering即数据布局，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。Hudi的Clustering架构Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置...

一枚核桃
发表于2021-12-28 09:50:32
8752 0 0

8.7k 0 0

什么是Hudi的Clustering即数据布局，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。Hudi的Clustering架构Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置...
EI企业智能 FusionInsight Hadoop MapReduce
FusionInsight MRS Hudi原理解析之Metadata Table
Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS的数据集上提供了插入更新和增量拉取的流原语。

一枚核桃
发表于2021-12-28 09:43:30
7072 0 0

7.0k 0 0

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS的数据集上提供了插入更新和增量拉取的流原语。
EI企业智能 FusionInsight Hadoop MapReduce
Hadoop HDFS学习之HDFS客户端操作
一、HDFS客户端环境准备1．根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如：D:\Installed\hadoop-2.10.1）。2．配置HADOOP_HOME环境变量。1、添加HADOOP_HOME环境变量 HADOOP_HOME=D:\Installed\hadoop-2.10.12、PATH中添加 %HADOOP_HOME%\bin3、cmd中验...

孤星恋悦
发表于2021-12-16 16:53:23
4142 0 0

4.1k 0 0

一、HDFS客户端环境准备1．根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如：D:\Installed\hadoop-2.10.1）。2．配置HADOOP_HOME环境变量。1、添加HADOOP_HOME环境变量 HADOOP_HOME=D:\Installed\hadoop-2.10.12、PATH中添加 %HADOOP_HOME%\bin3、cmd中验...
Hadoop
Hadoop HDFS学习之HDFS的常用Shell操作
一、基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。二、命令大全cd /opt/module/hadoop-2.10.1/bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] ...

孤星恋悦
发表于2021-12-16 16:51:37
4316 0 0

4.3k 0 0

一、基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。二、命令大全cd /opt/module/hadoop-2.10.1/bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] ...
Hadoop Shell
Hadoop HDFS学习之HDFS概述
一、HDFS产生背景及定义 1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、HDFS定义HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过...

孤星恋悦
发表于2021-12-16 16:50:32
3884 0 0

3.8k 0 0

一、HDFS产生背景及定义 1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、HDFS定义HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过...
Hadoop
Hadoop单节点配置
系统版本：[root@db01 opt]# cat /etc/redhat-releaseCentOS Linux release 7.8.2003 (Core)软件版本：hadoop-3.3.0.tar.gz01，解压jdk软件包：[root@db01 opt]# ll /opt/jdk1.8.0_40/total 25960drwxr-xr-x 2 10 143 4096 Feb...

snowofsummer
发表于2021-12-14 11:00:47
3109 0 0

3.1k 0 0

系统版本：[root@db01 opt]# cat /etc/redhat-releaseCentOS Linux release 7.8.2003 (Core)软件版本：hadoop-3.3.0.tar.gz01，解压jdk软件包：[root@db01 opt]# ll /opt/jdk1.8.0_40/total 25960drwxr-xr-x 2 10 143 4096 Feb...
Hadoop
Hadoop 3.3.0 单机环境配置
配置环境变量首先修改当前用户的配置文件，添加 Hadoop 环境变量。修改 ~/.bashrcHadoop 解压后即可使用。通过在任意路径下，使用 hadoop version 查看 Hadoop 版本，来判断是否配置成功启动与停止启动 namenode、datanode、resourcemanagerhdfs --daemon start namenodehdfs --daemon...

福州司马懿
发表于2021-11-29 22:55:51
5470 0 0

5.4k 0 0

配置环境变量首先修改当前用户的配置文件，添加 Hadoop 环境变量。修改 ~/.bashrcHadoop 解压后即可使用。通过在任意路径下，使用 hadoop version 查看 Hadoop 版本，来判断是否配置成功启动与停止启动 namenode、datanode、resourcemanagerhdfs --daemon start namenodehdfs --daemon...
Hadoop 分布式
【对接工具】Smartbi工具对接HetuEngine
Smartbi工具对接HetuEngine1 适用版本MRS 811、MRS 812、Smartbi 9.5.64075.211752 预制条件MRS集群各组件运行正常。Smartbi工具包（Smartbi Insight V9.5.64075.21175.exe）已下载至本地，软件下载地址：https://www.smartbi.com.cn/download 下载连接...

李松
发表于2021-11-29 22:19:25
10055 0 0

10.0k 0 0

Smartbi工具对接HetuEngine1 适用版本MRS 811、MRS 812、Smartbi 9.5.64075.211752 预制条件MRS集群各组件运行正常。Smartbi工具包（Smartbi Insight V9.5.64075.21175.exe）已下载至本地，软件下载地址：https://www.smartbi.com.cn/download 下载连接...
EI企业智能 FusionInsight Hadoop
Ambari集群部署
Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具，Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。提供Web UI进行可视化的集群管理，简化了大数据平台的安装、使用难度。服务器资源目录ip地址节点组件192.168.186....

李子捌
发表于2021-11-24 20:07:23
6158 1 1

6.1k 1 1

Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具，Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。提供Web UI进行可视化的集群管理，简化了大数据平台的安装、使用难度。服务器资源目录ip地址节点组件192.168.186....
Hadoop Linux 大数据
萌新带你入门大数据之Hadoop源码编译
一、前期准备工作1、准备一台CentOS虚拟机，虚拟机需要能够联网，采用root角色编译2、准备以下安装包（hadoop源码、JDK8、maven、ant、protobuf），分别从各自的官网下载即可hadoop-2.10.1-src.tar.gzjdk-8u281-linux-x64.tar.gzapache-ant-1.10.9-bin.tar.gzapache-maven-3.6.3...

lwq1228
发表于2021-11-17 21:51:06
11287 0 0

11.2k 0 0

一、前期准备工作1、准备一台CentOS虚拟机，虚拟机需要能够联网，采用root角色编译2、准备以下安装包（hadoop源码、JDK8、maven、ant、protobuf），分别从各自的官网下载即可hadoop-2.10.1-src.tar.gzjdk-8u281-linux-x64.tar.gzapache-ant-1.10.9-bin.tar.gzapache-maven-3.6.3...
Hadoop 大数据
萌新带你入门大数据之Hadoop简介
一、什么是Hadoop 1、Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Hadoop通常是指一个更广泛的概念–Hadoop生态圈 2、Hadoop发展历史：（1）Lucene框架是Doug Cutting开创的开源软件，用Jav a书写代码，实现与Google类似的全文搜索功能...

lwq1228
发表于2021-11-17 21:42:57
10735 0 0

10.7k 0 0

一、什么是Hadoop 1、Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Hadoop通常是指一个更广泛的概念–Hadoop生态圈 2、Hadoop发展历史：（1）Lucene框架是Doug Cutting开创的开源软件，用Jav a书写代码，实现与Google类似的全文搜索功能...
Hadoop 大数据
FusionInsight MRS HDFS组件数据存储策略配置指导
操作场景默认情况下，HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中，可能存在以下场景：DataNode上可能存在不同的存储设备，数据需要选择一个合适的存储设备分级存储数据。DataNode不同目录中的数据重要程度不同，数据需要根据目录标签选择一个合适的DataNode节点保存。DataNode集群使用了异构服务器，关键数据需要保存在具有高度可靠性的机架组中。对...

一枚核桃
发表于2021-10-29 11:04:35
9027 0 0

9.0k 0 0

操作场景默认情况下，HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中，可能存在以下场景：DataNode上可能存在不同的存储设备，数据需要选择一个合适的存储设备分级存储数据。DataNode不同目录中的数据重要程度不同，数据需要根据目录标签选择一个合适的DataNode节点保存。DataNode集群使用了异构服务器，关键数据需要保存在具有高度可靠性的机架组中。对...
EI企业智能 FusionInsight Hadoop MapReduce

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript