Hadoop_标签_开发者_华为云

博客(763)
视频(1)
论坛(0)
云声(0)
代码示例(0)

hadoop学习--多表关联
本例从多个表中提取出所需要的信息。输入是2个文件，一个表示工厂表，包含工厂名和地址编号；另一个表示地址表，包含地址名和地址编号。根据2个表的信息输出工厂名-地址名表。 factory.txt: factoryname addressed Beijing Red Star 1 ...

格图洛书
发表于2021-12-31 23:04:08
2427 0 0

2.4k 0 0

本例从多个表中提取出所需要的信息。输入是2个文件，一个表示工厂表，包含工厂名和地址编号；另一个表示地址表，包含地址名和地址编号。根据2个表的信息输出工厂名-地址名表。 factory.txt: factoryname addressed Beijing Red Star 1 ...
Hadoop
Hadoop ssh配置设置
一.   配置机器名  配置/etc/hosts和/etc/sysconfig/network 注意：NameNode的hosts文件必须有其slaves指定的所有节点的机器名二. ssh设置（hadoop中需要在namenode 和 datanode 中直接连接集群内的机器，需要配置ssh） NameN...

格图洛书
发表于2021-12-31 22:53:02
3138 0 0

3.1k 0 0

一.   配置机器名  配置/etc/hosts和/etc/sysconfig/network 注意：NameNode的hosts文件必须有其slaves指定的所有节点的机器名二. ssh设置（hadoop中需要在namenode 和 datanode 中直接连接集群内的机器，需要配置ssh） NameN...
Hadoop ssh
hadoop学习-mahout-Bayes分类算法示例程序
首先在运行贝叶斯算法程序之前，运行环境要求： 1、安装maven(书中没提到的) 2、安装mahout 3、安装hadoop 关于2，3的安装方式可以参考书本里或者网上的方法。下面说说安装maven过程，网上很多是直接下载 tar包，然后解压出来。 http://apache.etoak.com//maven/bi...

格图洛书
发表于2021-12-31 22:49:22
2378 0 0

2.3k 0 0

首先在运行贝叶斯算法程序之前，运行环境要求： 1、安装maven(书中没提到的) 2、安装mahout 3、安装hadoop 关于2，3的安装方式可以参考书本里或者网上的方法。下面说说安装maven过程，网上很多是直接下载 tar包，然后解压出来。 http://apache.etoak.com//maven/bi...
Hadoop
hadoop学习--K-Means(聚类算法)
本例子介绍使用hadoop做聚类分析。通过mapreduce实现KMeans算法。 1、KMeans算法介绍： k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心...

格图洛书
发表于2021-12-31 22:49:16
2945 0 0

2.9k 0 0

本例子介绍使用hadoop做聚类分析。通过mapreduce实现KMeans算法。 1、KMeans算法介绍： k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心...
Hadoop
Hadoop学习--HBase与MapReduce的使用
HBase以表的形式存储数据，每个表由行和列组成，每个列属于一个特定的列族（Column Family）。表中由行列确定的存储单元称为一个元素（Cell），每个元素保存了同一份数据的多个版本，由时间戳来标识。下面就从安装开始........... 1、下载与安装选择一个 Apache 下载镜像，下载&nb...

格图洛书
发表于2021-12-31 22:31:40
3000 0 0

3.0k 0 0

HBase以表的形式存储数据，每个表由行和列组成，每个列属于一个特定的列族（Column Family）。表中由行列确定的存储单元称为一个元素（Cell），每个元素保存了同一份数据的多个版本，由时间戳来标识。下面就从安装开始........... 1、下载与安装选择一个 Apache 下载镜像，下载&nb...
Hadoop HBase MapReduce
实例讲解hadoop中的map/reduce查询(python语言实现)
条件，假设你已经装好了hadoop集群，配好了hdfs并可以正常运行。 $hadoop dfs -ls /data/dw/explorer Found 1 items drwxrwxrwx     - rsync ...

格图洛书
发表于2021-12-31 22:24:20
2443 0 0

2.4k 0 0

条件，假设你已经装好了hadoop集群，配好了hdfs并可以正常运行。 $hadoop dfs -ls /data/dw/explorer Found 1 items drwxrwxrwx     - rsync ...
Hadoop Python
Hadoop 在关机重启后，namenode启动报错
Hadoop 在关机重启后，namenode启动报错： 2011-10-21 05:22:20,504 INFO org.apache.hadoop.hdfs.server.common.Storage: Storage directory /tmp/hadoop-fzuir/dfs/name does not exist. &nb...

格图洛书
发表于2021-12-31 22:24:15
2428 0 0

2.4k 0 0

Hadoop 在关机重启后，namenode启动报错： 2011-10-21 05:22:20,504 INFO org.apache.hadoop.hdfs.server.common.Storage: Storage directory /tmp/hadoop-fzuir/dfs/name does not exist. &nb...
Hadoop
hadoop学习-Netflix电影推荐系统
1、推荐系统概述电子商务网站是推荐系统应用的重要领域之一，当当网的图书推荐，大众点评的美食推荐，QQ好友推荐等等，推荐无处不在。从企业角度，推荐系统的应用可以增加销售额等等，对于用户而言，系统仿佛知道我们的喜好并给出推荐也是非常美妙的事情。推荐算法分类：按数据使用划分：协同过滤算法：UserC...

格图洛书
发表于2021-12-31 22:12:09
5561 0 0

5.5k 0 0

1、推荐系统概述电子商务网站是推荐系统应用的重要领域之一，当当网的图书推荐，大众点评的美食推荐，QQ好友推荐等等，推荐无处不在。从企业角度，推荐系统的应用可以增加销售额等等，对于用户而言，系统仿佛知道我们的喜好并给出推荐也是非常美妙的事情。推荐算法分类：按数据使用划分：协同过滤算法：UserC...
Hadoop 推荐系统
hadoop学习--数据排序
对输入文件中的数据进行排序，输入文件中每行为一个数字。输出的每行为2个间隔的数字，第一个代表序号，第二个代表原始数字。输入： 2 7 5 1 7 6 8 7 输出： 1 1 2 2 3 5 4 6 5 7 6 7 7 7 8 8 1、设计思路在map过程中就有排序，因此利用这个默认的排序。并将其作为key值输出。re...

格图洛书
发表于2021-12-31 22:10:54
2447 0 0

2.4k 0 0

对输入文件中的数据进行排序，输入文件中每行为一个数字。输出的每行为2个间隔的数字，第一个代表序号，第二个代表原始数字。输入： 2 7 5 1 7 6 8 7 输出： 1 1 2 2 3 5 4 6 5 7 6 7 7 7 8 8 1、设计思路在map过程中就有排序，因此利用这个默认的排序。并将其作为key值输出。re...
Hadoop
分布式计算Hadoop系列之如何Eclipse中构建Hadoop项目
前言之前根据Hadoop官方文档对HDFS、MapReduce的架构、配置管理等进行了学习，但某些地方官方文档讲解的比较模糊。做过开发的人都能够体会，官方文档有些类似业务规则或者要求，而真正的细节还是需要深入研究源代码的。基于以上的原因，决定深入学习Hadoop的源代码，虽然现在已经出现Hadoop-2.x的文档版本，但还是决定学习...

格图洛书
发表于2021-12-31 00:39:24
3371 0 0

3.3k 0 0

前言之前根据Hadoop官方文档对HDFS、MapReduce的架构、配置管理等进行了学习，但某些地方官方文档讲解的比较模糊。做过开发的人都能够体会，官方文档有些类似业务规则或者要求，而真正的细节还是需要深入研究源代码的。基于以上的原因，决定深入学习Hadoop的源代码，虽然现在已经出现Hadoop-2.x的文档版本，但还是决定学习...
Eclipse Hadoop 分布式
hadoop学习-海量日志分析(提取KPI指标)
1、Web日志分析从Web日志中，我们可以获取网站各类页面的PV值(PageView，页面访问量)，访问IP；或者是用户停留时间最长的页面等等，更复杂的，可以分析用户行为特征。在Web日志中，每条日志都代表用户的一次访问行为，以下面的一条日志为例子： 60.208.6.156 - - [18/Sep/2013:06:49:48...

格图洛书
发表于2021-12-30 23:53:31
5355 0 0

5.3k 0 0

1、Web日志分析从Web日志中，我们可以获取网站各类页面的PV值(PageView，页面访问量)，访问IP；或者是用户停留时间最长的页面等等，更复杂的，可以分析用户行为特征。在Web日志中，每条日志都代表用户的一次访问行为，以下面的一条日志为例子： 60.208.6.156 - - [18/Sep/2013:06:49:48...
Hadoop 日志分析服务 Log
Hadoop学习之MapReduce(二)
在通过WordCount的例子直观地了解了MapReduce框架的作业如何编写后，现在对MapReduce框架中的关键接口或者类进行深入地地探索和学习。主要讲解Hadoop1.x中的接口和类，也就是org.apache.hadoop.mapreduce包中的接口和类，上面介绍的WordCount作业也是实现了这个包中的接口和类。首先会介...

格图洛书
发表于2021-12-30 23:22:46
2949 0 0

2.9k 0 0

在通过WordCount的例子直观地了解了MapReduce框架的作业如何编写后，现在对MapReduce框架中的关键接口或者类进行深入地地探索和学习。主要讲解Hadoop1.x中的接口和类，也就是org.apache.hadoop.mapreduce包中的接口和类，上面介绍的WordCount作业也是实现了这个包中的接口和类。首先会介...
Hadoop MapReduce
HDFS 的Trash回收站功能的配置、使用
文件的删除和恢复         和Linux系统的回收站设计一样，HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户通过Shell删除的文件/目录，在系统回收站中都一个周期，也就是当系统回收站中的文件/目录在一段...

格图洛书
发表于2021-12-30 23:07:15
3045 0 0

3.0k 0 0

文件的删除和恢复         和Linux系统的回收站设计一样，HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户通过Shell删除的文件/目录，在系统回收站中都一个周期，也就是当系统回收站中的文件/目录在一段...
Hadoop
分布式计算Hadoop系列之如何修改Eclipse插件
之前手工成功编译Hadoop-1.2.1的Eclipse插件后，发现了若干问题，比如生成的Mapper和Reducer还在使用Hadoop-0.x版本的一些类，为了解决这些问题并使插件能够适应Hadoop-1.2.1的变化，决定修改插件的源代码后再重新编译。首先需要确定要修改哪些类，在仔细观察了hadoop-1.2.1/src/co...

格图洛书
发表于2021-12-30 23:00:04
3134 0 0

3.1k 0 0

之前手工成功编译Hadoop-1.2.1的Eclipse插件后，发现了若干问题，比如生成的Mapper和Reducer还在使用Hadoop-0.x版本的一些类，为了解决这些问题并使插件能够适应Hadoop-1.2.1的变化，决定修改插件的源代码后再重新编译。首先需要确定要修改哪些类，在仔细观察了hadoop-1.2.1/src/co...
Eclipse Hadoop 分布式
Hadoop学习--Hive安装与配置
最近在学习Hive的安装与使用，第一次使用还是遇到了很多问题。下面介绍下具体的过程。开发环境： ubuntu10.04  jdk:1.7.0_40 Hadoop:1.2.1 1、下载安装包首先从http://hive.apache.org/downloads.html下载并解压到一个目录下，笔者是/root/h...

格图洛书
发表于2021-12-30 22:37:16
2854 0 0

2.8k 0 0

最近在学习Hive的安装与使用，第一次使用还是遇到了很多问题。下面介绍下具体的过程。开发环境： ubuntu10.04  jdk:1.7.0_40 Hadoop:1.2.1 1、下载安装包首先从http://hive.apache.org/downloads.html下载并解压到一个目录下，笔者是/root/h...
Hadoop Hive

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript