Category: Hadoop

「 HADOOP 」 August 20, 2018

Hadoop推荐算法-基于物品的协同过滤ItemCF

Words count 40k Reading time 36 mins.

Hadoop

算法思想：给用户推荐那些和他们之前喜欢的物品相似的物品

点击——1.0分
搜索——3.0分
收藏——5.0分
付款——10.0分

现有如下用户、商品、行为、权重:

用户:A、B、C

商品:1、2、3、4、5、6

行为:点击(1)、搜索（2）、收藏（5）、付款（10）

用户行为列表

用户	物品	行为
A	1	点击
C	3	收藏
B	2	搜索
B	5	搜索
B	6	收藏
A	2	付款
C	3	付款
C	4	收藏
C	1	收藏
A	1	点击
A	6...

Read article

「 HADOOP 」 August 20, 2018

Hadoop推荐算法-基于内容的协同

Words count 22k Reading time 20 mins.

Hadoop

算法思想：给用户推荐和他们之前喜欢的物品在内容上相似的其他物品

物品特征建模 Item Profile

1 构建Item Profile矩阵

2构建Item User 评分矩阵

3 Item User * Item Profile = User Profile

4 对Item Profile 和User Profile 求余弦相似度

step1

mapper1

package org.hadoop.mrs.contentCF.step1;

import org.apache.hadoop.io.LongWritable...

Read article

「 HADOOP 」 August 20, 2018

Hadoop分布式缓存

Words count 16k Reading time 15 mins.

Hadoop

背景：在执行MapReduce时，可能Mapper之间需要共享一些信息，如果信息量不大，可以将其从HDFS加载到内存中，这就是Hadoop分布式缓存机制

需求及思路

需求：给出两个矩阵，要利用MapReduce做矩阵相乘操作

思路：

矩阵相乘：左矩阵的列数 = 右矩阵的行数

相乘得到新的矩阵：行数 = 左矩阵的行

列数 = 右矩阵的列

step1：

将矩阵以固定的格式加上行号和列号保存到两个文件中。

因为MapReduce是按行读取文件，所以我们要利用MapReduce将右侧矩阵转...

Read article

「 HADOOP 」 August 20, 2018

hadoop-MapReduce

Words count 1.5k Reading time 1 mins.

Hadoop

分而治之，一个大任务分成多个小的子任务(map),并行执行后，合并结果（reduce）

基本概念

MapReduce的四个阶段

MapReduce的容错机制

①重复执行（默认重复执行四次之后仍然失败放弃执行）

② 推测执行

在整个任务执行的过程中，需要map端所有的任务都完成后，才开始执行Reduce端的任务。

map端可能出现某一个任务执行的特别慢，其他的任务都完成了，而它还没有完成。这时候jobTracker就会发现其中有一个节点算的特别慢，说明它出现了问题，这时候，算的慢的还继续算，再找...

Read article

「 HADOOP 」 August 20, 2018

hadoop-HDFS

Words count 3.6k Reading time 3 mins.

Hadoop

基本概念：块(Block)、NameNode、DataNode

块（block）

HDFS的文件被分成块进行存储，HDFS块的默认大小64MB，块是文件存储处理的逻辑单元（在Hadoop-0.x和Hadoop-1.x中默认的块大小为64MB，在Hadoop-2.0及以后的版本中默认的块大小是128MB）

NameNode

namenode是管理节点，存放文件元数据

①文件与数据块的映射表

②数据块与数据节点的映射表

DateNode

datenode是HDFS的工作节点，存放数据块

数据块副本

每个数...

Read article

「 HADOOP 」 August 19, 2018

hive学习之beeline使用

Words count 3.7k Reading time 3 mins.

Hadoop

官网文档：

https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-ConnectionURLs

HiveServer2支持与HiveServer2一起使用的命令shell Beeline。这是一个基于SQLLine CLI的JDBC客户端。

Beeline shell既可以在嵌入模式下工作，也可以在远程模式下工作。在嵌入式模式下，它运行嵌入式Hive（类似于Hive CLI）...

Read article

「 HADOOP 」 August 19, 2018

centos7下配置Hadoop全分布式环境

Words count 14k Reading time 13 mins.

Hadoop

准备三台虚机并保证能相互ping通

序号	IP地址	主机名	类型	用户名
1	192.168.162.177	Master.Hadoop	NameNode	root
2	192.168.162.155	Slave1.Hadoop	DataNode	root
3	192.168.162.166	Slave2.Hadoop	DataNode	root

主机名的修改：

vim /etc/hostname

按照一定的格式修改三台机器的主机名。

配置Hosts

vim /etc/hosts...

Read article

「 HADOOP 」 August 19, 2018

学习Hadoop之MapReduce

Words count 4.5k Reading time 4 mins.

Hadoop

如下图所示，假如我们要计算一份海报的数据，那么我们应该怎么快速计算出结果呢？

首先，我们要知道的是，我们对于一份非常大的文件上传到我们的HDFS分布式系统上时，它已经不是一个文件了，而是被物理分割成了很多份，至于被分成多少块那就要看文件的大小了，假如文件的大小是1g，HDFS默认的Block Size（区块）大小是128M，那么1g的文件就被分成了8个区块，每个区块对应一个Mapper，8个区块对应着8个Mapper，每个Mapper执行完自己任务之后把结果传到Reducer ，等Mapper...

Read article

「 HADOOP 」 August 19, 2018

hadoop FileSystem Shell

Words count 19k Reading time 17 mins.

Hadoop

http://hadoop.apache.org/docs/r2.7.4/hadoop-project-dist/hadoop-common/FileSystemShell.html

文件系统（FS）shell包括各种类似shell的命令，可直接与Hadoop分布式文件系统（HDFS）以及Hadoop支持的其他文件系统（如本地FS，HFTP FS，S3 FS等）进行交互。FS shell 是通过以下方式调用的：

bin / hadoop fs <args>

appendToFile...

Read article