「 HADOOP 」
August 20, 2018
Words count
40k
Reading time
36 mins.
算法思想:给用户推荐那些和他们之前喜欢的物品相似的物品
- 点击——1.0分
- 搜索——3.0分
- 收藏——5.0分
- 付款——10.0分
现有如下用户、商品、行为、权重:
用户:A、B、C
商品:1、2、3、4、5、6
行为:点击(1)、搜索(2)、收藏(5)、付款(10)
用户行为列表
用户 |
物品 |
行为 |
A |
1 |
点击 |
C |
3 |
收藏 |
B |
2 |
搜索 |
B |
5 |
搜索 |
B |
6 |
收藏 |
A |
2 |
付款 |
C |
3 |
付款 |
C |
4 |
收藏 |
C |
1 |
收藏 |
A |
1 |
点击 |
A |
6... |
Read article
「 HADOOP 」
August 20, 2018
Words count
22k
Reading time
20 mins.
算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的其他物品
物品特征建模 Item Profile
1 构建Item Profile矩阵
2构建Item User 评分矩阵
3 Item User * Item Profile = User Profile
4 对Item Profile 和User Profile 求余弦相似度
step1
mapper1
package org.hadoop.mrs.contentCF.step1;
import org.apache.hadoop.io.LongWritable...
Read article
「 HADOOP 」
August 20, 2018
Words count
16k
Reading time
15 mins.
背景:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制
需求及思路
需求:给出两个矩阵,要利用MapReduce做矩阵相乘操作
思路:
矩阵相乘:左矩阵的列数 = 右矩阵的行数
相乘得到新的矩阵:行数 = 左矩阵的行
列数 = 右矩阵的列
step1:
将矩阵以固定的格式加上行号和列号保存到两个文件中。
因为MapReduce是按行读取文件,所以我们要利用MapReduce将右侧矩阵转...
Read article
「 HADOOP 」
August 20, 2018
Words count
1.5k
Reading time
1 mins.
分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
基本概念
MapReduce的四个阶段
MapReduce的容错机制
①重复执行 (默认重复执行四次之后仍然失败放弃执行)
② 推测执行
在整个任务执行的过程中,需要map端所有的任务都完成后,才开始执行Reduce端的任务。
map端可能出现某一个任务执行的特别慢,其他的任务都完成了,而它还没有完成。这时候jobTracker就会发现其中有一个节点算的特别慢,说明它出现了问题,这时候,算的慢的还继续算,再找...
Read article
「 HADOOP 」
August 20, 2018
Words count
3.6k
Reading time
3 mins.
基本概念:块(Block)、NameNode、DataNode
块(block)
HDFS的文件被分成块进行存储,HDFS块的默认大小64MB,块是文件存储处理的逻辑单元(在Hadoop-0.x和Hadoop-1.x中默认的块大小为64MB,在Hadoop-2.0及以后的版本中默认的块大小是128MB)
NameNode
namenode是管理节点,存放文件元数据
①文件与数据块的映射表
②数据块与数据节点的映射表
DateNode
datenode是HDFS的工作节点,存放数据块
数据块副本
每个数...
Read article
「 HADOOP 」
August 19, 2018
Words count
14k
Reading time
13 mins.
准备三台虚机并保证能相互ping通
序号 |
IP地址 |
主机名 |
类型 |
用户名 |
1 |
192.168.162.177 |
Master.Hadoop |
NameNode |
root |
2 |
192.168.162.155 |
Slave1.Hadoop |
DataNode |
root |
3 |
192.168.162.166 |
Slave2.Hadoop |
DataNode |
root |
主机名的修改:
vim /etc/hostname
按照一定的格式修改三台机器的主机名。
配置Hosts
vim /etc/hosts...
Read article
「 HADOOP 」
August 19, 2018
Words count
15k
Reading time
14 mins.
创建表的时候设置制表符
create table emp
(empno int,
ename string,
job string,mgr int,
hiredate date,
sal float,
comm float,
deptno int)
row format delimited fields terminated by ",";
如何查看hive表的制表符?
0: jdbc:hive2://localhost:10000> show create table...
Read article
「 HADOOP 」
August 19, 2018
Words count
4.5k
Reading time
4 mins.
如下图所示,假如我们要计算一份海报的数据,那么我们应该怎么快速计算出结果呢?
首先,我们要知道的是,我们对于一份非常大的文件上传到我们的HDFS分布式系统上时,它已经不是一个文件了,而是被物理分割成了很多份,至于被分成多少块那就要看文件的大小了,假如文件的大小是1g,HDFS默认的Block Size(区块)大小是128M,那么1g的文件就被分成了8个区块,每个区块对应一个Mapper,8个区块对应着8个Mapper,每个Mapper执行完自己任务之后把结果传到Reducer ,等Mapper...
Read article