HADOOP August 20, 2018

Hadoop推荐算法-基于物品的协同过滤ItemCF

Words count 40k Reading time 36 mins.

算法思想:给用户推荐那些和他们之前喜欢的物品相似的物品

  1. 点击——1.0分
  2. 搜索——3.0分
  3. 收藏——5.0分
  4. 付款——10.0分

现有如下用户、商品、行为、权重:

用户:A、B、C

商品:1、2、...

Read article

HADOOP August 20, 2018

Hadoop推荐算法-基于物品的协同过滤ItemCF

Words count 40k Reading time 36 mins.

算法思想:给用户推荐那些和他们之前喜欢的物品相似的物品

  1. 点击——1.0分
  2. 搜索——3.0分
  3. 收藏——5.0分
  4. 付款——10.0分

现有如下用户、商品、行为、权重:

用户:A、B、C

商品:1、2、3、4、5、6

行为:点击(1)、搜索(2)、收藏(5)、付款(10)

用户行为列表

用户 物品 行为
A 1 点击
C 3 收藏
B 2 搜索
B 5 搜索
B 6 收藏
A 2 付款
C 3 付款
C 4 收藏
C 1 收藏
A 1 点击
A 6...
Read article

HADOOP August 20, 2018

Hadoop推荐算法-基于内容的协同

Words count 22k Reading time 20 mins.

算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的其他物品

物品特征建模 Item Profile

1 构建Item Profile矩阵

2构建Item User 评分矩阵

3 Item User * Item Profile = User Profile

4 对Item Profile 和User Profile 求余弦相似度

step1

mapper1

package org.hadoop.mrs.contentCF.step1;

import org.apache.hadoop.io.LongWritable...
Read article

HADOOP August 20, 2018

Hadoop分布式缓存

Words count 16k Reading time 15 mins.

背景:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制

需求及思路

需求:给出两个矩阵,要利用MapReduce做矩阵相乘操作

思路:

矩阵相乘:左矩阵的列数 = 右矩阵的行数

相乘得到新的矩阵:行数 = 左矩阵的行

​ 列数 = 右矩阵的列

step1:

将矩阵以固定的格式加上行号和列号保存到两个文件中。

因为MapReduce是按行读取文件,所以我们要利用MapReduce将右侧矩阵转...

Read article

HADOOP August 20, 2018

hadoop-MapReduce

Words count 1.5k Reading time 1 mins.

分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)

基本概念

MapReduce的四个阶段

MapReduce的容错机制

①重复执行 (默认重复执行四次之后仍然失败放弃执行)

② 推测执行

在整个任务执行的过程中,需要map端所有的任务都完成后,才开始执行Reduce端的任务。

map端可能出现某一个任务执行的特别慢,其他的任务都完成了,而它还没有完成。这时候jobTracker就会发现其中有一个节点算的特别慢,说明它出现了问题,这时候,算的慢的还继续算,再找...

Read article

HADOOP August 20, 2018

hadoop-HDFS

Words count 3.6k Reading time 3 mins.

基本概念:块(Block)、NameNode、DataNode

块(block)

HDFS的文件被分成块进行存储,HDFS块的默认大小64MB,块是文件存储处理的逻辑单元(在Hadoop-0.x和Hadoop-1.x中默认的块大小为64MB,在Hadoop-2.0及以后的版本中默认的块大小是128MB)

NameNode

namenode是管理节点,存放文件元数据

①文件与数据块的映射表

②数据块与数据节点的映射表

DateNode

datenode是HDFS的工作节点,存放数据块

数据块副本

每个数...

Read article

HADOOP August 19, 2018

hive学习之beeline使用

Words count 3.7k Reading time 3 mins.

官网文档:

https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-ConnectionURLs

HiveServer2支持与HiveServer2一起使用的命令shell Beeline。这是一个基于SQLLine CLI的JDBC客户端。

Beeline shell既可以在嵌入模式下工作,也可以在远程模式下工作。在嵌入式模式下,它运行嵌入式Hive(类似于Hive CLI)...

Read article

HADOOP August 19, 2018

centos7下配置Hadoop全分布式环境

Words count 14k Reading time 13 mins.

准备三台虚机并保证能相互ping通

序号 IP地址 主机名 类型 用户名
1 192.168.162.177 Master.Hadoop NameNode root
2 192.168.162.155 Slave1.Hadoop DataNode root
3 192.168.162.166 Slave2.Hadoop DataNode root

主机名的修改:

vim /etc/hostname

按照一定的格式修改三台机器的主机名。

配置Hosts

vim /etc/hosts...
Read article

HADOOP August 19, 2018

hive知识点总结

Words count 15k Reading time 14 mins.

创建表的时候设置制表符

create table emp
(empno int,
ename string,
job string,mgr int,
hiredate date, 
sal float,
comm float,
deptno int)
row format delimited fields terminated by ",";

如何查看hive表的制表符?

0: jdbc:hive2://localhost:10000> show create table...
Read article

HADOOP August 19, 2018

学习Hadoop之MapReduce

Words count 4.5k Reading time 4 mins.

如下图所示,假如我们要计算一份海报的数据,那么我们应该怎么快速计算出结果呢?

​ 首先,我们要知道的是,我们对于一份非常大的文件上传到我们的HDFS分布式系统上时,它已经不是一个文件了,而是被物理分割成了很多份,至于被分成多少块那就要看文件的大小了,假如文件的大小是1g,HDFS默认的Block Size(区块)大小是128M,那么1g的文件就被分成了8个区块,每个区块对应一个Mapper,8个区块对应着8个Mapper,每个Mapper执行完自己任务之后把结果传到Reducer ,等Mapper...

Read article

HADOOP August 19, 2018

hadoop FileSystem Shell

Words count 19k Reading time 17 mins.

http://hadoop.apache.org/docs/r2.7.4/hadoop-project-dist/hadoop-common/FileSystemShell.html

文件系统(FS)shell包括各种类似shell的命令,可直接与Hadoop分布式文件系统(HDFS)以及Hadoop支持的其他文件系统(如本地FS,HFTP FS,S3 FS等)进行交互。FS shell 是通过以下方式调用的:

bin / hadoop fs <args>

appendToFile...

Read article
0%