Rukey - Alway believe that something wonderful is about to happen

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path]
  [WITH DBPROPERTIES (property_name=property_value, ...)];

1.1 创建一个简单的数据库

database...

Read article

「 HADOOP 」 August 20, 2018

Hbase入门与实战

Words count 9.8k Reading time 9 mins.

Hadoop

HBase的引用场景及特点
HBase的概念与定位
HBase架构体系与设计模型
HBase的安装部署
HBase shell使用

2.1 HBase能做什么？

海量数据存储（上百亿行乘以上百万列）
准实时查询

2.2 举例说明HBase实际业务场景中的应用

交通
金融
电商
移动

2.3 HBase 的特点

容量大

HBase单表可以有百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量都非常具有弹性。

（普通关系型数据库单表不超过五百万行，超过五百行要做封表封库处理。当然单表列...

Read article

「 HADOOP 」 August 20, 2018

Hadoop推荐算法-基于用户的协同过滤推荐算法UserCF

Words count 37k Reading time 34 mins.

Hadoop

算法思想：给用户推荐和他兴趣相似的其他用户喜欢的物品

现有如下用户、商品、行为、权重

![https://shirukai.gitee.io/images/1510554135635__IZF__1U_Z@XX4R`_UTFEW.png](https://shirukai.gitee.io/images/1510554135635__IZF__1U_Z@XX4R`_UTFEW.png)

行为列表

![https://shirukai.gitee.io/images/1510554230791ESFBEVY70B6_0...

Read article

「 HADOOP 」 August 20, 2018

Hadoop推荐算法-基于物品的协同过滤ItemCF

Words count 40k Reading time 36 mins.

Hadoop

算法思想：给用户推荐那些和他们之前喜欢的物品相似的物品

点击——1.0分
搜索——3.0分
收藏——5.0分
付款——10.0分

现有如下用户、商品、行为、权重:

用户:A、B、C

商品:1、2、3、4、5、6

行为:点击(1)、搜索（2）、收藏（5）、付款（10）

用户行为列表

用户	物品	行为
A	1	点击
C	3	收藏
B	2	搜索
B	5	搜索
B	6	收藏
A	2	付款
C	3	付款
C	4	收藏
C	1	收藏
A	1	点击
A	6...

Read article

「 HADOOP 」 August 20, 2018

Hadoop推荐算法-基于内容的协同

Words count 22k Reading time 20 mins.

Hadoop

算法思想：给用户推荐和他们之前喜欢的物品在内容上相似的其他物品

物品特征建模 Item Profile

1 构建Item Profile矩阵

2构建Item User 评分矩阵

3 Item User * Item Profile = User Profile

4 对Item Profile 和User Profile 求余弦相似度

step1

mapper1

package org.hadoop.mrs.contentCF.step1;

import org.apache.hadoop.io.LongWritable...

Read article

「 HADOOP 」 August 20, 2018

Hadoop分布式缓存

Words count 16k Reading time 15 mins.

Hadoop

背景：在执行MapReduce时，可能Mapper之间需要共享一些信息，如果信息量不大，可以将其从HDFS加载到内存中，这就是Hadoop分布式缓存机制

需求及思路

需求：给出两个矩阵，要利用MapReduce做矩阵相乘操作

思路：

矩阵相乘：左矩阵的列数 = 右矩阵的行数

相乘得到新的矩阵：行数 = 左矩阵的行

列数 = 右矩阵的列

step1：

将矩阵以固定的格式加上行号和列号保存到两个文件中。

因为MapReduce是按行读取文件，所以我们要利用MapReduce将右侧矩阵转...

Read article

「 HADOOP 」 August 20, 2018

hadoop-MapReduce

Words count 1.5k Reading time 1 mins.

Hadoop

分而治之，一个大任务分成多个小的子任务(map),并行执行后，合并结果（reduce）

基本概念

MapReduce的四个阶段

MapReduce的容错机制

①重复执行（默认重复执行四次之后仍然失败放弃执行）

② 推测执行

在整个任务执行的过程中，需要map端所有的任务都完成后，才开始执行Reduce端的任务。

map端可能出现某一个任务执行的特别慢，其他的任务都完成了，而它还没有完成。这时候jobTracker就会发现其中有一个节点算的特别慢，说明它出现了问题，这时候，算的慢的还继续算，再找...

Read article

「 HADOOP 」 August 20, 2018

hadoop-HDFS

Words count 3.6k Reading time 3 mins.

Hadoop

基本概念：块(Block)、NameNode、DataNode

块（block）

HDFS的文件被分成块进行存储，HDFS块的默认大小64MB，块是文件存储处理的逻辑单元（在Hadoop-0.x和Hadoop-1.x中默认的块大小为64MB，在Hadoop-2.0及以后的版本中默认的块大小是128MB）

NameNode

namenode是管理节点，存放文件元数据

①文件与数据块的映射表

②数据块与数据节点的映射表

DateNode

datenode是HDFS的工作节点，存放数据块

数据块副本

每个数...

Read article

「 AZKABAN 」 August 20, 2018

azkaban的job类型

Words count 1.1k Reading time 1 mins.

job

type=spark
master=local
execution-jar=azkaban.jar
class=com.azkaban.hollysys.main
params=hdfs://192.168.66.192:8020/user/root/srk/input/words.txt hdfs://192.168.66.192:8020/user/root/srk/output/wordcount

jar

package com.azkaban.hollysys.spark

import...

Read article

1.1 使用load语句

语法

1.1 使用load语句

语法

示例：

1.1 创建一个简单的数据库

2.1 HBase能做什么？

2.2 举例说明HBase实际业务场景中的应用

2.3 HBase 的特点

容量大

现有如下用户、商品、行为、权重

行为列表

现有如下用户、商品、行为、权重:

用户行为列表

1 构建Item Profile矩阵

2构建Item User 评分矩阵

3 Item User * Item Profile = User Profile

4 对Item Profile 和User Profile 求余弦相似度

step1

mapper1

需求及思路

基本概念

MapReduce的四个阶段

MapReduce的容错机制

块（block）

NameNode

DateNode

数据块副本