「 HADOOP 」
August 20, 2018
Words count
24k
Reading time
22 mins.
1.1 使用load语句
语法
LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE]
INTO TABLE tablename [PARTITION (partcoll=val1,partcol2=val2…)]
说明:
[LOCAL] 是否从linux本地去取文件。加上local是从linux读取文件,不加local是从hdfs中读取文件
[OVERWRITE] 是否要覆盖表中原来的数据
示例:
将student01.txt数据导入t3表
hive>...
Read article
「 HADOOP 」
August 20, 2018
Words count
9.8k
Reading time
9 mins.
- HBase的引用场景及特点
- HBase的概念与定位
- HBase架构体系与设计模型
- HBase的安装部署
- HBase shell使用
2.1 HBase能做什么?
2.2 举例说明HBase实际业务场景中的应用
2.3 HBase 的特点
HBase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量都非常具有弹性。
(普通关系型数据库单表不超过五百万行,超过五百行要做封表封库处理。当然单表列...
Read article
「 HADOOP 」
August 20, 2018
Words count
37k
Reading time
34 mins.
「 HADOOP 」
August 20, 2018
Words count
40k
Reading time
36 mins.
算法思想:给用户推荐那些和他们之前喜欢的物品相似的物品
- 点击——1.0分
- 搜索——3.0分
- 收藏——5.0分
- 付款——10.0分
现有如下用户、商品、行为、权重:
用户:A、B、C
商品:1、2、3、4、5、6
行为:点击(1)、搜索(2)、收藏(5)、付款(10)
用户行为列表
用户 |
物品 |
行为 |
A |
1 |
点击 |
C |
3 |
收藏 |
B |
2 |
搜索 |
B |
5 |
搜索 |
B |
6 |
收藏 |
A |
2 |
付款 |
C |
3 |
付款 |
C |
4 |
收藏 |
C |
1 |
收藏 |
A |
1 |
点击 |
A |
6... |
Read article
「 HADOOP 」
August 20, 2018
Words count
22k
Reading time
20 mins.
算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的其他物品
物品特征建模 Item Profile
1 构建Item Profile矩阵
2构建Item User 评分矩阵
3 Item User * Item Profile = User Profile
4 对Item Profile 和User Profile 求余弦相似度
step1
mapper1
package org.hadoop.mrs.contentCF.step1;
import org.apache.hadoop.io.LongWritable...
Read article
「 HADOOP 」
August 20, 2018
Words count
16k
Reading time
15 mins.
背景:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制
需求及思路
需求:给出两个矩阵,要利用MapReduce做矩阵相乘操作
思路:
矩阵相乘:左矩阵的列数 = 右矩阵的行数
相乘得到新的矩阵:行数 = 左矩阵的行
列数 = 右矩阵的列
step1:
将矩阵以固定的格式加上行号和列号保存到两个文件中。
因为MapReduce是按行读取文件,所以我们要利用MapReduce将右侧矩阵转...
Read article
「 HADOOP 」
August 20, 2018
Words count
1.5k
Reading time
1 mins.
分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
基本概念
MapReduce的四个阶段
MapReduce的容错机制
①重复执行 (默认重复执行四次之后仍然失败放弃执行)
② 推测执行
在整个任务执行的过程中,需要map端所有的任务都完成后,才开始执行Reduce端的任务。
map端可能出现某一个任务执行的特别慢,其他的任务都完成了,而它还没有完成。这时候jobTracker就会发现其中有一个节点算的特别慢,说明它出现了问题,这时候,算的慢的还继续算,再找...
Read article
「 HADOOP 」
August 20, 2018
Words count
3.6k
Reading time
3 mins.
基本概念:块(Block)、NameNode、DataNode
块(block)
HDFS的文件被分成块进行存储,HDFS块的默认大小64MB,块是文件存储处理的逻辑单元(在Hadoop-0.x和Hadoop-1.x中默认的块大小为64MB,在Hadoop-2.0及以后的版本中默认的块大小是128MB)
NameNode
namenode是管理节点,存放文件元数据
①文件与数据块的映射表
②数据块与数据节点的映射表
DateNode
datenode是HDFS的工作节点,存放数据块
数据块副本
每个数...
Read article
「 AZKABAN 」
August 20, 2018
Words count
1.1k
Reading time
1 mins.
job
type=spark
master=local
execution-jar=azkaban.jar
class=com.azkaban.hollysys.main
params=hdfs://192.168.66.192:8020/user/root/srk/input/words.txt hdfs://192.168.66.192:8020/user/root/srk/output/wordcount
jar
package com.azkaban.hollysys.spark
import...
Read article