HADOOP August 20, 2018

Hive大数据仓库进阶

Words count 24k Reading time 22 mins.

1.1 使用load语句

语法

LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE]

INTO TABLE tablename [PARTITION (partcoll...

Read article

HADOOP August 20, 2018

Hive大数据仓库进阶

Words count 24k Reading time 22 mins.

1.1 使用load语句

语法

LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE]

INTO TABLE tablename [PARTITION (partcoll=val1,partcol2=val2…)]

说明:

[LOCAL] 是否从linux本地去取文件。加上local是从linux读取文件,不加local是从hdfs中读取文件

[OVERWRITE] 是否要覆盖表中原来的数据

示例:

将student01.txt数据导入t3表

hive>...
Read article

HADOOP August 20, 2018

hiveDDL学习

Words count 57k Reading time 52 mins.

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path]
  [WITH DBPROPERTIES (property_name=property_value, ...)];

1.1 创建一个简单的数据库

database...

Read article

HADOOP August 20, 2018

Hbase入门与实战

Words count 9.8k Reading time 9 mins.

  • HBase的引用场景及特点
  • HBase的概念与定位
  • HBase架构体系与设计模型
  • HBase的安装部署
  • HBase shell使用

2.1 HBase能做什么?

  • 海量数据存储(上百亿行乘以上百万列)
  • 准实时查询

2.2 举例说明HBase实际业务场景中的应用

  • 交通
  • 金融
  • 电商
  • 移动

2.3 HBase 的特点

  • 容量大

HBase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量都非常具有弹性。

(普通关系型数据库单表不超过五百万行,超过五百行要做封表封库处理。当然单表列...

Read article

HADOOP August 20, 2018

Hadoop推荐算法-基于物品的协同过滤ItemCF

Words count 40k Reading time 36 mins.

算法思想:给用户推荐那些和他们之前喜欢的物品相似的物品

  1. 点击——1.0分
  2. 搜索——3.0分
  3. 收藏——5.0分
  4. 付款——10.0分

现有如下用户、商品、行为、权重:

用户:A、B、C

商品:1、2、3、4、5、6

行为:点击(1)、搜索(2)、收藏(5)、付款(10)

用户行为列表

用户 物品 行为
A 1 点击
C 3 收藏
B 2 搜索
B 5 搜索
B 6 收藏
A 2 付款
C 3 付款
C 4 收藏
C 1 收藏
A 1 点击
A 6...
Read article

HADOOP August 20, 2018

Hadoop推荐算法-基于内容的协同

Words count 22k Reading time 20 mins.

算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的其他物品

物品特征建模 Item Profile

1 构建Item Profile矩阵

2构建Item User 评分矩阵

3 Item User * Item Profile = User Profile

4 对Item Profile 和User Profile 求余弦相似度

step1

mapper1

package org.hadoop.mrs.contentCF.step1;

import org.apache.hadoop.io.LongWritable...
Read article

HADOOP August 20, 2018

Hadoop分布式缓存

Words count 16k Reading time 15 mins.

背景:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制

需求及思路

需求:给出两个矩阵,要利用MapReduce做矩阵相乘操作

思路:

矩阵相乘:左矩阵的列数 = 右矩阵的行数

相乘得到新的矩阵:行数 = 左矩阵的行

​ 列数 = 右矩阵的列

step1:

将矩阵以固定的格式加上行号和列号保存到两个文件中。

因为MapReduce是按行读取文件,所以我们要利用MapReduce将右侧矩阵转...

Read article

HADOOP August 20, 2018

hadoop-MapReduce

Words count 1.5k Reading time 1 mins.

分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)

基本概念

MapReduce的四个阶段

MapReduce的容错机制

①重复执行 (默认重复执行四次之后仍然失败放弃执行)

② 推测执行

在整个任务执行的过程中,需要map端所有的任务都完成后,才开始执行Reduce端的任务。

map端可能出现某一个任务执行的特别慢,其他的任务都完成了,而它还没有完成。这时候jobTracker就会发现其中有一个节点算的特别慢,说明它出现了问题,这时候,算的慢的还继续算,再找...

Read article

HADOOP August 20, 2018

hadoop-HDFS

Words count 3.6k Reading time 3 mins.

基本概念:块(Block)、NameNode、DataNode

块(block)

HDFS的文件被分成块进行存储,HDFS块的默认大小64MB,块是文件存储处理的逻辑单元(在Hadoop-0.x和Hadoop-1.x中默认的块大小为64MB,在Hadoop-2.0及以后的版本中默认的块大小是128MB)

NameNode

namenode是管理节点,存放文件元数据

①文件与数据块的映射表

②数据块与数据节点的映射表

DateNode

datenode是HDFS的工作节点,存放数据块

数据块副本

每个数...

Read article

AZKABAN August 20, 2018

azkaban的job类型

Words count 1.1k Reading time 1 mins.

job

type=spark
master=local
execution-jar=azkaban.jar
class=com.azkaban.hollysys.main
params=hdfs://192.168.66.192:8020/user/root/srk/input/words.txt hdfs://192.168.66.192:8020/user/root/srk/output/wordcount

jar

package com.azkaban.hollysys.spark

import...
Read article
Load more
0%