Category: Hadoop

「 HADOOP 」 January 19, 2021

Hive大数据仓库入门

Words count 20k Reading time 18 mins.

Hadoop

什么是Hiv？

Hive是构建在hadoop HDFS上的一个数据仓库

1.1基本概念

数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合，它用于支持企业活组织的决策分析处理。

1.2数据仓库的结构和构建过程

1.3OLTP应用与OLAP应用

OLTP（On line Transaction Processing）:连接事务处理（银行转账）面向事务

OLAP（On line Analytical Processing）:连接分析处理（商品推荐系统）

1.4数据仓库中数据模型

1....

Read article

「 HADOOP 」 August 20, 2018

zookeeper工作原理

Words count 4k Reading time 4 mins.

Hadoop

zookeeper的核心是原子广播，这个机制保证了各个Server之间的同步，实现这个机制的协议叫做Zab协议。Zab协议有两种模式，分别是恢复模式（选主）和广播模式（同步）。当服务器启动或者leader崩溃以后Zab进入恢复模式，当leader被选举出来以后，然后进行同步模式。

zxid：是一个64位的数字，高32位是epoch，用来标志leader关系是否改变了，每一次新的leader选出来以后，都会有一个新的epoch。低32位用来递增计数。zxid越大，表示数据越新。

serverid:...

Read article

「 HADOOP 」 August 20, 2018

java接口对hadoop集群进行操作

Words count 6k Reading time 5 mins.

Hadoop

首先要有一个配置好的Hadoop集群

这里是我在SSM框架搭建的项目的测试类中实现的

下载文件并解压到C盘或者其他目录。

链接：http://pan.baidu.com/s/1jHHPElg 密码：aufd

配置环境变量

1.配置HADOOP_HOME

2.配置PATH

在PATH中添加

%HADOOP_HOME%\bin

3.配置HADOOP_USER_NAME

这是Hadoop集群的用户名

HADOOP_USER_NAME root

    <!--hadoop依赖-->
    <dependency...

Read article

「 HADOOP 」 August 20, 2018

IDEA向hadoop集群提交MapReduce作业

Words count 20k Reading time 19 mins.

Hadoop

windows环境：IntelliJ IDEA 2017.2.3、JRE: 1.8.0_152-release-915-b11 、hadoop-2.7.4.tar.gz、hadoop-common-2.2.0-bin-master.rar

1.解压hadoop-2.7.4.tar.gz到c盘(或者任意目录)

解压hadoop-2.7.4.tar.gz到C盘，路径为：C:\hadoop-2.7.4

解压 hadoop-common-2.2.0-bin-master.rar 并复制bin目录下所有的文...

Read article

「 HADOOP 」 August 20, 2018

hive学习之修改表、分区、列

Words count 16k Reading time 14 mins.

Hadoop

查看已有表：

0: jdbc:hive2://localhost:10000> show tables;
+----------------------+
|       tab_name       |
+----------------------+
| bucket_table         |
| external_student     |
| partition_table      |
| person               |
| sample_data          |
| student              |
| student1             |
| student4             |
| t1                   |
|...

Read article

「 HADOOP 」 August 20, 2018

Hive大数据仓库进阶

Words count 24k Reading time 22 mins.

Hadoop

1.1 使用load语句

语法

LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE]

INTO TABLE tablename [PARTITION (partcoll=val1,partcol2=val2…)]

说明：

[LOCAL] 是否从linux本地去取文件。加上local是从linux读取文件，不加local是从hdfs中读取文件

[OVERWRITE] 是否要覆盖表中原来的数据

示例：

将student01.txt数据导入t3表

hive>...

Read article

「 HADOOP 」 August 20, 2018

hiveDDL学习

Words count 57k Reading time 52 mins.

Hadoop

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path]
  [WITH DBPROPERTIES (property_name=property_value, ...)];

1.1 创建一个简单的数据库

database...

Read article

「 HADOOP 」 August 20, 2018

Hbase入门与实战

Words count 9.8k Reading time 9 mins.

Hadoop

HBase的引用场景及特点
HBase的概念与定位
HBase架构体系与设计模型
HBase的安装部署
HBase shell使用

2.1 HBase能做什么？

海量数据存储（上百亿行乘以上百万列）
准实时查询

2.2 举例说明HBase实际业务场景中的应用

交通
金融
电商
移动

2.3 HBase 的特点

容量大

HBase单表可以有百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量都非常具有弹性。

（普通关系型数据库单表不超过五百万行，超过五百行要做封表封库处理。当然单表列...

Read article

「 HADOOP 」 August 20, 2018

Hadoop推荐算法-基于用户的协同过滤推荐算法UserCF

Words count 37k Reading time 34 mins.

Hadoop

算法思想：给用户推荐和他兴趣相似的其他用户喜欢的物品

现有如下用户、商品、行为、权重

![https://shirukai.gitee.io/images/1510554135635__IZF__1U_Z@XX4R`_UTFEW.png](https://shirukai.gitee.io/images/1510554135635__IZF__1U_Z@XX4R`_UTFEW.png)

行为列表

![https://shirukai.gitee.io/images/1510554230791ESFBEVY70B6_0...

Read article

1.1基本概念

1.2数据仓库的结构和构建过程

1.3OLTP应用与OLAP应用

1.4数据仓库中数据模型

1....

下载文件并解压到C盘或者其他目录。

配置环境变量

1.配置HADOOP_HOME

2.配置PATH

3.配置HADOOP_USER_NAME

1.解压hadoop-2.7.4.tar.gz到c盘(或者任意目录)

1.1 使用load语句

语法

示例：

1.1 创建一个简单的数据库

2.1 HBase能做什么？

2.2 举例说明HBase实际业务场景中的应用

2.3 HBase 的特点

容量大

现有如下用户、商品、行为、权重

行为列表