「 HADOOP 」
January 19, 2021
Words count
20k
Reading time
18 mins.
什么是Hiv?
Hive是构建在hadoop HDFS上的一个数据仓库
1.1基本概念
数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业活组织的决策分析处理。
1.2数据仓库的结构和构建过程
1.3OLTP应用与OLAP应用
OLTP(On line Transaction Processing):连接事务处理(银行转账)面向事务
OLAP(On line Analytical Processing):连接分析处理(商品推荐系统)
1.4数据仓库中数据模型
1....
Read article
「 HADOOP 」
August 20, 2018
Words count
4k
Reading time
4 mins.
zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步,实现这个机制的协议叫做Zab协议。Zab协议有两种模式,分别是恢复模式(选主)和广播模式(同步)。当服务器启动或者leader崩溃以后Zab进入恢复模式,当leader被选举出来以后,然后进行同步模式。
zxid:是一个64位的数字,高32位是epoch,用来标志leader关系是否改变了,每一次新的leader选出来以后,都会有一个新的epoch。低32位用来递增计数。zxid越大,表示数据越新。
serverid:...
Read article
「 HADOOP 」
August 20, 2018
Words count
6k
Reading time
5 mins.
首先要有一个配置好的Hadoop集群
这里是我在SSM框架搭建的项目的测试类中实现的
下载文件并解压到C盘或者其他目录。
链接:http://pan.baidu.com/s/1jHHPElg 密码:aufd
配置环境变量
1.配置HADOOP_HOME
2.配置PATH
在PATH中添加
%HADOOP_HOME%\bin
3.配置HADOOP_USER_NAME
这是Hadoop集群的用户名
HADOOP_USER_NAME root
<!--hadoop依赖-->
<dependency...
Read article
「 HADOOP 」
August 20, 2018
Words count
20k
Reading time
19 mins.
windows环境:IntelliJ IDEA 2017.2.3、JRE: 1.8.0_152-release-915-b11 、hadoop-2.7.4.tar.gz、hadoop-common-2.2.0-bin-master.rar
1.解压hadoop-2.7.4.tar.gz到c盘(或者任意目录)
解压hadoop-2.7.4.tar.gz到C盘,路径为:C:\hadoop-2.7.4
解压 hadoop-common-2.2.0-bin-master.rar 并复制bin目录下所有的文...
Read article
「 HADOOP 」
August 20, 2018
Words count
16k
Reading time
14 mins.
查看已有表:
0: jdbc:hive2://localhost:10000> show tables;
+----------------------+
| tab_name |
+----------------------+
| bucket_table |
| external_student |
| partition_table |
| person |
| sample_data |
| student |
| student1 |
| student4 |
| t1 |
|...
Read article
「 HADOOP 」
August 20, 2018
Words count
24k
Reading time
22 mins.
1.1 使用load语句
语法
LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE]
INTO TABLE tablename [PARTITION (partcoll=val1,partcol2=val2…)]
说明:
[LOCAL] 是否从linux本地去取文件。加上local是从linux读取文件,不加local是从hdfs中读取文件
[OVERWRITE] 是否要覆盖表中原来的数据
示例:
将student01.txt数据导入t3表
hive>...
Read article
「 HADOOP 」
August 20, 2018
Words count
9.8k
Reading time
9 mins.
- HBase的引用场景及特点
- HBase的概念与定位
- HBase架构体系与设计模型
- HBase的安装部署
- HBase shell使用
2.1 HBase能做什么?
2.2 举例说明HBase实际业务场景中的应用
2.3 HBase 的特点
HBase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量都非常具有弹性。
(普通关系型数据库单表不超过五百万行,超过五百行要做封表封库处理。当然单表列...
Read article
「 HADOOP 」
August 20, 2018
Words count
37k
Reading time
34 mins.