HADOOP May 25, 2021

centos7下配置Hadoop伪分布式环境

Words count 7.3k Reading time 7 mins.

Centos 版本:7

Hadoop版本:2.7.4

Java版本:1.8

官网下载jdk 1.8

http://www.oracle.com/technetwork/java/javase/downloads...

Read article

HADOOP January 19, 2021

Hive大数据仓库入门

Words count 20k Reading time 18 mins.

什么是Hiv?

Hive是构建在hadoop HDFS上的一个数据仓库

1.1基本概念

数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业活组织的决策分析处理。

1.2数据仓库的结构和构建过程

1.3OLTP应用与OLAP应用

OLTP(On line Transaction Processing):连接事务处理(银行转账)面向事务

OLAP(On line Analytical Processing):连接分析处理(商品推荐系统)

1.4数据仓库中数据模型

1....

Read article

HADOOP August 20, 2018

zookeeper工作原理

Words count 4k Reading time 4 mins.

zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步,实现这个机制的协议叫做Zab协议。Zab协议有两种模式,分别是恢复模式(选主)和广播模式(同步)。当服务器启动或者leader崩溃以后Zab进入恢复模式,当leader被选举出来以后,然后进行同步模式。

zxid:是一个64位的数字,高32位是epoch,用来标志leader关系是否改变了,每一次新的leader选出来以后,都会有一个新的epoch。低32位用来递增计数。zxid越大,表示数据越新。

serverid:...

Read article

HADOOP August 20, 2018

java接口对hadoop集群进行操作

Words count 6k Reading time 5 mins.

首先要有一个配置好的Hadoop集群

这里是我在SSM框架搭建的项目的测试类中实现的

下载文件并解压到C盘或者其他目录。

链接:http://pan.baidu.com/s/1jHHPElg 密码:aufd

配置环境变量

1.配置HADOOP_HOME

2.配置PATH

在PATH中添加

%HADOOP_HOME%\bin

3.配置HADOOP_USER_NAME

这是Hadoop集群的用户名

HADOOP_USER_NAME root
    <!--hadoop依赖-->
    <dependency...
Read article

HADOOP August 20, 2018

IDEA向hadoop集群提交MapReduce作业

Words count 20k Reading time 19 mins.

windows环境:IntelliJ IDEA 2017.2.3、JRE: 1.8.0_152-release-915-b11 、hadoop-2.7.4.tar.gz、hadoop-common-2.2.0-bin-master.rar

1.解压hadoop-2.7.4.tar.gz到c盘(或者任意目录)

解压hadoop-2.7.4.tar.gz到C盘,路径为:C:\hadoop-2.7.4

解压 hadoop-common-2.2.0-bin-master.rar 并复制bin目录下所有的文...

Read article

HADOOP August 20, 2018

hive学习之修改表、分区、列

Words count 16k Reading time 14 mins.

查看已有表:

0: jdbc:hive2://localhost:10000> show tables;
+----------------------+
|       tab_name       |
+----------------------+
| bucket_table         |
| external_student     |
| partition_table      |
| person               |
| sample_data          |
| student              |
| student1             |
| student4             |
| t1                   |
|...
Read article

HADOOP August 20, 2018

Hive大数据仓库进阶

Words count 24k Reading time 22 mins.

1.1 使用load语句

语法

LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE]

INTO TABLE tablename [PARTITION (partcoll=val1,partcol2=val2…)]

说明:

[LOCAL] 是否从linux本地去取文件。加上local是从linux读取文件,不加local是从hdfs中读取文件

[OVERWRITE] 是否要覆盖表中原来的数据

示例:

将student01.txt数据导入t3表

hive>...
Read article

HADOOP August 20, 2018

hiveDDL学习

Words count 57k Reading time 52 mins.

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path]
  [WITH DBPROPERTIES (property_name=property_value, ...)];

1.1 创建一个简单的数据库

database...

Read article

HADOOP August 20, 2018

Hbase入门与实战

Words count 9.8k Reading time 9 mins.

  • HBase的引用场景及特点
  • HBase的概念与定位
  • HBase架构体系与设计模型
  • HBase的安装部署
  • HBase shell使用

2.1 HBase能做什么?

  • 海量数据存储(上百亿行乘以上百万列)
  • 准实时查询

2.2 举例说明HBase实际业务场景中的应用

  • 交通
  • 金融
  • 电商
  • 移动

2.3 HBase 的特点

  • 容量大

HBase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量都非常具有弹性。

(普通关系型数据库单表不超过五百万行,超过五百行要做封表封库处理。当然单表列...

Read article
Load more
0%