「 环境搭建 」
February 26, 2019
Words count
11k
Reading time
10 mins.
zookeeper版本:zookeeper-3.4.13
kakfa版本:kafka_2.11-2.0.0
在已有zookeeper集群上,部署kakfa集群。每个节点上部署一个broker
zookeeper集群主机信息如下:
hostname |
ip |
端口 |
master.hadoop.com |
192.168.162.180 |
2181/2881/3881 |
slave1.hadoop.com |
192.168.162.181 |
2181/2881/3881 |
slave2.hadoop... |
Read article
「 SPARK 」
February 02, 2019
Words count
30k
Reading time
28 mins.
版本说明:Spark 2.3
前言:之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用,总的来说SparkSQL支持的数据源还是挺丰富的,但业务上可能不拘束于这几种数据源,比如将HBase作为SparkSQL的数据源,REST数据源等。这里主要讲一下在Spark2.3版本之后推出的DataSourceV2,基于DataSourceV2实现自定义数据源
自Spark1.3版本之后,引入了数据源API,我们可以实现自定义数据源。2.3版本之后又引入的新版API,关于...
Read article
「 SPARK 」
January 29, 2019
Words count
41k
Reading time
38 mins.
「 SPARK 」
January 28, 2019
Words count
35k
Reading time
32 mins.
SparkStreaming可以处理多种数据源,比如从socket里获取数据流,从文件系统获取数据流,从Flume获取数据流、从Kafka里获取数据流等。
需要注意的是:
- SparkStreaming 在处理socket、flume、kafka、Kinesis数据源的时候,本地模式下不能用以local、或者local[1]运行,因为需要启动一个线程运行Receivers来接收数据。读取文件系统的时候,不需要启动Receivers,所以在处理文件系统数据源的时候,不需要设置多个线程。
- 将逻辑扩展...
Read article
「 HBASE 」
November 22, 2018
Words count
21k
Reading time
19 mins.
- Client会县访问zookeeper,得到对应的RegionServer地址
- Clinet对RegionServer发起请求,RegionServer接收数据写入内
- 当MemStore的大小达到一定的值后,flush到StoreFile并存储到HDFS
HBase中的WAL(预写日志)的实现:https://www.cnblogs.com/ohuang/p/5807543.html
- Client会先访问zookeeper,得到对应的RegionServer地址
- Client对RegionServer...
Read article
「 大数据笔记 」
November 21, 2018
Words count
17k
Reading time
16 mins.
版本说明:
Python 2.7
Ansible 2.7.2
cm-api1 9.1.1
Cloudera Manger 6.0.0
CDH Parcel 6.0.0-1.cdh6.0.0.p0.537114
部署环境:CentOS 7.3
自动化部署CDH集群主要分为两大模块:
模块一:使用Ansible部署基础环境,包括:修改hosts、互信、关闭防火墙、安装Java、安装MySQL、安装 Cloudera Manger、安装Cloudera Agent等操作。
模块二:使用Cloudera...
Read article
「 大数据笔记 」
November 16, 2018
Words count
1.2k
Reading time
1 mins.
「 大数据笔记 」
November 09, 2018
Words count
3.8k
Reading time
3 mins.
1)inventory
该参数表示资源清单inventory文件的位置,资源清单就是一些Ansible需要连接管理的主机列表
inventory = /root/ansible/hosts
2)library
Ansible的操作动作,无论是本地或远程,都使用一小段代码来执行,这小段代码称为模块,这个library参数就是指向存放Ansible模块的目录
library = /usr/share/ansible
3)forks
设置默认情况下Ansible最多能有多少个进程同时工作,默认设置最多...
Read article
「 PYTHON 」
November 07, 2018
Words count
5.7k
Reading time
5 mins.
版本说明:Python 2.7
Python有不少第三方的缓存库,如cacheout、memcached等。因为项目需求,这里不使用第三方库,自己实现具有时效性的内存缓存,用来缓存重复利用的数据。
1.1 思路
采用dict()作为缓存介质,数据以key、value的形式进行保存。key为cache_id,用来标识不同的缓存数据。value是要进行缓存的数据。并且使用单例的设计模式,保障缓存数据的原子性。在时效性控制上,对每一个缓存数据进行单独控制,使用threading.Timer进行延时销...
Read article
「 环境搭建 」
October 31, 2018
Words count
6.6k
Reading time
6 mins.
版本说明:
hadoop-2.7.6
zookeeper-3.4.13
hbase-2.1.0
官网地址:http://hbase.apache.org/downloads.html
1.1 下载安装包
在官网下载相应版本的安装包,这里下载的是hbase-2.1.0版本。
wget http://mirror.bit.edu.cn/apache/hbase/2.1.0/hbase-2.1.0-bin.tar.gz
1.2 解压并重命名
解压下载好的安装包
tar -zxvf hbase-2.1...
Read article