Rukey - Alway believe that something wonderful is about to happen

「环境搭建」 February 26, 2019

CentOS环境下部署kafka集群

Words count 11k Reading time 10 mins.

环境搭建

zookeeper版本：zookeeper-3.4.13

kakfa版本：kafka_2.11-2.0.0

在已有zookeeper集群上，部署kakfa集群。每个节点上部署一个broker

zookeeper集群主机信息如下：

hostname	ip	端口
master.hadoop.com	192.168.162.180	2181/2881/3881
slave1.hadoop.com	192.168.162.181	2181/2881/3881
slave2.hadoop...

Read article

「 SPARK 」 February 02, 2019

SparkSQL基于DataSourceV2自定义数据源

Words count 30k Reading time 28 mins.

Spark

版本说明：Spark 2.3

前言：之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用，总的来说SparkSQL支持的数据源还是挺丰富的，但业务上可能不拘束于这几种数据源，比如将HBase作为SparkSQL的数据源，REST数据源等。这里主要讲一下在Spark2.3版本之后推出的DataSourceV2，基于DataSourceV2实现自定义数据源

自Spark1.3版本之后，引入了数据源API，我们可以实现自定义数据源。2.3版本之后又引入的新版API，关于...

Read article

「 SPARK 」 January 29, 2019

StructuredStreaming 内置数据源及实现自定义数据源

Words count 41k Reading time 38 mins.

Spark

版本说明：

Spark:2.3/2.4

代码仓库：https://github.com/shirukai/spark-structured-datasource.git

官网文档：http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources

Source	Options	Fault-tolerant	Notes
File Source	maxFilesPerTrigger...

Read article

「 SPARK 」 January 28, 2019

SparkStreaming整合多种数据源

Words count 35k Reading time 32 mins.

Spark

SparkStreaming可以处理多种数据源，比如从socket里获取数据流，从文件系统获取数据流，从Flume获取数据流、从Kafka里获取数据流等。

需要注意的是：

SparkStreaming 在处理socket、flume、kafka、Kinesis数据源的时候，本地模式下不能用以local、或者local[1]运行，因为需要启动一个线程运行Receivers来接收数据。读取文件系统的时候，不需要启动Receivers，所以在处理文件系统数据源的时候，不需要设置多个线程。
将逻辑扩展...

Read article

「 HBASE 」 November 22, 2018

HBase基本概念及知识点

Words count 21k Reading time 19 mins.

HBase

Client会县访问zookeeper，得到对应的RegionServer地址
Clinet对RegionServer发起请求，RegionServer接收数据写入内
当MemStore的大小达到一定的值后，flush到StoreFile并存储到HDFS

HBase中的WAL（预写日志）的实现：https://www.cnblogs.com/ohuang/p/5807543.html

Client会先访问zookeeper，得到对应的RegionServer地址
Client对RegionServer...

Read article

「大数据笔记」 November 21, 2018

Cloudera Manager 自动化部署CDH集群

Words count 17k Reading time 16 mins.

大数据笔记

版本说明：

Python 2.7

Ansible 2.7.2

cm-api1 9.1.1

Cloudera Manger 6.0.0

CDH Parcel 6.0.0-1.cdh6.0.0.p0.537114

部署环境：CentOS 7.3

自动化部署CDH集群主要分为两大模块：

模块一：使用Ansible部署基础环境，包括：修改hosts、互信、关闭防火墙、安装Java、安装MySQL、安装 Cloudera Manger、安装Cloudera Agent等操作。

模块二：使用Cloudera...

Read article

「大数据笔记」 November 16, 2018

CDH Manager 自动化部署集群相关API整理

Words count 1.2k Reading time 1 mins.

大数据笔记

http://192.168.1.58:7180/cmf/license/wizard?returnUrl=%2Fcmf%2Fexpress-wizard%2Fwizard#step=selectLicenseStep

http://192.168.1.58:7180/cmf/express-wizard/wizard

获取集群部署配置

获取host信息: http://192.168.1.58:7180/api/v30/hosts

http://192.168.1.58:7180/cmf/clusters...

Read article

「大数据笔记」 November 09, 2018

ansible

Words count 3.8k Reading time 3 mins.

大数据笔记

1）inventory 
该参数表示资源清单inventory文件的位置，资源清单就是一些Ansible需要连接管理的主机列表 
inventory = /root/ansible/hosts

2）library 
Ansible的操作动作，无论是本地或远程，都使用一小段代码来执行，这小段代码称为模块，这个library参数就是指向存放Ansible模块的目录 
library = /usr/share/ansible

3）forks 
设置默认情况下Ansible最多能有多少个进程同时工作，默认设置最多...

Read article

「 PYTHON 」 November 07, 2018

Python基于单例模式实现具有时效性的内存缓存

Words count 5.7k Reading time 5 mins.

Python

版本说明：Python 2.7

Python有不少第三方的缓存库，如cacheout、memcached等。因为项目需求，这里不使用第三方库，自己实现具有时效性的内存缓存，用来缓存重复利用的数据。

1.1 思路

采用dict()作为缓存介质，数据以key、value的形式进行保存。key为cache_id，用来标识不同的缓存数据。value是要进行缓存的数据。并且使用单例的设计模式，保障缓存数据的原子性。在时效性控制上，对每一个缓存数据进行单独控制，使用threading.Timer进行延时销...

Read article

「环境搭建」 October 31, 2018

HBase单机伪分布式安装

Words count 6.6k Reading time 6 mins.

环境搭建

版本说明：

hadoop-2.7.6

zookeeper-3.4.13

hbase-2.1.0

官网地址：http://hbase.apache.org/downloads.html

1.1 下载安装包

在官网下载相应版本的安装包，这里下载的是hbase-2.1.0版本。

wget http://mirror.bit.edu.cn/apache/hbase/2.1.0/hbase-2.1.0-bin.tar.gz

1.2 解压并重命名

解压下载好的安装包

tar -zxvf hbase-2.1...

Read article