环境搭建 February 26, 2019

CentOS环境下部署kafka集群

Words count 11k Reading time 10 mins.

zookeeper版本:zookeeper-3.4.13

kakfa版本:kafka_2.11-2.0.0

在已有zookeeper集群上,部署kakfa集群。每个节点上部署一个broker

zookeeper...

Read article

环境搭建 February 26, 2019

CentOS环境下部署kafka集群

Words count 11k Reading time 10 mins.

zookeeper版本:zookeeper-3.4.13

kakfa版本:kafka_2.11-2.0.0

在已有zookeeper集群上,部署kakfa集群。每个节点上部署一个broker

zookeeper集群主机信息如下:

hostname ip 端口
master.hadoop.com 192.168.162.180 2181/2881/3881
slave1.hadoop.com 192.168.162.181 2181/2881/3881
slave2.hadoop...
Read article

SPARK February 02, 2019

SparkSQL基于DataSourceV2自定义数据源

Words count 30k Reading time 28 mins.

版本说明:Spark 2.3

前言:之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用,总的来说SparkSQL支持的数据源还是挺丰富的,但业务上可能不拘束于这几种数据源,比如将HBase作为SparkSQL的数据源,REST数据源等。这里主要讲一下在Spark2.3版本之后推出的DataSourceV2,基于DataSourceV2实现自定义数据源

自Spark1.3版本之后,引入了数据源API,我们可以实现自定义数据源。2.3版本之后又引入的新版API,关于...

Read article

SPARK January 29, 2019

StructuredStreaming 内置数据源及实现自定义数据源

Words count 41k Reading time 38 mins.

版本说明:

Spark:2.3/2.4

代码仓库:https://github.com/shirukai/spark-structured-datasource.git

官网文档:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources

Source Options Fault-tolerant Notes
File Source maxFilesPerTrigger...
Read article

SPARK January 28, 2019

SparkStreaming整合多种数据源

Words count 35k Reading time 32 mins.

SparkStreaming可以处理多种数据源,比如从socket里获取数据流,从文件系统获取数据流,从Flume获取数据流、从Kafka里获取数据流等。

需要注意的是:

  • SparkStreaming 在处理socket、flume、kafka、Kinesis数据源的时候,本地模式下不能用以local、或者local[1]运行,因为需要启动一个线程运行Receivers来接收数据。读取文件系统的时候,不需要启动Receivers,所以在处理文件系统数据源的时候,不需要设置多个线程。
  • 将逻辑扩展...
Read article

HBASE November 22, 2018

HBase基本概念及知识点

Words count 21k Reading time 19 mins.

  • Client会县访问zookeeper,得到对应的RegionServer地址
  • Clinet对RegionServer发起请求,RegionServer接收数据写入内
  • 当MemStore的大小达到一定的值后,flush到StoreFile并存储到HDFS

HBase中的WAL(预写日志)的实现:https://www.cnblogs.com/ohuang/p/5807543.html

  • Client会先访问zookeeper,得到对应的RegionServer地址
  • Client对RegionServer...
Read article

大数据笔记 November 21, 2018

Cloudera Manager 自动化部署CDH集群

Words count 17k Reading time 16 mins.

版本说明:

Python 2.7

Ansible 2.7.2

cm-api1 9.1.1

Cloudera Manger 6.0.0

CDH Parcel 6.0.0-1.cdh6.0.0.p0.537114

部署环境:CentOS 7.3

自动化部署CDH集群主要分为两大模块:

模块一:使用Ansible部署基础环境,包括:修改hosts、互信、关闭防火墙、安装Java、安装MySQL、安装 Cloudera Manger、安装Cloudera Agent等操作。

模块二:使用Cloudera...

Read article

大数据笔记 November 09, 2018

ansible

Words count 3.8k Reading time 3 mins.

1)inventory 
该参数表示资源清单inventory文件的位置,资源清单就是一些Ansible需要连接管理的主机列表 
inventory = /root/ansible/hosts

2)library 
Ansible的操作动作,无论是本地或远程,都使用一小段代码来执行,这小段代码称为模块,这个library参数就是指向存放Ansible模块的目录 
library = /usr/share/ansible

3)forks 
设置默认情况下Ansible最多能有多少个进程同时工作,默认设置最多...
Read article

PYTHON November 07, 2018

Python基于单例模式实现具有时效性的内存缓存

Words count 5.7k Reading time 5 mins.

版本说明:Python 2.7

Python有不少第三方的缓存库,如cacheoutmemcached等。因为项目需求,这里不使用第三方库,自己实现具有时效性的内存缓存,用来缓存重复利用的数据。

1.1 思路

采用dict()作为缓存介质,数据以key、value的形式进行保存。key为cache_id,用来标识不同的缓存数据。value是要进行缓存的数据。并且使用单例的设计模式,保障缓存数据的原子性。在时效性控制上,对每一个缓存数据进行单独控制,使用threading.Timer进行延时销...

Read article

环境搭建 October 31, 2018

HBase单机伪分布式安装

Words count 6.6k Reading time 6 mins.

版本说明:

hadoop-2.7.6

zookeeper-3.4.13

hbase-2.1.0

官网地址:http://hbase.apache.org/downloads.html

1.1 下载安装包

在官网下载相应版本的安装包,这里下载的是hbase-2.1.0版本。

wget http://mirror.bit.edu.cn/apache/hbase/2.1.0/hbase-2.1.0-bin.tar.gz

1.2 解压并重命名

解压下载好的安装包

tar -zxvf hbase-2.1...
Read article
Load more
0%