「 NIFI 」
August 20, 2018
Words count
7.6k
Reading time
7 mins.
一个易于使用,功能强大且可靠的系统来处理和分发数据。
Apache NiFi支持强大且可扩展的数据路由,转换和系统中介逻辑的有向图。Apache NiFi的一些高级功能和目标包括:
- 基于Web的用户界面
- 高度可配置
- 容忍损失与保证交付
- 低延迟vs高吞吐量
- 动态优先化
- 流量可以在运行时修改
- 背压
- 数据来源
- 为扩展而设计
- 安全
- SSL,SSH,HTTPS,加密内容等…
- 多租...
Read article
「 KAFKA 」
August 20, 2018
Words count
19k
Reading time
17 mins.
kafka是一个分布式流式数据平台,具备以下三个特点:
- 类似消息系统,提供事件流的发布和订阅,即具备数据注入功能
- 存储时间流数据的几点具有故障容错的特点,即具备数据存储功能
- 能够对实时的事件流进行流式地处理和分析,即具备流处理功能
kafka通常用户两大类应用:
- 构建可在系统或应用程序之间可靠获取数据的实时流数据管道
- 构建实时流应用程序,用户转换或相应数据流
与kafka相关的概念:
- kafka作为一个集群运行在一台或多台可以跨越多个数据中心的服务器上
- kafka集群在称为主题的类别中存储记...
Read article
「 KAFKA 」
August 20, 2018
Words count
2.2k
Reading time
2 mins.
-daemon表示在后台运行。
- bin目录提供了一个关闭脚本,但好像有问题;
- 可以通过 kill -s TERM $pid 来关闭。
$pid表示...
Read article
「 JAVA 」
August 20, 2018
Words count
13k
Reading time
12 mins.
Java提供的众多集合类由两大接口衍生而来:Collection接口和Map接口
Collection接口定义了一个包含一批对象的集合。接口的主要方法包括:
- size() - 集合内的对象数量
- add(E)/addAll(Collection) - 向集合内添加单个/批量对象
- remove(Object)/removeAll(Collection) - 从集合内删除单个/批量对象
- contains(Object)/containsAll(Collection) - 判断集合中是否存在某个/某些...
Read article
「 JAVA 」
August 20, 2018
Words count
4.4k
Reading time
4 mins.
什么是流?
流是一个抽象出来的概念,具体说是对[输入/输出]设备的抽象(内存、网络、磁盘),对系统读写API的封装,对外提供数据操作接口
基本概念
流:数据在文件和程序(内存)之间经历的路径
输入流:数据从文件到程序(内存)的路径
输出流:数据从程序(内存)到文件的路径
根据处理数据类型的不同可以分为:字节流(抽象基类为InputStream和OutputStream)和字符流(抽象基类为Reader和Writer)根据流向不同可以分为:输入流、输出流,其中主要结构可以用下图来表示:
字符流和字节流的主...
Read article
「 JAVA 」
August 20, 2018
Words count
4.4k
Reading time
4 mins.
java多线程主要体现在Thread这个类和Runnable这个接口上。他们里面都有一个共同的方法run()
Thread常用方法
创建线程的两种方法
第一个是继承Thread类
public class Actor extends Thread{
@Override
public void run() {
//TO-DO 线程要执行的方法
}
public static void main(String[] args){
Thread actor = new...
Read article
「 HADOOP 」
August 20, 2018
Words count
4k
Reading time
4 mins.
zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步,实现这个机制的协议叫做Zab协议。Zab协议有两种模式,分别是恢复模式(选主)和广播模式(同步)。当服务器启动或者leader崩溃以后Zab进入恢复模式,当leader被选举出来以后,然后进行同步模式。
zxid:是一个64位的数字,高32位是epoch,用来标志leader关系是否改变了,每一次新的leader选出来以后,都会有一个新的epoch。低32位用来递增计数。zxid越大,表示数据越新。
serverid:...
Read article
「 HADOOP 」
August 20, 2018
Words count
6k
Reading time
5 mins.
首先要有一个配置好的Hadoop集群
这里是我在SSM框架搭建的项目的测试类中实现的
下载文件并解压到C盘或者其他目录。
链接:http://pan.baidu.com/s/1jHHPElg 密码:aufd
配置环境变量
1.配置HADOOP_HOME
2.配置PATH
在PATH中添加
%HADOOP_HOME%\bin
3.配置HADOOP_USER_NAME
这是Hadoop集群的用户名
HADOOP_USER_NAME root
<!--hadoop依赖-->
<dependency...
Read article
「 HADOOP 」
August 20, 2018
Words count
20k
Reading time
19 mins.
windows环境:IntelliJ IDEA 2017.2.3、JRE: 1.8.0_152-release-915-b11 、hadoop-2.7.4.tar.gz、hadoop-common-2.2.0-bin-master.rar
1.解压hadoop-2.7.4.tar.gz到c盘(或者任意目录)
解压hadoop-2.7.4.tar.gz到C盘,路径为:C:\hadoop-2.7.4
解压 hadoop-common-2.2.0-bin-master.rar 并复制bin目录下所有的文...
Read article
「 HADOOP 」
August 20, 2018
Words count
16k
Reading time
14 mins.
查看已有表:
0: jdbc:hive2://localhost:10000> show tables;
+----------------------+
| tab_name |
+----------------------+
| bucket_table |
| external_student |
| partition_table |
| person |
| sample_data |
| student |
| student1 |
| student4 |
| t1 |
|...
Read article