NIFI August 20, 2018

nifi学习记录

Words count 7.6k Reading time 7 mins.

一个易于使用,功能强大且可靠的系统来处理和分发数据。

Apache NiFi支持强大且可扩展的数据路由,转换和系统中介逻辑的有向图。Apache NiFi的一些高级功能和目标包括:

  • 基于Web的...
Read article

NIFI August 20, 2018

nifi学习记录

Words count 7.6k Reading time 7 mins.

一个易于使用,功能强大且可靠的系统来处理和分发数据。

Apache NiFi支持强大且可扩展的数据路由,转换和系统中介逻辑的有向图。Apache NiFi的一些高级功能和目标包括:

  • 基于Web的用户界面
    • 设计,控制,反馈和监控之间的无缝体验
  • 高度可配置
    • 容忍损失与保证交付
    • 低延迟vs高吞吐量
    • 动态优先化
    • 流量可以在运行时修改
    • 背压
  • 数据来源
    • 跟踪数据流从头到尾
  • 为扩展而设计
    • 建立你自己的处理器等等
    • 实现快速开发和有效测试
  • 安全
    • SSL,SSH,HTTPS,加密内容等…
    • 多租...
Read article

KAFKA August 20, 2018

kafka官网文档学习

Words count 19k Reading time 17 mins.

kafka是一个分布式流式数据平台,具备以下三个特点:

  • 类似消息系统,提供事件流的发布和订阅,即具备数据注入功能
  • 存储时间流数据的几点具有故障容错的特点,即具备数据存储功能
  • 能够对实时的事件流进行流式地处理和分析,即具备流处理功能

kafka通常用户两大类应用:

  • 构建可在系统或应用程序之间可靠获取数据的实时流数据管道
  • 构建实时流应用程序,用户转换或相应数据流

与kafka相关的概念:

  • kafka作为一个集群运行在一台或多台可以跨越多个数据中心的服务器上
  • kafka集群在称为主题的类别中存储记...
Read article

KAFKA August 20, 2018

Kafka基本操作

Words count 2.2k Reading time 2 mins.

  • 需要启动zookeeper,因为kafka会将topic信息写入zookeeper的brokers目录;
  • config/server.properties文件至少需要配置zookeeper信息;
  • 通过
    bin/kafka-server-start.sh -daemon config/server.properties 
    
    启动kafka。

-daemon表示在后台运行。

  • bin目录提供了一个关闭脚本,但好像有问题;
  • 可以通过 kill -s TERM $pid 来关闭。

$pid表示...

Read article

JAVA August 20, 2018

Java集合框架中的常用集合及其特点、使用场景、实现原理

Words count 13k Reading time 12 mins.

Java提供的众多集合类由两大接口衍生而来:Collection接口和Map接口

Collection接口定义了一个包含一批对象的集合。接口的主要方法包括:

  • size() - 集合内的对象数量
  • add(E)/addAll(Collection) - 向集合内添加单个/批量对象
  • remove(Object)/removeAll(Collection) - 从集合内删除单个/批量对象
  • contains(Object)/containsAll(Collection) - 判断集合中是否存在某个/某些...
Read article

JAVA August 20, 2018

java_IO编程

Words count 4.4k Reading time 4 mins.

什么是流?

流是一个抽象出来的概念,具体说是对[输入/输出]设备的抽象(内存、网络、磁盘),对系统读写API的封装,对外提供数据操作接口

基本概念

流:数据在文件和程序(内存)之间经历的路径
输入流:数据从文件到程序(内存)的路径
输出流:数据从程序(内存)到文件的路径

根据处理数据类型的不同可以分为:字节流(抽象基类为InputStream和OutputStream)和字符流(抽象基类为Reader和Writer)根据流向不同可以分为:输入流、输出流,其中主要结构可以用下图来表示:

字符流和字节流的主...

Read article

JAVA August 20, 2018

java多线程

Words count 4.4k Reading time 4 mins.

java多线程主要体现在Thread这个类和Runnable这个接口上。他们里面都有一个共同的方法run()

Thread常用方法

创建线程的两种方法

第一个是继承Thread类

public class Actor extends Thread{
    @Override
    public void run() {
    //TO-DO 线程要执行的方法
    }
    public static void  main(String[] args){
        Thread actor = new...
Read article

HADOOP August 20, 2018

zookeeper工作原理

Words count 4k Reading time 4 mins.

zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步,实现这个机制的协议叫做Zab协议。Zab协议有两种模式,分别是恢复模式(选主)和广播模式(同步)。当服务器启动或者leader崩溃以后Zab进入恢复模式,当leader被选举出来以后,然后进行同步模式。

zxid:是一个64位的数字,高32位是epoch,用来标志leader关系是否改变了,每一次新的leader选出来以后,都会有一个新的epoch。低32位用来递增计数。zxid越大,表示数据越新。

serverid:...

Read article

HADOOP August 20, 2018

java接口对hadoop集群进行操作

Words count 6k Reading time 5 mins.

首先要有一个配置好的Hadoop集群

这里是我在SSM框架搭建的项目的测试类中实现的

下载文件并解压到C盘或者其他目录。

链接:http://pan.baidu.com/s/1jHHPElg 密码:aufd

配置环境变量

1.配置HADOOP_HOME

2.配置PATH

在PATH中添加

%HADOOP_HOME%\bin

3.配置HADOOP_USER_NAME

这是Hadoop集群的用户名

HADOOP_USER_NAME root
    <!--hadoop依赖-->
    <dependency...
Read article

HADOOP August 20, 2018

IDEA向hadoop集群提交MapReduce作业

Words count 20k Reading time 19 mins.

windows环境:IntelliJ IDEA 2017.2.3、JRE: 1.8.0_152-release-915-b11 、hadoop-2.7.4.tar.gz、hadoop-common-2.2.0-bin-master.rar

1.解压hadoop-2.7.4.tar.gz到c盘(或者任意目录)

解压hadoop-2.7.4.tar.gz到C盘,路径为:C:\hadoop-2.7.4

解压 hadoop-common-2.2.0-bin-master.rar 并复制bin目录下所有的文...

Read article

HADOOP August 20, 2018

hive学习之修改表、分区、列

Words count 16k Reading time 14 mins.

查看已有表:

0: jdbc:hive2://localhost:10000> show tables;
+----------------------+
|       tab_name       |
+----------------------+
| bucket_table         |
| external_student     |
| partition_table      |
| person               |
| sample_data          |
| student              |
| student1             |
| student4             |
| t1                   |
|...
Read article
Load more
0%