SPARK September 11, 2018

SparkSQL内置函数

Words count 8.1k Reading time 7 mins.

版本说明:spark-2.3.0

SparkSQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache...

Read article

SPARK September 11, 2018

SparkSQL内置函数

Words count 8.1k Reading time 7 mins.

版本说明:spark-2.3.0

SparkSQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24

CSDN博主整理的内置函数:https://blog.csdn.net/liam08/article/details/79663018

平常在使用mysql的时候,我们在写SQL的时候会使用到MySQL为我们提供的一些内置函数,如数函数:求绝对...

Read article

SPRING September 10, 2018

Sprinboot整合Quartz实现定时任务调度管理

Words count 95k Reading time 1:27

版本说明:

springboot版本:2.0.0.RELEASE

quartz版本:2.3.0

github地址:https://github.com/shirukai/quartz-demo.git

Quartz官网:http://www.quartz-scheduler.org/

Quartz是一款开源的定时任务调度框架,本文主要记录一下在工作中使用springboot整合quartz实现定时任务调度管理的用例。内容主要有:springboot整合quartz相关配置、实现基于simpleTrigger...

Read article

SPRING September 05, 2018

springboot项目启动自动执行方法

Words count 4.3k Reading time 4 mins.

平时项目里可能会遇到,在启动项目的时候,需要进行初始化操作,如执行一段SQL脚本,或者提前对一些类进行实例化。这时候可以使用ApplicationRunner接口进行操作。下面将从初始化执行SQL脚本为例,记录在项目中应用ApplicationRunner的方法。

在项目resources目录下存放我们将要初始化的sql脚本,内容如下:

create_table_sql.sql

-- 创建模型表
CREATE TABLE IF NOT EXISTS `model`(
  `modelKey` VARCHAR...
Read article

SPARK August 31, 2018

SparkStreaming 读写Kafka

Words count 6.1k Reading time 6 mins.

版本说明

kafka:2.12-2.0.0

spark:

<spark.version>2.3.0</spark.version>

scala依赖包:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
    <version>${spark...
Read article

SPARK August 31, 2018

Spark读写Elasticsearch

Words count 9.3k Reading time 8 mins.

版本说明

Spark:2.3.1

Elasticsearch: elasticsearch-6.4.0

1.1 依赖包

1.1.1 Spark依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>${spark.version}</version>...
Read article

环境搭建 August 31, 2018

Elasticsearch与Kibana部署及使用

Words count 6.5k Reading time 6 mins.

安装环境

Mac OS 适用于Linux

版本说明

Elasticsearch:6.4.0

Kibana:6.4.0

官网:https://www.elastic.co/

1.1 下载Elasticsearch

下载地址:https://www.elastic.co/downloads/elasticsearch

选择系统环境相应版本进行下载,这里下载Mac 6.4.0版本(Linux通用)

wget https://artifacts.elastic.co/downloads/elasticsearch...
Read article

AZKABAN August 30, 2018

azkaban环境搭建

Words count 17k Reading time 16 mins.

版本说明:

jdk:1.8.0_151

ant: 1.10.2

mysql:5.1

node:8.5.0

安装JDK

官网下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

下载jdk-8u151-linux-x64.tar.gz并复制到 /usr/lib目录下重命名为java

解压

tar -zxvf jdk-8u151-linux-x64.tar.gz

配置环境变量

... Read article

环境搭建 August 30, 2018

CentOS下部署zookeeper集群

Words count 8.2k Reading time 7 mins.

版本:zookeeper-3.4.13

1.1 准备三台机器

机器信息如下:

hostname ip 端口
master.hadoop.com 192.168.162.180 2181/2881/3881
slave1.hadoop.com 192.168.162.181 2181/2881/3881
slave2.hadoop.com 192.168.162.182 2181/2881/3881

按照上面信息分别修改hostname

vi /etc/hostname 

并...

Read article

SPARK August 29, 2018

Spark运行模式

Words count 9.1k Reading time 8 mins.

官网说明:http://spark.apache.org/docs/latest/submitting-applications.html

目前spark支持的运行模式主要有Local、Standalone、Mesos、YARN、Kubernetes。这里主要记录spark在Local、Standalone、YARN环境下运行。

假如目前我们有一个简单的wordcount应用,将分别在以下环境中运行。

wordcount.py,文件路径:/Users/shirukai/Desktop/HollySys...

Read article

SPARK August 28, 2018

PySpark实战之Spark Core核心

Words count 16k Reading time 15 mins.

RDD操作有两种:Transformation和Action

Transformation:从一个已有的RDD中创建一个新的RDD

Action:执行计算,返回一个结果

1.1 Transformations算子

Transformation Meaning
map(func) 遍历已有的RDD中的每个元素,并应用func函数,生成新的RDD返回。
filter(func) 应用func函数过滤已有RDD的每个元素,生成新的RDD返回。
flatMap(func) 与map类似...
Read article
Load more
0%