「 SPARK 」
August 24, 2020
Words count
49k
Reading time
45 mins.
版本说明:Spark 2.4
在使用StructuredStreaming的时候,我们可能会遇到在不重启Spark应用的情况下动态的更新参数,如:动态更新某个过滤条件、动态更新分区数量、动态更新join的静态数据等。在工作中,遇到了一个应用场景,是实时数据与静态DataFrame去Join,然后做一些处理,但是这个静态DataFrame偶尔会发生变化,要求在不重启Spark应用的前提下去动态更新。目前总结了两种解决方案,一种是基于重写数据源的动态更新,另一种是重启Query的动态更新,下面将...
Read article
「 SPARK 」
August 24, 2020
Words count
51k
Reading time
46 mins.
版本说明:Spark2.4
前言
最近基于Spark Structured Streaming开发一套实时数据判别清洗系统,在开发过程接触了一些StructuredStreaming的新特性以及新用法。本文主要记录一下在开发过程中使用到的技术点,以及遇到的问题总结。
关于当时项目技术选型最终选择StructuredStreaming的原因,主要是因为团队具有Spark开发经验且Structured 比Spark Streaming具有基于事件时间处理机制。这里简单对Spark Streaming...
Read article
「 SPARK 」
June 11, 2019
Words count
30k
Reading time
28 mins.
版本说明:
Spark 2.3.0
Kafka 2.11-2.0.0
在项目中,SparkStreaming整合Kafka时,通常Kafka发送的数据是以JSON字符串形式发送的,这里总结了五种SparkStreaming解析Kafka中JSON格式数据并转为DataFrame进行数据分析的方法。
需求:将如下JSON格式的数据
转成如下所示的DataFrame
随机生成如上图所示的JSON格式的数据,并将它发送到Kafka。造数器脚本代码如下所示:
kafka_data_generator...
Read article
「 SPARK 」
March 01, 2019
Words count
13k
Reading time
12 mins.
版本说明:Spark2.3
为保证多个Batch之间能够进行有状态的计算,SparkStreaming在1.6版本之前就引入了updateStateByKey的状态管理机制,在1.6之后又引入了mapWithState的状态管理机制。关于SparkStreaming的updateStateByKey和mapWithState的以查看《Spark-Streaming 状态管理应用优化之路》。StructuredStreaming原本就是有状态的计算,这里我主要记录一下在StructuredStreaming...
Read article
「 SPARK 」
February 02, 2019
Words count
30k
Reading time
28 mins.
版本说明:Spark 2.3
前言:之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用,总的来说SparkSQL支持的数据源还是挺丰富的,但业务上可能不拘束于这几种数据源,比如将HBase作为SparkSQL的数据源,REST数据源等。这里主要讲一下在Spark2.3版本之后推出的DataSourceV2,基于DataSourceV2实现自定义数据源
自Spark1.3版本之后,引入了数据源API,我们可以实现自定义数据源。2.3版本之后又引入的新版API,关于...
Read article
「 SPARK 」
January 29, 2019
Words count
41k
Reading time
38 mins.
「 SPARK 」
January 28, 2019
Words count
35k
Reading time
32 mins.
SparkStreaming可以处理多种数据源,比如从socket里获取数据流,从文件系统获取数据流,从Flume获取数据流、从Kafka里获取数据流等。
需要注意的是:
- SparkStreaming 在处理socket、flume、kafka、Kinesis数据源的时候,本地模式下不能用以local、或者local[1]运行,因为需要启动一个线程运行Receivers来接收数据。读取文件系统的时候,不需要启动Receivers,所以在处理文件系统数据源的时候,不需要设置多个线程。
- 将逻辑扩展...
Read article
「 SPARK 」
October 09, 2018
Words count
4.8k
Reading time
4 mins.