Tag: Spark - Rukey

「 SPARK 」 September 28, 2018

Spark优化

Words count 3k Reading time 3 mins.

官网地址：http://spark.apache.org/docs/latest/monitoring.html

1.1 开启HistoryServer

要想开启spark的HistoryServer只需要修改$SPARK_HOME/conf/spark-defaults.conf文件，将spark.eventLog.enabled设置为true。

首先将spark-defaults.conf.template 重名为 spark-defaults.conf

cp spark-defaults.conf...

Read article

「 SPARK 」 September 13, 2018

SparkSQL操作hive表

Words count 6.2k Reading time 6 mins.

Spark

版本说明：

Hadoop: 2.7.6

Spark: 2.3.0

Hive: 3.0.0

要想SparkSQL能后读到hive的元数据，需要将hive的配置文件hive-site.xml拷贝到Spark的conf目录下。另外，需要将mysql的jar包分别拷到hive的lib目录下和spark的jars目录下。简易下载高版本的jar包，避免不必要的错误。

进入hive命令行。创建一个以”,”作为分隔符的表，表名为hive_people，分别包含name、age、phone字段。建表语句如下所...

Read article

「 SPARK 」 September 13, 2018

Spark DataFrame列的合并和拆分

Words count 11k Reading time 10 mins.

Spark

版本说明：Spark-2.3.0

使用Spark SQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。

例如：我们有如下数据，想要将三列数据合并为一列，并以“,”分割

+----+---+-----------+
|name|age|      phone|
+----+---+-----------+
|Ming| 20|15552211521|
|hong| 19|13287994007...

Read article

「 SPARK 」 September 11, 2018

SparkSQL内置函数

Words count 8.1k Reading time 7 mins.

Spark

版本说明：spark-2.3.0

SparkSQL内置函数官网API：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24

CSDN博主整理的内置函数：https://blog.csdn.net/liam08/article/details/79663018

平常在使用mysql的时候，我们在写SQL的时候会使用到MySQL为我们提供的一些内置函数，如数函数：求绝对...

Read article

「 SPARK 」 August 31, 2018

SparkStreaming 读写Kafka

Words count 6.1k Reading time 6 mins.

Spark

版本说明

kafka：2.12-2.0.0

spark：

<spark.version>2.3.0</spark.version>

scala依赖包：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
    <version>${spark...

Read article

「 SPARK 」 August 31, 2018

Spark读写Elasticsearch

Words count 9.3k Reading time 8 mins.

Spark

版本说明

Spark:2.3.1

Elasticsearch: elasticsearch-6.4.0

1.1 依赖包

1.1.1 Spark依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>${spark.version}</version>...

Read article

「 SPARK 」 August 29, 2018

Spark运行模式

Words count 9.1k Reading time 8 mins.

官网说明：http://spark.apache.org/docs/latest/submitting-applications.html

目前spark支持的运行模式主要有Local、Standalone、Mesos、YARN、Kubernetes。这里主要记录spark在Local、Standalone、YARN环境下运行。

假如目前我们有一个简单的wordcount应用，将分别在以下环境中运行。

wordcount.py，文件路径：/Users/shirukai/Desktop/HollySys...

Read article

「 SPARK 」 August 28, 2018

PySpark实战之Spark Core核心

Words count 16k Reading time 15 mins.

RDD操作有两种：Transformation和Action

Transformation：从一个已有的RDD中创建一个新的RDD

Action：执行计算，返回一个结果

1.1 Transformations算子

Transformation	Meaning
map(func)	遍历已有的RDD中的每个元素，并应用func函数，生成新的RDD返回。
filter(func)	应用func函数过滤已有RDD的每个元素，生成新的RDD返回。
flatMap(func)	与map类似...

Read article

「 SPARK 」 August 28, 2018

Spark RDD

Words count 22k Reading time 20 mins.

Spark

概念：

一个只读且分区的数据集

RDD的优势：

高效容错

可以控制数据的分区来优化计算性能

并行处理

提供了丰富的操作数据的api

可以显示的将任何类型的中间结果存储在内存中

 * Internally, each RDD is characterized by five main properties:
 *
 *  - A list of partitions 一系列的分区/分片
 *  - A function for computing each split 一个用于计算每一个分区的函数
 *  - ...

Read article

「 SPARK 」 August 20, 2018

spark分布式计算

Words count 13k Reading time 12 mins.

Spark

分布式计算：

在每一个block所在的机器针对block数据进行计算，将结果汇总到计算master。

原则：移动计算而尽可能少的移动数据

其实就是将单台机器上的计算扩展多台机器上进行计算

spark分布式计算：

计算是怎么并行计算的？

每一个block数据块就是一个分区计算的输入数据集，对每一个block计算都是可以同时进行的，这样就达到了并行计算的目的。对于按照相同key来聚合（相同的key必须在同一个分区中）的步骤，可以根据数据的特点对数据进行重新分区。

每一步的计算怎么理解？

计算之前，我们会给每...

Read article