SPARK September 28, 2018

Spark优化

Words count 3k Reading time 3 mins.

官网地址:http://spark.apache.org/docs/latest/monitoring.html

1.1 开启HistoryServer

要想开启spark的HistoryServer只...

Read article

SPARK September 28, 2018

Spark优化

Words count 3k Reading time 3 mins.

官网地址:http://spark.apache.org/docs/latest/monitoring.html

1.1 开启HistoryServer

要想开启spark的HistoryServer只需要修改$SPARK_HOME/conf/spark-defaults.conf文件,将spark.eventLog.enabled设置为true。

首先将spark-defaults.conf.template 重名为 spark-defaults.conf

cp spark-defaults.conf...
Read article

SPARK September 13, 2018

SparkSQL操作hive表

Words count 6.2k Reading time 6 mins.

版本说明:

Hadoop: 2.7.6

Spark: 2.3.0

Hive: 3.0.0

要想SparkSQL能后读到hive的元数据,需要将hive的配置文件hive-site.xml拷贝到Spark的conf目录下。另外,需要将mysql的jar包分别拷到hive的lib目录下和spark的jars目录下。简易下载高版本的jar包,避免不必要的错误。

进入hive命令行。创建一个以”,”作为分隔符的表,表名为hive_people,分别包含name、age、phone字段。建表语句如下所...

Read article

SPARK September 13, 2018

Spark DataFrame列的合并和拆分

Words count 11k Reading time 10 mins.

版本说明:Spark-2.3.0

使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。

例如:我们有如下数据,想要将三列数据合并为一列,并以“,”分割

+----+---+-----------+
|name|age|      phone|
+----+---+-----------+
|Ming| 20|15552211521|
|hong| 19|13287994007...
Read article

SPARK September 11, 2018

SparkSQL内置函数

Words count 8.1k Reading time 7 mins.

版本说明:spark-2.3.0

SparkSQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24

CSDN博主整理的内置函数:https://blog.csdn.net/liam08/article/details/79663018

平常在使用mysql的时候,我们在写SQL的时候会使用到MySQL为我们提供的一些内置函数,如数函数:求绝对...

Read article

SPARK August 31, 2018

SparkStreaming 读写Kafka

Words count 6.1k Reading time 6 mins.

版本说明

kafka:2.12-2.0.0

spark:

<spark.version>2.3.0</spark.version>

scala依赖包:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
    <version>${spark...
Read article

SPARK August 31, 2018

Spark读写Elasticsearch

Words count 9.3k Reading time 8 mins.

版本说明

Spark:2.3.1

Elasticsearch: elasticsearch-6.4.0

1.1 依赖包

1.1.1 Spark依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>${spark.version}</version>...
Read article

SPARK August 29, 2018

Spark运行模式

Words count 9.1k Reading time 8 mins.

官网说明:http://spark.apache.org/docs/latest/submitting-applications.html

目前spark支持的运行模式主要有Local、Standalone、Mesos、YARN、Kubernetes。这里主要记录spark在Local、Standalone、YARN环境下运行。

假如目前我们有一个简单的wordcount应用,将分别在以下环境中运行。

wordcount.py,文件路径:/Users/shirukai/Desktop/HollySys...

Read article

SPARK August 28, 2018

PySpark实战之Spark Core核心

Words count 16k Reading time 15 mins.

RDD操作有两种:Transformation和Action

Transformation:从一个已有的RDD中创建一个新的RDD

Action:执行计算,返回一个结果

1.1 Transformations算子

Transformation Meaning
map(func) 遍历已有的RDD中的每个元素,并应用func函数,生成新的RDD返回。
filter(func) 应用func函数过滤已有RDD的每个元素,生成新的RDD返回。
flatMap(func) 与map类似...
Read article

SPARK August 28, 2018

Spark RDD

Words count 22k Reading time 20 mins.

概念:

一个只读且分区的数据集

RDD的优势:

高效容错

可以控制数据的分区来优化计算性能

并行处理

提供了丰富的操作数据的api

可以显示的将任何类型的中间结果存储在内存中

 * Internally, each RDD is characterized by five main properties:
 *
 *  - A list of partitions 一系列的分区/分片
 *  - A function for computing each split 一个用于计算每一个分区的函数
 *  - ...
Read article

SPARK August 20, 2018

spark分布式计算

Words count 13k Reading time 12 mins.

分布式计算:

在每一个block所在的机器针对block数据进行计算,将结果汇总到计算master。

原则:移动计算而尽可能少的移动数据

其实就是将单台机器上的计算扩展多台机器上进行计算

spark分布式计算:

计算是怎么并行计算的?

每一个block数据块就是一个分区计算的输入数据集,对每一个block计算都是可以同时进行的,这样就达到了并行计算的目的。对于按照相同key来聚合(相同的key必须在同一个分区中)的步骤,可以根据数据的特点对数据进行重新分区。

每一步的计算怎么理解?

计算之前,我们会给每...

Read article
Load more
0%