「 SPARK 」
September 13, 2018
Words count
6.2k
Reading time
6 mins.
版本说明:
Hadoop: 2.7.6
Spark: 2.3.0
Hive: 3.0.0
要想SparkSQL能后读到hive的元数据,需要将hive的配置文件hive-site.xml拷贝到Spark的conf目录下。另外,需要将mysql的jar包分别拷到hive的lib目录下和spark的jars目录下。简易下载高版本的jar包,避免不必要的错误。
进入hive命令行。创建一个以”,”作为分隔符的表,表名为hive_people,分别包含name、age、phone字段。建表语句如下所...
Read article
「 SPARK 」
September 13, 2018
Words count
11k
Reading time
10 mins.
版本说明:Spark-2.3.0
使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。
例如:我们有如下数据,想要将三列数据合并为一列,并以“,”分割
+----+---+-----------+
|name|age| phone|
+----+---+-----------+
|Ming| 20|15552211521|
|hong| 19|13287994007...
Read article
「 SPARK 」
September 11, 2018
Words count
8.1k
Reading time
7 mins.
「 SPARK 」
August 31, 2018
Words count
6.1k
Reading time
6 mins.
版本说明
kafka:2.12-2.0.0
spark:
<spark.version>2.3.0</spark.version>
scala依赖包:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
<version>${spark...
Read article
「 SPARK 」
August 31, 2018
Words count
9.3k
Reading time
8 mins.
版本说明
Spark:2.3.1
Elasticsearch: elasticsearch-6.4.0
1.1 依赖包
1.1.1 Spark依赖
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>...
Read article
「 SPARK 」
August 28, 2018
Words count
16k
Reading time
15 mins.
RDD操作有两种:Transformation和Action
Transformation:从一个已有的RDD中创建一个新的RDD
Action:执行计算,返回一个结果
Transformation |
Meaning |
map(func) |
遍历已有的RDD中的每个元素,并应用func函数,生成新的RDD返回。 |
filter(func) |
应用func函数过滤已有RDD的每个元素,生成新的RDD返回。 |
flatMap(func) |
与map类似... |
Read article
「 SPARK 」
August 28, 2018
Words count
22k
Reading time
20 mins.
概念:
一个只读且分区的数据集
RDD的优势:
高效容错
可以控制数据的分区来优化计算性能
并行处理
提供了丰富的操作数据的api
可以显示的将任何类型的中间结果存储在内存中
* Internally, each RDD is characterized by five main properties:
*
* - A list of partitions 一系列的分区/分片
* - A function for computing each split 一个用于计算每一个分区的函数
* - ...
Read article
「 SPARK 」
August 20, 2018
Words count
13k
Reading time
12 mins.
分布式计算:
在每一个block所在的机器针对block数据进行计算,将结果汇总到计算master。
原则:移动计算而尽可能少的移动数据
其实就是将单台机器上的计算扩展多台机器上进行计算
spark分布式计算:
计算是怎么并行计算的?
每一个block数据块就是一个分区计算的输入数据集,对每一个block计算都是可以同时进行的,这样就达到了并行计算的目的。对于按照相同key来聚合(相同的key必须在同一个分区中)的步骤,可以根据数据的特点对数据进行重新分区。
每一步的计算怎么理解?
计算之前,我们会给每...
Read article