Spark优化

1 HistoryServer配置及使用

要想开启spark的HistoryServer只需要修改$SPARK_HOME/conf/spark-defaults.conf文件，将spark.eventLog.enabled设置为true。

首先将spark-defaults.conf.template 重名为 spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

然后修改内容如下：

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://localhost:9000/directory

开启spark日志，并制定日志路径

开启HistorySever之后需要设置SPARK_HISTORY_OPTS相关参数，如设置端口号（spark.history.ui.port）、设置logDir（spark.history.fs.logDirectory）

修改$SPARK_HOME/conf/spark-env.sh文件，内容为：

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://localhost:9000/directory"

在$SPARK_HOME/sbin/下启动

sh start-history-server.sh

spark内存用于计算和存储两方面

>>> broadcastVar = sc.broadcast([1, 2, 3])
<pyspark.broadcast.Broadcast object at 0x102789f10>

>>> broadcastVar.value
[1, 2, 3]

移动计算