SPARK August 20, 2018

scala面向对象编程

Words count 6k Reading time 5 mins.

package com.hollysys.scala

/**
  *
  * @author shirukai
  * Created in 2018/6/20 上午10:33
  */

trait Animal&...
Read article

SPARK August 20, 2018

scala面向对象编程

Words count 6k Reading time 5 mins.

package com.hollysys.scala

/**
  *
  * @author shirukai
  * Created in 2018/6/20 上午10:33
  */

trait Animal{
  def eat()
}
trait AnbleRun{
  def run() = {
    println("很正常的跑")
  }
}

class Dog extends Animal with AnbleRun {
  ...
Read article

SPARK August 19, 2018

创建DataFrame的几种方式

Words count 8.4k Reading time 8 mins.

如要生成如下的DataFrame数据

+----+---+-----------+
|name|age|      phone|
+----+---+-----------+
|ming| 20|15552211521|
|hong| 19|13287994007|
| zhi| 21|15552211523|
+----+---+-----------+

第一种:通过Seq生成

val spark = SparkSession
  .builder()
  .appName(this.getClass.getSimpleName...
Read article

SPARK August 19, 2018

sparkML特征向量合并和拆分

Words count 3.9k Reading time 4 mins.

VectorAssembler(特征向量合并)是spark ml包里提供的算法, 但是对于向量拆分,官方没有听方法,这里从GitHub上看到一个向量拆分的算法,一起贴出来学习研究。

摘录官网翻译:

VectorAssembler 是将给定的一系列的列合并到单个向量列中的transformer。它可以将原始特征和不同特征transformers(转换器)生成的特征合并为单个特征向量,来训练ML模型,如逻辑回归和决策树等机器学习算法。

VectorAssembler可以接受一下的输入类型:所有值类型...

Read article
0%