「 大数据笔记 」
October 26, 2018
Words count
38k
Reading time
34 mins.
版本说明:CDH 5.11.0
API版本:v16
在使用REST API 访问 CDH Manager 提供的相关接口的时候,需要进行权限认证。认证的类型是 Basic Auth。在java编程中将如下所示生成authorization,然后将该认证信息添加到请求头信息中即可。
private static String generateAuth(String userName, String password) {
return "Basic " + new...
Read article
「 大数据笔记 」
October 13, 2018
Words count
6.3k
Reading time
6 mins.
摘自《Hadoop权威指南》
在单个操作中处理一批文件,这是一个常见要求,举例来说,处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举每个文件和目录来指定输入,该操作称为“通配符”(globbing)。Spark读取文件时,也可以使用通配符去匹配文件,直接在文件路径里使用通配符表达式即可。Hadoop 为执行统配提供了两个FileSystem方法:
public FileStatus[] globStatus...
Read article
「 LINUX 」
October 12, 2018
Words count
4.5k
Reading time
4 mins.
删除某个目录下,所有子目录中包含指定字符的文件或者文件夹
例如删除 包含“index”的文件或目录
find * | grep index* | xargs rm
查看yum已安装的软件模糊查询
yum list | grep 关键字*
建立软链接
ln -s 连接地址 目录名
shell远程登录另一台主机,并执行命令
#!/bin/bash
echo "================集群启动……====================="
echo "启...
Read article
「 SPARK 」
October 09, 2018
Words count
4.8k
Reading time
4 mins.
「 SPARK 」
September 13, 2018
Words count
6.2k
Reading time
6 mins.
版本说明:
Hadoop: 2.7.6
Spark: 2.3.0
Hive: 3.0.0
要想SparkSQL能后读到hive的元数据,需要将hive的配置文件hive-site.xml拷贝到Spark的conf目录下。另外,需要将mysql的jar包分别拷到hive的lib目录下和spark的jars目录下。简易下载高版本的jar包,避免不必要的错误。
进入hive命令行。创建一个以”,”作为分隔符的表,表名为hive_people,分别包含name、age、phone字段。建表语句如下所...
Read article
「 SPARK 」
September 13, 2018
Words count
11k
Reading time
10 mins.
版本说明:Spark-2.3.0
使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。
例如:我们有如下数据,想要将三列数据合并为一列,并以“,”分割
+----+---+-----------+
|name|age| phone|
+----+---+-----------+
|Ming| 20|15552211521|
|hong| 19|13287994007...
Read article