入口
在 2.3.0 的Spark版本中, SparkSession是统一的入口了
//创建 SparkSession
val spark = SparkSession
.builder
.appName('MySparkApp')
.enableHiveSupport() //开启访问Hive数据, 要将hive-site.xml等文件放入Spark的conf路径
.master('local[2]')
.getOrCreate()
读取
val csv_data = spark.read.csv("file:///D:/java_workspace/fun_test.csv") //本地文件
val csv_data = spark.read.csv("hdfs:///tmp/fun_test.csv") //HDFS文件
val csv_data = spark.read.format("csv").load("hdfs:///tmp/fun_test.csv") //另一种写法
// 除了csv之外, 还有支持很多数据类型
spark.read.jdbc
spark.read.json
spark.read.orc
spark.read.parquet
spark.read.textFile
写入
csv_data.coalesce(1) //设置为一个partition, 这样可以把输出文件合并成一个文件
.write.mode(SaveMode.Overwrite)
.format("com.databricks.spark.csv")
.save("file:///D:/java_workspace/fun_test.csv")
本文介绍了在Spark 2.3.0版本中如何通过SparkSession作为统一入口进行文件的读取和写入操作,涵盖了读取与写入的基本步骤。

437

被折叠的 条评论
为什么被折叠?



