Spark读取与写入文件

最新推荐文章于 2026-06-24 18:42:20 发布

原创最新推荐文章于 2026-06-24 18:42:20 发布 · 1.9w 阅读

23 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

Spark

当前文章被收录于：

Spark

1 篇文章 0 人学习

订阅专栏查看详情

当前文章被以下社区和专栏收录：

本文介绍了在Spark 2.3.0版本中如何通过SparkSession作为统一入口进行文件的读取和写入操作，涵盖了读取与写入的基本步骤。

入口

在 2.3.0 的Spark版本中, SparkSession是统一的入口了

//创建 SparkSession
val spark = SparkSession
      .builder
      .appName('MySparkApp')
      .enableHiveSupport() //开启访问Hive数据, 要将hive-site.xml等文件放入Spark的conf路径
      .master('local[2]')
      .getOrCreate()

读取

val csv_data = spark.read.csv("file:///D:/java_workspace/fun_test.csv") //本地文件
val csv_data = spark.read.csv("hdfs:///tmp/fun_test.csv") //HDFS文件
val csv_data = spark.read.format("csv").load("hdfs:///tmp/fun_test.csv") //另一种写法

// 除了csv之外, 还有支持很多数据类型
spark.read.jdbc
spark.read.json
spark.read.orc
spark.read.parquet
spark.read.textFile

写入

csv_data.coalesce(1)  //设置为一个partition, 这样可以把输出文件合并成一个文件
        .write.mode(SaveMode.Overwrite) 
        .format("com.databricks.spark.csv")
        .save("file:///D:/java_workspace/fun_test.csv")