以下是使用 IntelliJ IDEA 和 Maven 创建 Spark 项目的详细步骤:
环境准备
- 安装 IntelliJ IDEA:从 IntelliJ IDEA 官网 下载并安装最新版本。
- 安装 Maven:从 Maven 官方网站 下载并安装 Maven,安装后确保在命令行中可通过
mvn -v查看版本信息。 - 安装 JDK:安装 JDK 1.8 或更高版本。
- 安装 Scala:安装 Scala 并将
bin目录写入系统环境变量。 - 安装 Spark:下载并解压 Apache Spark。
创建 Maven 项目
- 启动 IntelliJ IDEA,选择
File > New > Project。 - 在项目类型中选择 Maven,点击
Next。 - 输入 GroupId 和 ArtifactId,例如:
- GroupId:
com.example - ArtifactId:
spark-demo
- GroupId:
- 点击
Next,选择创建项目的位置,最后点击Finish。
配置项目
- 添加 Scala 插件:
- 打开 IDEA,依次选择
File -> Settings -> Plugins。 - 点击
Install JetBrains Plugin,搜索并安装 Scala 插件。
- 打开 IDEA,依次选择
- 配置 JDK 和 Scala SDK:
- 打开
File -> Project Structure。 - 点击左侧
SDKs,添加系统安装的 JDK。 - 配置 Scala SDK:添加已安装的 Scala,并选择
Copy to Project Libraries。
- 打开
- 添加 Spark 依赖:
- 打开项目的
pom.xml文件,添加以下依赖:<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spark.version>3.3.0</spark.version> <scala.version>2.12</scala.version> </properties> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_${scala.version}</artifactId> <version>${spark.version}</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_${scala.version}</artifactId> <version>${spark.version}</version> </dependency> </dependencies>
- 打开项目的
- 创建 Scala 文件:
- 在
src/main/scala目录下创建一个名为WordCount.scala的文件,编写以下代码:import org.apache.spark.sql.SparkSession object WordCount { def main(args: Array[String]): Unit = { val spark = SparkSession.builder .master("local[*]") .appName("WordCount") .getOrCreate() val sc = spark.sparkContext val input = "path/to/input/file" val textFile = sc.textFile(input) val wordCount = textFile.flatMap(line => line.split(" ")) .map(word => (word, 1)) .reduceByKey(_ + _) wordCount.collect().foreach{ case (word, count) => println(s"$word: $count") } sc.stop() } }
- 在
运行项目
- 在 IntelliJ IDEA 中右键点击
WordCount.scala文件,选择Run 'WordCount.main()'。 - 查看运行结果,确保没有错误输出,并能正确显示单词计数结果。
通过以上步骤,你就可以在 IntelliJ IDEA 中成功创建并运行一个基于 Maven 的 Spark 项目了。



3043

被折叠的 条评论
为什么被折叠?



