Spark Streaming详解

原创于 2025-11-06 15:15:29 发布 · 1k 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#spark #大数据 #分布式

中间件同时被 2 个专栏收录

228 篇文章

订阅专栏

大数据

38 篇文章

订阅专栏

一、什么是 Spark Streaming？

Spark Streaming 是 Apache Spark 的一个组件，用于实时处理流式数据。它可以处理来自 Kafka、Flume、Kinesis、Socket 等数据源的实时数据流，并进行复杂的计算，如窗口操作、状态管理等，最后将结果输出到文件系统、数据库等。

二、核心原理与架构

1. 微批处理（Micro-batch）

Spark Streaming 的核心思想是微批处理（Micro-batch）。它将实时数据流切分成一系列小批次（batch），每个批次在 Spark 上作为一个 RDD 进行处理。这样既保证了高吞吐量，也简化了容错机制。

流程图：

数据流 → 切分为小批次 → RDD 转换/操作 → 输出结果

2. 架构图

数据源（Kafka/Socket等）
        ↓
  Receiver（接收数据）
        ↓
  DStream（离散流）
        ↓
  RDD（每个时间片的批次数据）
        ↓
  Spark Core（分布式计算）
        ↓
  输出（文件、数据库等）

三、核心概念

1. DStream（离散流）

DStream（Discretized Stream）是 Spark Streaming 的核心抽象，表示一个连续的数据流。
本质上，DStream 是一系列时间间隔内生成的 RDD 的集合。

2. Receiver

负责从外部数据源接收数据并存入 Spark 内部缓冲区。

3. Window（窗口操作）

支持对一段时间内的数据进行聚合、统计等操作。
例如统计最近 10 分钟的数据，每 1 分钟更新一次。

4. 状态管理

可以对流数据进行有状态的计算，如累计计数、会话分析等。

四、常用操作示例

1. 创建 StreamingContext

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc, 1)  # 每1秒一个batch

2. 数据接收与处理

lines = ssc.socketTextStream("localhost", 9999)
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)
wordCounts.pprint()

3. 启动与关闭

ssc.start()
ssc.awaitTermination()

4. 窗口操作

windowedWordCounts = pairs.reduceByKeyAndWindow(lambda x, y: x + y, windowDuration=60, slideDuration=10)

五、常见数据源支持

Kafka
Flume
HDFS
Socket
Kinesis
自定义数据源

六、优缺点

优点

与 Spark Core 无缝集成，易于扩展和维护。
支持复杂计算和容错机制。
支持丰富的数据源和输出方式。

缺点

微批处理带来的延迟（通常为秒级）。
对于极低延迟场景（毫秒级），不如 Flink、Storm 等纯流处理框架。

七、应用场景

实时日志分析
在线推荐系统
实时金融风控
监控报警
社交媒体分析

八、与 Structured Streaming 的关系

Spark Streaming 是早期的流处理框架，后续 Spark 推出了 Structured Streaming，提供了更强的语义、更低的延迟和更好的扩展性。建议新项目优先考虑 Structured Streaming。

九、窗口操作（Window Operations）

窗口操作允许对一段时间内的数据进行聚合、统计等操作，非常适用于实时统计、滑动计算等场景。

1. 基本窗口操作

窗口操作有两个关键参数：

windowDuration：窗口长度（如 10 分钟）
slideDuration：滑动间隔（如 1 分钟）

代码示例：

# 统计过去60秒内的单词数，每10秒更新一次
windowedWordCounts = pairs.reduceByKeyAndWindow(
    lambda x, y: x + y,
    windowDuration=60,
    slideDuration=10
)
windowedWordCounts.pprint()

2. 滚动窗口与滑动窗口

滚动窗口：slideDuration 等于 windowDuration（如每10分钟统计一次过去10分钟的数据）。
滑动窗口：slideDuration 小于 windowDuration（如每1分钟统计过去10分钟的数据）。

十、状态管理（Stateful Operations）

Spark Streaming 支持有状态的流计算，比如累计统计、会话分析等。

1. updateStateByKey

功能：根据新到来的数据更新已有状态。

代码示例：

def updateFunc(new_values, last_sum):
    return sum(new_values) + (last_sum or 0)

runningCounts = pairs.updateStateByKey(updateFunc)
runningCounts.pprint()

2. mapWithState（更高效）

适用于高并发和复杂状态场景。

from pyspark.streaming import StateSpec

def mappingFunc(batch_time, key, value, state):
    total = state.get() or 0
    if value is not None:
        total += value
        state.update(total)
    return (key, total)

stateSpec = StateSpec.function(mappingFunc)
statefulStream = pairs.mapWithState(stateSpec)
statefulStream.pprint()

十一、与 Kafka 集成

Kafka 是流式数据处理中最常用的数据源之一。Spark Streaming 可以通过官方提供的 KafkaUtils 进行集成。

1. 依赖配置

在 build.sbt 或 requirements.txt 添加相关依赖（如 spark-streaming-kafka-0-10）。

2. 读取 Kafka 数据

代码示例（Python）：

from pyspark.streaming.kafka import KafkaUtils

ssc = StreamingContext(sc, 1)
kafkaStream = KafkaUtils.createDirectStream(
    ssc, 
    topics=['test'],
    kafkaParams={"metadata.broker.list": "localhost:9092"}
)

lines = kafkaStream.map(lambda msg: msg[1])
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)
wordCounts.pprint()

3. 输出到外部系统

可以通过 foreachRDD 将结果写入数据库、HDFS、ElasticSearch 等。

def save_to_db(rdd):
    # 伪代码，实际应使用数据库连接池
    for record in rdd.collect():
        save(record)

wordCounts.foreachRDD(save_to_db)

十二、容错机制（Fault Tolerance）

数据容错：通过 WAL（Write Ahead Log）机制，将接收到的数据写入日志，实现高可靠性。
计算容错：RDD 的 lineage（血统）机制，可以自动重算丢失的数据。
检查点机制：用于保存中间状态，尤其在有状态操作（如 updateStateByKey）时，建议开启。

代码示例：

ssc.checkpoint("hdfs://namenode:8020/checkpoint_dir")

十三、性能优化建议

合理设置 batch 间隔：根据业务需求和集群性能调整 batch 间隔（如 1s、5s）。
输入数据并行度：Receiver 数量应与分区数匹配，避免数据倾斜。
资源分配：为 StreamingContext 分配足够的 CPU 和内存资源。
持久化策略：对重要的 DStream 使用持久化（如 .persist()）。
减少 shuffle 操作：尽量使用 map、filter 等窄依赖操作，减少 reduceByKey 等宽依赖操作。
使用 Direct 模式读取 Kafka：避免 Receiver 模式的性能瓶颈。

十四、常见问题与解决方案

问题	解决方案
数据延迟高	增加资源、优化 batch 间隔
数据丢失	启用 WAL 日志、检查点
任务阻塞	优化代码、提升并行度
结果不准确（状态丢失）	启用检查点、合理管理状态

十五、与 Structured Streaming 的比较

特性	Spark Streaming	Structured Streaming
处理模式	微批处理	微批/纯流处理
API	DStream/RDD	DataFrame/Dataset
延迟	秒级	毫秒到秒级
容错和一致性	支持	更强支持
状态管理	支持	更灵活、更高效
推荐应用	旧项目维护	新项目优先