SparkStructuredStreaming状态编程

原创已于 2024-05-06 17:25:46 修改 · 618 阅读

·

3

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#spark

于 2024-05-06 17:22:12 首次发布

本文详细介绍了Spark状态编程在处理流计算中复杂需求的应用，如超出窗口时间范围的再生事件检测。作者通过实例说明了为何常规窗口函数不足以应对，并展示了如何利用状态存储关键信息来解决问题。

spark官网关于spark有状态编程介绍比较少，本文是一篇个人理解关于spark状态编程。

官网关于状态编程代码例子:

spark/examples/src/main/scala/org/apache/spark/examples/sql/streaming/StructuredComplexSessionization.scala at v3.5.0 · apache/spark (github.com)

一般的流计算使用窗口函数可以解决大部分问题，但是一些比较复杂的业务，窗口函数无法解决，比如需要的数据范围大于你设定的时间窗口，那么就需要状态编程处理中间状态。

案例：

数据一秒一条被spark消费，我需要找到的绿色部分代表再生（再生开始PFltRgn_stRgnActv，PFltRgn_stRgnActvHld变为两个1，再生结束变为两个0），我需要知道PFltRgn_ctRgnSuc再生阶段变化是否大于等于2（true: 意味再生成功）

如果开一个5s滚动窗口（红色框框），窗口内无法解决这个需求，那么我就需要记录每个窗口中当符合再生条件（绿色）PFltRgn_ctRgnSuc的最小值和最大值（这个就是中间状态）

代码调试中：.....

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。