Spark本地化原则

最新推荐文章于 2025-06-04 09:23:55 发布

原创最新推荐文章于 2025-06-04 09:23:55 发布 · 514 阅读

本内容遵循CC 4.0 BY-SA版权协议

收录于

Spark

一、为什么要本地化？

数据本地化对spark的应用程序性能具有重要的影响，当数据与计算该数据的代码在一起，那应用的性能是很高的，如果数据与代码不在同一个地方，那么就要将代码移动到数据所在的节点中，因为移动代码相比较于移动数据速度要快得多。 Spark正是通过这样的原则来分配调度task的。

数据本地化的五个级别，性能递减：

Spark相关配置：

// 默认等待时间是 3s
spark.locality.wait: 3
// 扩展参数，默认值均是spark.locality.wait
spark.locality.process
spark.locality.node
spark.locality.rack

spark本地化原则调度任务原理：

spark默认是3秒等待时间，5次重试分配
若超时失败，则下降到下一个本地原则重新分配
数据发生传输时，Task首先BlockManager获取数据，若本地没有数据，则调用getRemote方法从数据所在节点BlockManager获取数据，返回至该节点

本地化原则大大提高了Spark的应用程序计算性能，我们可以通过实际经验设置超时时间，避免等待时间过短产生降级。

标签

#spark #大数据