BigData大数据应用开发学习笔记(04)离线处理--离线分析Spark SQL

最新推荐文章于 2026-06-23 17:19:41 发布

原创

最新推荐文章于 2026-06-23 17:19:41 发布 · 422 阅读

·

5

·

标签

#大数据

BigData大数据应用开发学习笔记(04)离线处理--离线分析Spark SQL

一.离线批处理特点
处理时间要求不高、数据量巨大、数据格式多样、占用计算存储资源多
MR作业，Spark作业，HSQL作业实现
数据源：流式数据、文件数据、数据库
数据采集：实时采集(Flume、第三方采集)，批量采集(Flume、Sqoop、第三方ETL)
离线批处理引擎：HDFS，Yarn，MapReduce，Hive，Spark，Spark SQL
业务应用：数据集市，数据仓库(交互式分析)，专题库

离线批处理常用组件:
HDFS: 分布式文件系统，为各种批处理引擎提供数据存储，可以存储各种文件格式数据。
YARN: 资源调度引擎，为各种批处理引擎提供资源调度能力。
MapReduce: 大数据批处理引擎，用于处理海量数据，但是处理速度较慢。
Hive: 大数据SQL批处理引擎，用于处理SQL类批处理作业，但是处理速度较慢。
Spark: 基于内存的数据处理引擎，适合海量数据，处理速度高效。
Spark SQL: Spark处理结构化数据的一个模块。

二.Spark
1.Spark简介
Spark是基于内存的分布式批处理系统，任务拆分分配到多个CPU上进行处理，处理数据的中间产物(处理结果)存放在内存中，减少磁盘I/O，提升处理速度，在数据处理和数据挖掘方面比较占优势。

2.Spark应用场景
数据处理(Data Processing)：快速处理数据，兼具容错性和可扩展性
迭代计算(Iterative Computa

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

软件开发明哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。