目前在做Spark开发,所用到的参考资料便是Spark: The Definitive Guide。目前暂时没有中文版,为了记录学习和工作的过程,顺便等待中文版的推出,便将每章节的学习过程总结下来,以加深印象。
前6章不再赘述,前面的技术大牛已经翻译和整理笔记完毕,下面放出地址:
1-6章以及部分12章RDD翻译 by: 刺客五六柒
Spark: The Definitive Guide 2019中文版-开源翻译项目
4-6章以及部分7章学习笔记 by: lzw2016
《Spark: The Definitive Guide 》Spark权威指南学习计划
该书的源码及数据集已经在Github中:
https://github.com/databricks/Spark-The-Definitive-Guide
在目前的开发过程中涉及到最主要的是7-9章,及从不同的数据源获取数据和对已处理好的DF或者RDD进行操作。我将着重在这三章整理笔记。接下来会拓展更多章节。
第10章以及12-14章将会记录,同时流处理的20-23章也会记录.
点击如下链接会跳转到简书
目前暂时发表于简书
目录
- 大数据和Spark概述
Chapter 1 to 2:了解Apache Spark
Chapter 3:了解Spark的工具集 - 结构化API——DataFrames, SQL, and Datasets
Chapter 4:结构化API预览
Chapter 5:基本结构化API操作


754

被折叠的 条评论
为什么被折叠?



