hadoop包简介-HDFS的概念

最新推荐文章于 2024-11-17 00:05:17 发布

转载最新推荐文章于 2024-11-17 00:05:17 发布 · 237 阅读

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://my.oschina.net/winHerson/blog/122787

标签

#大数据 #java #运维

本文深入解析Hadoop的各个核心组件，包括MapReduce实现、HDFS分布式文件系统、数据块存储机制，以及NameNode和DataNode的角色。同时，介绍了Hadoop生态系统中的关键工具和服务，如DistCp、FileCache、IPC、IO、Net、Security等。

Hadoop的package的介绍：

Package	Dependences
tool	提供一些命令行工具，如DistCp，archive
mapreduce	Hadoop的Map/Reduce实现
filecache	提供HDFS文件的本地缓存，用于加快Map/Reduce的数据访问速度
fs	文件系统的抽象，可以理解为支持多种文件系统实现的统一文件访问接口
hdfs	HDFS，Hadoop的分布式文件系统实现
ipc	一个简单的IPC的实现，依赖于io提供的编解码功能
io	表示层。将各种数据编码/解码，方便于在网络上传输
net	封装部分网络功能，如DNS，socket
security	用户和用户组信息
conf	系统的配置参数
metrics	系统统计数据的收集，属于网管范畴
util	工具类
record	根据DDL（数据描述语言）自动生成他们的编解码函数，目前可以提供C++和Java
http	基于Jetty的HTTP Servlet，用户通过浏览器可以观察文件系统的一些状态信息和日志
log	提供HTTP访问日志的HTTP Servlet