评测概述

Hadoop是Apache 基金会主导的开源分布式存储与计算框架,专为海量结构化、半结构化及非结构化数据的存储、处理与分析设计。Hadoop核心目标是通过集群化部署普通服务器,构建高可用、高扩展的分布式系统,突破单机在存储容量、计算性能上的限制,实现低成本、高效能的大数据处理。

Hadoop 的技术原型源自 Google 的两篇经典论文:2003 年的《Google 文件系统(GFS)》和 2004 年的《MapReduce:简化大规模数据集的处理》。2006 年,Apache 基金会正式将 Hadoop 项目独立孵化,经过多年迭代,已发展为包含存储、计算、调度、管理等多个子项目的完整生态体系,成为全球大数据技术栈的核心基础。

二、Hadoop 核心组件:生态体系的核心支柱

Hadoop 生态并非单一工具,而是由多个功能互补的核心组件构成,其中最基础、最核心的是 “HDFS(分布式文件系统)”“MapReduce(分布式计算模型)”“YARN(资源调度系统)”,再结合 Common(基础工具库),共同支撑起大数据处理的核心流程。

1. HDFS:分布式存储的 “数据仓库”

HDFS(Hadoop Distributed File System)是 Hadoop 的分布式文件存储组件,负责将海量数据分散存储在集群中的多个节点(服务器)上,通过 “主从架构” 保障数据可靠性与访问效率:

NameNode(主节点):作为 “调度中枢”,存储文件的元数据(如文件名、存储路径、数据块分布),负责管理整个文件系统的命名空间,协调从节点的读写操作;

DataNode(从节点):作为 “存储节点”,实际存储数据块(默认每个数据块 128MB),并定期向 NameNode 汇报自身状态;

核心机制:采用 “多副本存储策略”(默认 3 个副本),将数据块分散存储在不同节点甚至不同机架,即使单个节点故障,也能通过副本恢复数据,保障数据高可靠性。

2. MapReduce:分布式计算的 “任务引擎”

MapReduce 是 Hadoop 的分布式计算模型,采用 “分而治之” 的思想,将大规模计算任务拆解为多个子任务,分配到集群节点并行处理,最终汇总结果:

Map 阶段(映射):将输入数据拆分為多个独立的 “键值对”,每个节点并行处理局部数据,输出中间结果;

Reduce 阶段(归约):收集 Map 阶段的中间结果,按相同键进行聚合、汇总,输出最终计算结果;

核心优势:无需人工干预任务拆分与调度,自动适配集群节点状态,即使部分节点故障,也能重新分配任务,保障计算任务稳定完成。

3. YARN:资源调度的 “智能管家”

YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理与调度系统,负责协调集群中的 CPU、内存等硬件资源,为各类计算任务分配资源并监控执行状态:

ResourceManager(资源管理器):全局资源调度中枢,接收客户端提交的任务,根据集群资源状况分配资源队列;

NodeManager(节点管理器):运行在每个从节点上,负责监控本节点的资源使用情况,执行 ResourceManager 分配的任务;

核心价值:实现资源与计算任务的解耦,支持 MapReduce、Spark 等多种计算框架共享集群资源,提升资源利用率,适配多样化大数据处理场景。

4. Common:生态的 “基础工具库”

Common(Hadoop Common)是 Hadoop 生态的基础支撑组件,提供文件 I/O、序列化、通信协议、安全认证等通用工具类与 API,为 HDFS、MapReduce、YARN 等核心组件提供统一的底层支撑,保障整个生态体系的兼容性。