hadoop是什么

评测概述

Hadoop是Apache 基金会主导的开源分布式存储与计算框架，专为海量结构化、半结构化及非结构化数据的存储、处理与分析设计。Hadoop核心目标是通过集群化部署普通服务器，构建高可用、高扩展的分布式系统，突破单机在存储容量、计算性能上的限制，实现低成本、高效能的大数据处理。

Hadoop 的技术原型源自 Google 的两篇经典论文：2003 年的《Google 文件系统（GFS）》和 2004 年的《MapReduce：简化大规模数据集的处理》。2006 年，Apache 基金会正式将 Hadoop 项目独立孵化，经过多年迭代，已发展为包含存储、计算、调度、管理等多个子项目的完整生态体系，成为全球大数据技术栈的核心基础。

二、Hadoop 核心组件：生态体系的核心支柱

Hadoop 生态并非单一工具，而是由多个功能互补的核心组件构成，其中最基础、最核心的是 “HDFS（分布式文件系统）”“MapReduce（分布式计算模型）”“YARN（资源调度系统）”，再结合 Common（基础工具库），共同支撑起大数据处理的核心流程。

1. HDFS：分布式存储的 “数据仓库”

HDFS（Hadoop Distributed File System）是 Hadoop 的分布式文件存储组件，负责将海量数据分散存储在集群中的多个节点（服务器）上，通过 “主从架构” 保障数据可靠性与访问效率：

NameNode（主节点）：作为 “调度中枢”，存储文件的元数据（如文件名、存储路径、数据块分布），负责管理整个文件系统的命名空间，协调从节点的读写操作；

DataNode（从节点）：作为 “存储节点”，实际存储数据块（默认每个数据块 128MB），并定期向 NameNode 汇报自身状态；

核心机制：采用 “多副本存储策略”（默认 3 个副本），将数据块分散存储在不同节点甚至不同机架，即使单个节点故障，也能通过副本恢复数据，保障数据高可靠性。

2. MapReduce：分布式计算的 “任务引擎”

MapReduce 是 Hadoop 的分布式计算模型，采用 “分而治之” 的思想，将大规模计算任务拆解为多个子任务，分配到集群节点并行处理，最终汇总结果：

Map 阶段（映射）：将输入数据拆分為多个独立的 “键值对”，每个节点并行处理局部数据，输出中间结果；

Reduce 阶段（归约）：收集 Map 阶段的中间结果，按相同键进行聚合、汇总，输出最终计算结果；

核心优势：无需人工干预任务拆分与调度，自动适配集群节点状态，即使部分节点故障，也能重新分配任务，保障计算任务稳定完成。

3. YARN：资源调度的 “智能管家”

YARN（Yet Another Resource Negotiator）是 Hadoop 的资源管理与调度系统，负责协调集群中的 CPU、内存等硬件资源，为各类计算任务分配资源并监控执行状态：

ResourceManager（资源管理器）：全局资源调度中枢，接收客户端提交的任务，根据集群资源状况分配资源队列；

NodeManager（节点管理器）：运行在每个从节点上，负责监控本节点的资源使用情况，执行 ResourceManager 分配的任务；

核心价值：实现资源与计算任务的解耦，支持 MapReduce、Spark 等多种计算框架共享集群资源，提升资源利用率，适配多样化大数据处理场景。

4. Common：生态的 “基础工具库”

Common（Hadoop Common）是 Hadoop 生态的基础支撑组件，提供文件 I/O、序列化、通信协议、安全认证等通用工具类与 API，为 HDFS、MapReduce、YARN 等核心组件提供统一的底层支撑，保障整个生态体系的兼容性。

评测概述

二、Hadoop 核心组件：生态体系的核心支柱

1. HDFS：分布式存储的 “数据仓库”

2. MapReduce：分布式计算的 “任务引擎”

3. YARN：资源调度的 “智能管家”

4. Common：生态的 “基础工具库”

最新软件

热门软件

系统推荐