Hadoop各版本汇总

Hadoop1.0

NameNode节点有且只有一个，虽然可以通过SecondaryNameNode进行主节点数据备份，但是存在延时情况，假如主节点挂掉，这时部分数据还未同步到SecondaryNameNode节点上，就会存在资源数据的缺失。因为NameNode是存储着DataNode节点等元数据信息。

对于MapReduce，也是一个简单的主从结构，是有一个主JobTracker和多个从的TaskTracker组成，而且在hadoop1.0中JobTracker任务繁重。

Hadoop2.0

增加了HDFS Federation(联邦)水平扩展，支持多个namenode同时运行，每一个namenode分管一批目录，然后共享所有datanode的存储资源，从而解决1.0当中单个namenode节点内存受限问题。

HDFS的Federation，多个namenode（多个namespace），互相独立，互相协调，各自分工管理自己的区域，并不能解决单点故障问题，配合HA，每个namenode部署一个备机。

增加了HDFS HA机制，解决了1.0中的单点故障问题，只支持两个节点，3.0实现了一主多从。

增加了YARN框架，针对1.0中主JobTracker压力太大的不足，把JobTracker资源分配和作业控制分开，利用Resource Manager在namenode上进行资源管理调度，利用ApplicationMaster进行任务管理和任务监控。由NodeManager替代TaskTracker进行具体任务的执行，因此MapReduce2.0只是一个计算框架。对比1.0中相关资源的调用全部给Yarn框架管理。

Hadoop3.0

Javaj运行环境升级为1.8，对之前低版本的Java不在支持。

HDFS3.0支持数据的擦除编码，调高存储空间的使用率。

一些默认端口的改变。

增加一些MapReduce的调优。

支持 2 个以上的 NameNode，例如，通过配置三个 NameNode 和五个 JournalNode，集群能够容忍两个节点而不是一个节点的故障。

https://hadoop.apache.org/docs/r3.0.0

Hadoop各版本汇总

评论