Hadoop开端于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一 [2]。2004年,Google在“操作体系设计与实现”(Operating System Design and Implementation,OSDI)聚会会议上公开发表了题为MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的Doug Cutting等人开始尝试实现MapReduce盘算框架,并将它与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法 [2]。由于NDFS和MapReduce在Nutch引擎中有着精良的应用,以是它们于2006年2月被分离出来,成为一套完备而独立的软件,并被定名为Hadoop。到了2008年年初,hadoop已成为Apache的顶级项目,包含浩繁子项目,被应用到包括Yahoo在内的很多互联网公司