Hadoop简介

  • Apache开源软件,Doug Cutting(Luncene)

  • 计算框架

    分布式 可靠 可伸缩

  • 搜索引擎 海量数据存储

Hadoop发展史

  • 2002年Apache Nutch

    抓取网页,数十亿存储瓶颈

  • 2003年 GFS论文

  • 2004年 Nutch开发NDFS,即HDFS前身

  • 2004年 Google发表MapReduce

  • 2005年 Nutch应用MR,主要算法转移到MR和NDFS运行

  • 2006年 MapReduce和NDFS从Nutch分离,形成Hadoop作为一个独立Lucene子项目

  • 2006年 Doug Cutting加入Yahoo

  • 2008年2月 Yahoo/1万内核/Hadoop

  • 2008年4月 Yahoo/1T排序/209秒/901节点

  • 2008年11月 Google/1T/68秒

  • 2009年5月 Yahoo/1T/62秒

Hadoop现状(2012)

  • Yahoo

    4.2万节点/10万CPU/大群4500节点

    广告/用户行为分析/反垃圾邮件

  • Facebook

    1400台/1.12万CPU/15PB

  • 百度

    单群2800节点/上万台/存储100PB

  • 阿里

    3200/30000 core/100T mem/60PB

    淘宝/天猫/支付宝/秒杀

  • 腾讯

    5000/单群2000/游戏/QQ/财付通

Hadoop核心问题

  • 核心问题-海量数据

    • 数量级进制

    • 如何存储

      HDFS

    • 如何计算

      MapReduce