Hadoop Hadoop简介(二)
Hadoop简介
-
Apache开源软件,Doug Cutting(Luncene)
-
计算框架
分布式 可靠 可伸缩
-
搜索引擎 海量数据存储
Hadoop发展史
-
2002年Apache Nutch
抓取网页,数十亿存储瓶颈
-
2003年 GFS论文
-
2004年 Nutch开发NDFS,即HDFS前身
-
2004年 Google发表MapReduce
-
2005年 Nutch应用MR,主要算法转移到MR和NDFS运行
-
2006年 MapReduce和NDFS从Nutch分离,形成Hadoop作为一个独立Lucene子项目
-
2006年 Doug Cutting加入Yahoo
-
2008年2月 Yahoo/1万内核/Hadoop
-
2008年4月 Yahoo/1T排序/209秒/901节点
-
2008年11月 Google/1T/68秒
-
2009年5月 Yahoo/1T/62秒
Hadoop现状(2012)
-
Yahoo
4.2万节点/10万CPU/大群4500节点
广告/用户行为分析/反垃圾邮件
-
Facebook
1400台/1.12万CPU/15PB
-
百度
单群2800节点/上万台/存储100PB
-
阿里
3200/30000 core/100T mem/60PB
淘宝/天猫/支付宝/秒杀
-
腾讯
5000/单群2000/游戏/QQ/财付通
Hadoop核心问题
-
核心问题-海量数据
-
数量级进制
-
如何存储
HDFS
-
如何计算
MapReduce
-