Hadoop MapReduce(五)

Feb 15,2017 in Hadoop read (1046)

初识MapReduce 输入给map的时候每条数据加上行号构成key,value对,经过map的处理转换为另一种k,v对,然后shuffle,使reduce更容易处理编写Mapper类 import java.io.IOException; import org.ap...

Hadoop Hadoop架构分析(四)

Feb 15,2017 in Hadoop read (1120)

节点架构单节点体系集群架构节点(进程)之间的距离:到达共同节点距离之和副本存放策略 V1 同一个机架放2分,另一份放到其他机架(当前节点为存储节点) V2 在一个机架上放1分,另外2分放到其他机架,防止断点数据丢失(当前节点为存储节点) 如...

Feb 15,2017 in Hadoop read (871)

最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为，Secondary NameNode是NameNode的备份，是为了防止NameNode的单点失败的，直到读了这篇文章Secondary Namenod...

Feb 14,2017 in Hadoop read (1014)

独立模式没有运行的守护程序，所有程序运行在一个JVM中。适合开发期间运行MapReduce程序，源于他的易于测试和调试 Nothing!(不用配置) local FileSystem和local MR job runner 伪分布式 Hadoop的三种模式可以共存,使...

Feb 14,2017 in Hadoop read (929)

Hadoop简介 Apache开源软件,Doug Cutting(Luncene) 计算框架分布式可靠可伸缩搜索引擎海量数据存储 Hadoop发展史 2002年Apache Nutch 抓取网页,数十亿存储瓶颈 2003年 GFS论文 ...

Feb 14,2017 in Hadoop read (976)

大数据生态系统 Java-大数据的基石 Hadoop生态圈 Hive Hive依赖HDFS进行存储,表是逻辑表 Hive的SQL翻译成MR执行 Hive可以将结构化数据映射成一张单表 OLAP,重在分析和统计不支持低延迟操作不提供row...

Dec 20,2016 in Kafka read (1033)

依赖 Kafka需要依赖ZooKeeper,在搭建Kafka集群前先要搭建好ZooKeeper集群参考搭建ZooKeeper集群下载Kafka 下载地址我们使用的版本是:0.9.0.0 解压 tar -zxvf kafka_2.10-0.9.0.0.tgz 配...

Dec 01,2016 in Hive read (3021)

执行Hive语句的几种方式第一种:进入hive命令行直接执行语句第二种:在命令行下执行文件中的Hive语句 source 文件路径第三种:在Linux下hive -e "hive语句" 第四种:在Linux下hive -f 文件路径将Hive的...