最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenod...
Continue reading独立模式 没有运行的守护程序,所有程序运行在一个JVM中。适合开发期间运行MapReduce程序,源于他的易于测试和调试 Nothing!(不用配置) local FileSystem和local MR job runner 伪分布式 Hadoop的三种模式可以共存,使...
Continue readingHadoop简介 Apache开源软件,Doug Cutting(Luncene) 计算框架 分布式 可靠 可伸缩 搜索引擎 海量数据存储 Hadoop发展史 2002年Apache Nutch 抓取网页,数十亿存储瓶颈 2003年 GFS论文 ...
Continue reading大数据生态系统 Java-大数据的基石 Hadoop生态圈 Hive Hive依赖HDFS进行存储,表是逻辑表 Hive的SQL翻译成MR执行 Hive可以将结构化数据映射成一张单表 OLAP,重在分析和统计 不支持低延迟操作 不提供row...
Continue reading1.更改主机名 #使用root用户 vim /etc/sysconfig/network #将HOSTNAME分别改为master,slave1,slave2.... 2.设置固定ip #使用root用户 #使用setup命令将所有主机改为同一网段的ip 3.更改hosts...
Continue reading1.修改下主机名为master vim /etc/sysconfig/network #修改HOSTNAME为master #重启电脑后再查看结果 hostname 2.修改hosts中的主机名 vim /etc/hosts #改为:127.0.0.1 master lo...
Continue reading单机模式 Hadoop的默认模式,安装完成后即为单机模式,单机模式下使用的是本地文件系统而不是分布式文件系统,Hadoop不会启动NameNode,DataNode,JobTracker,TaskTracker这些守护进程,Map和Reduce任务作为同一个进程的不同部分来...
Continue reading分布式编程架构 以数据为中心,更看重吞吐率 分而治之 Map将一个任务分解成子任务 Reduce将分解后多任务分别处理,并将结果汇总为最终结果 ![MapReduce的体系结构][1] Client 用户编写的MapReduce程序通过Client提交给JobT...
Continue reading