单机模式

Hadoop的默认模式,安装完成后即为单机模式,单机模式下使用的是本地文件系统而不是分布式文件系统,Hadoop不会启动NameNode,DataNode,JobTracker,TaskTracker这些守护进程,Map和Reduce任务作为同一个进程的不同部分来执行的,单机模式避免没了复杂的配置可以用来对MapReduce程序的开发和调试

伪分布式模式

在伪分布式模式下使用一台主机模拟多台主机的环境,所有的守护进程都在同一个主机上运行,在这种模式下使用的是分布式文件系统,而各个作业也是在JobTracker管理下的独立进程,伪分布式模式在单机模式上增加了代码调试功能,允许程序员检查内存的使用情况,HDFS的输入输出以及守护进程之间的交互是否正确.它的程序执行完全类似于完全分布式模式,因此这种模式常用于开发人员测试Hadoop程序的执行是否正确.

配置伪分布模式时最关键的是对core-site.xml,hdfs-site.xml,mapred-site.xml进行设置.core-site.xml用于设置Hadoop集群的特性,它作用于全部进程及客户端;mapred-site.xml主要用于配置MapReduce集群的工作属性;hdfs-site.xml用于配置HDFS集群的工作属性.对NameNode的文件系统进行格式化

完全分布式模式

在这种模式下Hadoop的守护进程运行在多台主机他建的集群上,是真正的生成环境

配置完全分布模式:第一步,在所有主机上安装JDK和Hadoop并组成相互连通的网络.第二步,在主机之间设置SSH免密码登录,把各个从节点生成的公钥添加到主节点的信任列表.第三步,修改core-site.xml,hdfs-site.xml,mapred-site.xml,指定NameNode和JobTracker的位置和端口,设置文件副本系数等参数.最后一步对文件系统进行格式化