初识MapReduce 输入给map的时候每条数据加上行号构成key,value对,经过map的处理转换为另一种k,v对,然后shuffle,使reduce更容易处理 编写Mapper类 import java.io.IOException; import org.ap...
Continue reading节点架构 单节点体系 集群架构 节点(进程)之间的距离:到达共同节点距离之和 副本存放策略 V1 同一个机架放2分,另一份放到其他机架(当前节点为存储节点) V2 在一个机架上放1分,另外2分放到其他机架,防止断点数据丢失(当前节点为存储节点) 如...
Continue reading最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenod...
Continue reading独立模式 没有运行的守护程序,所有程序运行在一个JVM中。适合开发期间运行MapReduce程序,源于他的易于测试和调试 Nothing!(不用配置) local FileSystem和local MR job runner 伪分布式 Hadoop的三种模式可以共存,使...
Continue readingHadoop简介 Apache开源软件,Doug Cutting(Luncene) 计算框架 分布式 可靠 可伸缩 搜索引擎 海量数据存储 Hadoop发展史 2002年Apache Nutch 抓取网页,数十亿存储瓶颈 2003年 GFS论文 ...
Continue reading大数据生态系统 Java-大数据的基石 Hadoop生态圈 Hive Hive依赖HDFS进行存储,表是逻辑表 Hive的SQL翻译成MR执行 Hive可以将结构化数据映射成一张单表 OLAP,重在分析和统计 不支持低延迟操作 不提供row...
Continue reading依赖 Kafka需要依赖ZooKeeper,在搭建Kafka集群前先要搭建好ZooKeeper集群 参考搭建ZooKeeper集群 下载Kafka 下载地址 我们使用的版本是:0.9.0.0 解压 tar -zxvf kafka_2.10-0.9.0.0.tgz 配...
Continue reading执行Hive语句的几种方式 第一种:进入hive命令行 直接执行语句 第二种:在命令行下执行文件中的Hive语句 source 文件路径 第三种:在Linux下hive -e "hive语句" 第四种:在Linux下hive -f 文件路径 将Hive的...
Continue reading