Hive不支持intersect的解决办法

in Hive read (1168)

问题 有一个SQL语句要在hive里执行但是hive不支持intersect,所以要使用其他方法代替 思路 intersect就是取交集,可以使用inner join进行连接然后取其中一列并去重 原SQL select s_store_name ,sum(s...

Continue reading

将Hive数据库存储格式转换为orc

in Hive read (1468)

Hive的存储格式 textfile hive的默认存储格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分 SequenceFile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存...

Continue reading

安装Storm集群

in Storm read (760)

软件版本 之前安装的zookeeper apache-storm-1.0.1 安装Storm 解压安装包 将bin目录加入到环境变量 配置storm.yaml storm.zookeeper.servers: - "192.168....

Continue reading

搭建ZooKeeper集群

in Storm read (956)

环境 Centos 6.5 64位 jdk 1.8 u 101 python 2.7.12 zookeeper 3.4.8 https://www.python.org/ftp/python/2.7.12/下载tgz文件 修改服务器信息 更改ma...

Continue reading

单机模式 Hadoop的默认模式,安装完成后即为单机模式,单机模式下使用的是本地文件系统而不是分布式文件系统,Hadoop不会启动NameNode,DataNode,JobTracker,TaskTracker这些守护进程,Map和Reduce任务作为同一个进程的不同部分来...

Continue reading

分布式编程架构 以数据为中心,更看重吞吐率 分而治之 Map将一个任务分解成子任务 Reduce将分解后多任务分别处理,并将结果汇总为最终结果 ![MapReduce的体系结构][1] Client 用户编写的MapReduce程序通过Client提交给JobT...

Continue reading

Matrix42

Record and Share!