Hive不支持intersect的解决办法

Dec 01,2016 in Hive read (1234)

问题有一个SQL语句要在hive里执行但是hive不支持intersect,所以要使用其他方法代替思路 intersect就是取交集,可以使用inner join进行连接然后取其中一列并去重原SQL select s_store_name ,sum(s...

将Hive数据库存储格式转换为orc

Dec 01,2016 in Hive read (1534)

Hive的存储格式 textfile hive的默认存储格式存储方式：行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分 SequenceFile 二进制文件,以<key,value>的形式序列化到文件中存储方式：行存...

Oct 17,2016 in Storm read (845)

软件版本之前安装的zookeeper apache-storm-1.0.1 安装Storm 解压安装包将bin目录加入到环境变量配置storm.yaml storm.zookeeper.servers: - "192.168....

Oct 17,2016 in Storm read (1003)

环境 Centos 6.5 64位 jdk 1.8 u 101 python 2.7.12 zookeeper 3.4.8 https://www.python.org/ftp/python/2.7.12/下载tgz文件修改服务器信息更改ma...

Aug 17,2016 in Hadoop read (1054)

1.更改主机名 #使用root用户 vim /etc/sysconfig/network #将HOSTNAME分别改为master,slave1,slave2.... 2.设置固定ip #使用root用户 #使用setup命令将所有主机改为同一网段的ip 3.更改hosts...

Aug 17,2016 in Hadoop read (1247)

1.修改下主机名为master vim /etc/sysconfig/network #修改HOSTNAME为master #重启电脑后再查看结果 hostname 2.修改hosts中的主机名 vim /etc/hosts #改为:127.0.0.1 master lo...

Aug 16,2016 in Hadoop read (1055)

单机模式 Hadoop的默认模式,安装完成后即为单机模式,单机模式下使用的是本地文件系统而不是分布式文件系统,Hadoop不会启动NameNode,DataNode,JobTracker,TaskTracker这些守护进程,Map和Reduce任务作为同一个进程的不同部分来...

Aug 16,2016 in Hadoop read (926)

分布式编程架构以数据为中心,更看重吞吐率分而治之 Map将一个任务分解成子任务 Reduce将分解后多任务分别处理,并将结果汇总为最终结果 ![MapReduce的体系结构][1] Client 用户编写的MapReduce程序通过Client提交给JobT...