Hadoop 大数据基础信息(一)

Feb 14,2017 in Hadoop lang 繁 read (974)

大数据生态系统

QQ截图20170214164353.png

Java-大数据的基石

QQ截图20170214164649.png

Hadoop生态圈

QQ截图20170214164840.png

Hive
- Hive依赖HDFS进行存储,表是逻辑表
- Hive的SQL翻译成MR执行
- Hive可以将结构化数据映射成一张单表
- OLAP,重在分析和统计
- 不支持低延迟操作
- 不提供row level更新
- 适用于批处理
- 操作类似于MySQL
Pig
- 大规模数据分析平台
- 提供类SQL语言-Pig Latin
- 将SQL请求转化为优化的MR作业
- 操作API都非常简单
- 过程式语言
- 支持UDF,易于重用
Sqoop
- Hadoop和RDBMS之间高效传输的工具
- Apache顶级项目

QQ截图20170214165834.png

Spark技术生态圈

Spark SQL
- 操作结构和数据的Spark模块
- 无缝混合SQL查询到Spark程序中
- 一致性的数据访问
  
  使用通用方式访问各种数据源,Hive,avro,JDBC等,甚至可以跨数据源
- Hive兼容性
  
  执行无需修改Hive查询
- 标准连接
  
  提供JDBC或ODBC的标准连接用于BI
MLlib
- Spark上分布式机器学习框架
- 分布式存储器式架构比Hadoop磁盘式的Mahout快10倍以上
- MLlib可以使用许多常见的机器学习算法分类回归聚类协同过滤等
- Apache Mahout原来针对Hadoop的机器学习库现已脱离MapReduce,转而加入Spark的MLlib
GraphX
- GraphX是Spark针对图和图并行计算的API
- 灵活性
  
  将图和集合进行无缝集成在一起
- 速度快
  
  可以和最快的专业图形处理系统媲美
- 算法
  
  不断增长的图形算法类库,很多由用户贡献

QQ截图20170214171537.png

Matrix42

Record and Share!