Flink 原理与实现:架构和拓扑概览

Mar 24,2017 in Flink read (1278)

架构要了解一个系统，一般都是从架构开始。我们关心的问题是：系统部署成功后各个节点都启动了哪些服务，各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManag...

Flink 原理与实现:内存管理

Mar 24,2017 in Flink read (934)

如今，大数据领域的开源框架（Hadoop，Spark，Storm）都使用的 JVM，当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存在的几个问题： Java 对象存储密度低。一个只包含 boolean 属性的...

Mar 24,2017 in Flink read (1023)

流处理系统需要能优雅地处理反压（backpressure）问题。反压通常产生于这样的场景：短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到...

Mar 24,2017 in Flink read (1154)

本文主要介绍如何将Flink以分布式模式运行在集群上（可能是异构的）。环境准备 Flink 运行在所有类 UNIX 环境上，例如 Linux、Mac OS X 和 Cygwin（对于Windows），而且要求集群由一个master节点和一个或多个worker节点组成。在安...

Mar 24,2017 in Flink read (1021)

本文主要介绍如何将Flink以本地模式运行在单机上。下载进入下载页面。如果你想让Flink与Hadoop进行交互（如HDFS或者HBase），请选择一个与你的Hadoop版本相匹配的Flink包。当你不确定或者只是想运行在本地文件系统上，请选择Hadoop 1.2.x对...

Mar 16,2017 in Flink read (890)

Map 输入一个元素,输出一个元素 DataStream → DataStream DataStream<Integer> dataStream = //... dataStream.map(new MapFunction<Integer, Integer...