新一代流式计算引擎 Flink

大数据

发布日期: 2019-01-16

作者: 高虎

文章字数: 2.4k

阅读时长: 8 分

阅读次数:

初探Flink

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。”Flink不仅能提供同时支持高吞吐和exactly-once 语义的实时计算，还能提供批量数据处理.

批处理与流处理

Flink 是如何同时实现批处理与流处理的呢？答案是，Flink 将批处理（即处
理有限的静态数据）视作一种特殊的流处理。Flink 的核心计算构造是图1-4 中的Flink Runtime 执行引擎，它是一个分布式系统，能够接受数据流程序并在一台或多台机器上以容错方式执行。Flink Runtime 执行引擎可以作为YARN（Yet Another Resource Negotiator）的应用程序在集群上运行，也可以在Mesos 集群上运行，还可以在单机上运行（这对于调试Flink 应用程序来说非常有用）。

Flink 技术栈的核心组成部分。值得一提的是，Flink 分别提供了面向流处理的接口（DataStream API）和面向批处理的接口（DataSet API）。因此，Flink 既可以完成流处理，也可以完成批处理。Flink 支持的拓展库涉及机器学习（FlinkML）、复杂事件处理（CEP），以及图计算（Gelly），还有分别针对流处理和批处理的Table API.

消息传输层和流处理层

消息传输层从各种数据源（生产者）采集连续事件产生的数据，并传输给订阅了这些数据的应用程序和服务（消费者）。
处理层有3 个用途：①持续地将数据在应用程序和系统间移动；②聚合并处理事件；③在本地维持应用程序的状态。

Flink 项目的架构有两个主要组成部分：消息传输层和由Flink 提供的流处理层。消息传输层负责传输连续事件产生的消息，能够提供消息传输的系统包括Kafka 和MapR Streams。MapR Streams 是MapR 融合数据平台的一个主要组成部分，它兼容Kafka API.

Flink中的时间概念

在流处理中，主要有两个时间概念
• 事件时间，即事件实际发生的时间。更准确地说，每一个事件都有一个与它相关的时间戳，并且时间戳是数据记录的一部分（比如手机或者服务器的记录）。事件时间其实就是时间戳。
• 处理时间，即事件被处理的时间。处理时间其实就是处理事件的机器所测量的时间。

以《星球大战》系列电影为例。首先上映的3 部电影是该系列中的第4、5、6 部（这是事件时间），它们的上映年份分别是1977 年、1980 年和1983 年（这是处理时间）。之后按事件时间上映的第1、2、3、7 部，对应的处理时间分别是1999 年、2002 年、2005 年和2015 年。由此可见，事件流的顺序可能是乱的（尽管年份顺序一般不会乱）。

通常还有第3 个时间概念，即摄取时间，也叫作进入时间。它指的是事件进入流处理框架的时间。缺乏真实事件时间的数据会被流处理器附上时间戳，即流处理器第一次看到它的时间（这个操作由source 函数完成，它是程序的第一个处理节点）。

Flink中的窗口机制

窗口是一种机制，它用于将许多事件按照时间或者其他特征分组，从而将每一组作为整体进行分析（比如求和）。

时间窗口

是最简单和最有用的一种窗口。它支持滚动和滑动。举一个例子，假设要对传感器输出的数值求和。

一分钟滚动窗口收集最近一分钟的数值，并在一分钟结束时输出总和

一分钟滑动窗口计算最近一分钟的数值总和，但每半分钟滑动一次并输出结果

第一个滑动窗口对9、6、8 和4 求和，得到27。半分钟后，窗口滑动，然后对8、4、7 和3 求和，得到22，照此类推。

在Flink 中，一分钟滚动窗口的定义如下。

stream.timeWindow(Time.minutes(1))

每半分钟（即30 秒）滑动一次的一分钟滑动窗口如下所示

stream.timeWindow(Time.minutes(1), Time.seconds(30))4.4.2

计数窗口

Flink 支持的另一种常见窗口叫作计数窗口。采用计数窗口时，分组依据不再是时间戳，而是元素的数量。例如，图4-6 中的滑动窗口也可以解释为由4 个元素组成的计数窗口，并且每两个元素滑动一次。滚动和滑动的计数窗口分别定义如下。

stream.countWindow(4)
stream.countWindow(4, 2)

虽然计数窗口有用，但是其定义不如时间窗口严谨，因此要谨慎使用。时间不会停止，而且时间窗口总会“关闭”。但就计数窗口而言，假设其定义的元素数量为100，而某个key 对应的元素永远达不到100 个，那么窗口就永远不会关闭，被该窗口占用的内存也就浪费了。一种解决办法是用时间窗口来触发超时.

会话窗口

Flink 支持的另一种很有用的窗口是会话窗口。第3 章提到过这个概念。会话指的是活动阶段，其前后都是非活动阶段，例如用户与网站进行一系列交互（活动阶段）之后，关闭浏览器或者不再交互（非活动阶段）。会话需要有自己的处理机制，因为它们通常没有固定的持续时间（有些30 秒就结束了，有些则长达一小时），或者没有固定的交互次数（有些可能是3 次点
击后购买，另一些可能是40 次点击却没有购买）。

Flink中的水印机制

支持事件时间对于流处理架构而言至关重要，因为事件时间能保证结果正确，并使流处理架构拥有重新处理数据的能力。当计算基于事件时间时，如何判断所有事件是否都到达，以及何时计算和输出窗口的结果呢？换言之，如何追踪事件时间，并知晓输入数据已经流到某个事件时间了呢？为了追踪事件时间，需要依靠由数据驱动的时钟，而不是系统时钟。以图4-5 中的一分钟滚动窗口为例。假设第一个窗口从10:00:00 开始（即从10 时0 分0 秒开始），需要计算从10:00:00 到10:01:00 的数值总和。当时间就是记录的一部分时，我们怎么知道10:01:00 已到呢？换句话说，我们怎么知道盖有时间戳10:00:59 的元素还没到呢？

Flink 通过水印来推进事件时间。水印是嵌在流中的常规记录，计算程序通过水印获知某个时间点已到。对于上述一分钟滚动窗口，假设水印标记时间为10:01:00（或者其他时间，如10:03:43），那么收到水印的窗口就知道不会再有早于该时间的记录出现，因为所有时间戳小于或等于该时间的事件都已经到达。这时，窗口可以安全地计算并给出结果（总和）。水印使事件时间与处理时间完全无关。迟到的水印（“迟到”是从处理时间的角度而言）并不会影响结果的正确性，而只会影响收到结果的速度。

水印是如何生成的

在Flink 中，水印由应用程序开发人员生成，这通常需要对相应的领域有一定的了解。完美的水印永远不会错：时间戳小于水印标记时间的事件不会再出现。在特殊情况下（例如非乱序事件流），最近一次事件的时间戳就可能是完美的水印。启发式水印则相反，它只估计时间，因此有可能出错，即迟到的事件（其时间戳小于水印标记时间）晚于水印出现。针对启发式
水印，Flink 提供了处理迟到元素的机制。设定水印通常需要用到领域知识。举例来说，如果知道事件的迟到时间不会超过5 秒，就可以将水印标记时间设为收到的最大时间戳减去5 秒。另
一种做法是，采用一个Flink 作业监控事件流，学习事件的迟到规律，并以此构建水印生成模型。

如果水印迟到得太久，收到结果的速度可能就会很慢，解决办法是在水印到达之前输出近似结果（Flink 可以实现）。如果水印到达得太早，则可能收到错误结果，不过Flink 处理迟到数据的机制可以解决这个问题。上述问题看起来很复杂，但是恰恰符合现实世界的规律——大部分真实的事件流都是乱序的，并且通常无法了解它们的乱序程度（因为理论上不能预见未来）。水印是唯一让我们直面乱序事件流并保证正确性的机制；否则只能选择忽视事实，假装错误的结果是正确的。