Flink 中如何处理流式数据倾斜问题

一、数据倾斜是个啥？别被它唬住

简单来说，数据倾斜就是数据分布不均匀。在 Flink 中，这会导致某些子任务（Subtask）被大量工作塞满，而其他子任务却无所事事。这种情况可不是小问题，它会让作业效率直线下降，甚至导致系统崩溃。就好比在流水线上干活，某个工位堆满了货物，其他工位却空荡荡的，效率自然高不起来。

数据倾斜的 “罪状” 清单

单点瓶颈：某个 Subtask 忙不过来，拖慢了整条流水线。
垃圾回收（GC）噩梦：数据量一大，内存压力飙升，GC 频繁运行。
吞吐量暴跌：系统处理速度跟不上，数据堆积如山。
延迟飙升：实时性难以保证。
系统崩盘：极端情况下，TaskManager 直接失联，作业失败。

它长啥样？

在 Flink 任务里，数据倾斜会有以下表现：

反压（Backpressure）：某个 Subtask 处理不过来，上游数据开始拥堵。
内存溢出（OOM）：数据扎堆的地方，内存不堪重负，直接报错。
任务失联：GC 暂停时间过长，TaskManager 被 Flink 认为 “挂掉”。
吞吐量和延迟双杀：性能指标急剧恶化。

想要发现数据倾斜，可以在代码里添加自定义日志，记录每个 Subtask 处理的数据量，或者对数据进行采样，查看键值分布。例如，在处理网络流量时，每隔 1000 条记录查看一下源 IP 的频率，如果有几个 IP 出现频率过高，很可能就是数据倾斜了。

二、数据倾斜的 “元凶” 是谁？

要解决问题，得先找到根源。Flink 里的数据倾斜，通常由业务数据的天然不均匀和算子操作失误这两个主要因素导致。下面我们逐一分析。

业务数据：天生不公平

现实世界的数据往往不是均匀分布的。业务场景决定了数据的分布情况，很多时候数据倾斜是 “命中注定” 的。

源数据分布的幂律魔咒：以社交媒体为例，实时统计话题热度时，80% 的讨论量可能集中在几个热门话题上，比如 “明星八卦”，而剩下的长尾话题加起来才占 20%。这种幂律分布会让处理热门话题的 Subtask 压力巨大。

话题类型	讨论量占比	处理压力
热门话题	80%	超高
长尾话题	20%	轻松

热点数据的 “突发袭击”：在电商场景中，新品发布或促销活动时，某个商品的浏览量可能瞬间激增。所有数据都针对同一个商品 ID，Flink 的分组操作就会陷入困境，处理该热点的 Subtask 会不堪重负。
时间序列的周期性 “脾气”：订单数据具有明显的周期性波动，白天高峰期数据猛增，凌晨却非常冷清。这种周期性变化使得处理高峰时段的 Subtask 压力山大，低谷时段则闲置。
地域偏好的 “地方口味”：在线教育平台的数据，可能一线城市用户晚上学习活跃，中小城市用户周末才活跃。地域差异导致某些 Subtask 承担了大部分工作。

这些业务特性难以改变，但了解它们有助于在设计 Flink 作业时提前做好规划。

算子操作：自己挖的坑

Flink 的强大在于其丰富的算子，但使用不当就会引发问题。不合理的 keyBy、groupBy 或者窗口设置，都可能导致数据倾斜。

keyBy 和 groupBy 的 “偏心眼”：按键分组是 Flink 的基本操作，但如果键选择不当，很容易出现问题。比如，统计电商商品销量时，直接按商品 ID 使用 keyBy，热门商品（10 万条记录）和冷门商品（100 条记录）的巨大差距会使 Subtask 不堪重负。
窗口设置的 “失策”：窗口操作是流处理的核心，但窗口设置不合理也会引发问题。例如下面这段 SQL：

sql

SELECT TUMBLE_END(proc_time, INTERVAL '1' MINUTE) AS winEnd,
       plat,
       COUNT(*) AS pv
FROM source_kafka_table
GROUP BY TUMBLE(proc_time, INTERVAL '1' MINUTE), plat

这段代码用于统计每分钟各终端的 PV，如果微信小程序的数据量远超 PC 端，所有小程序数据都会集中到一个 Subtask，从而导致数据倾斜。

三、侦查数据倾斜：Flink Web UI 和日志的 “火眼金睛”

发现问题才能解决问题。Flink 提供了 Web UI 和日志分析这两个工具，帮助我们找出数据倾斜的所在。

Flink Web UI：全局视角

Flink 的 Web UI 就像一个监控大屏，关键指标一目了然。

Overview 选项卡：检查点的完成、失败次数，可以让我们对作业健康状况有初步了解。如果失败率高，可能是数据倾斜打乱了节奏。
History 选项卡端到端持续时间：检查点从触发到完成所花费的时间，如果某个 Subtask 总是拖后腿，很可能是数据倾斜的嫌疑对象。检查点数据大小：每个 Subtask 的状态大小差异过大，说明数据分布存在问题。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大数据从入门到精通-最全面试题文章被收录于专栏

17年+码农经历了很多次面试，多次作为面试官面试别人，多次大数据面试和面试别人，深知哪些面试题是会被经常问到。在多家企业从0到1开发过离线数仓实时数仓等多个大型项目，详细介绍项目架构等企业内部秘不外传的资料，介绍踩过的坑和开发干货，分享多个拿来即用的大数据ETL工具，让小白用户快速入门并精通，指导如何入职后快速上手。计划更新内容100篇以上，包括一些企业内部秘不外宣的干货，欢迎订阅！