[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoint/savepoint which coincides with shard split causes data loss #198

arunlakshman · 2025-04-11T06:09:37Z

Purpose of the change

[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoint/savepoint which coincides with shard split causes data loss

Today Flink does not support distributed consistency of events from subtask (Task Manager) to coordinator (Job Manager) - https://issues.apache.org/jira/browse/FLINK-28639. As a result we have a race condition that can lead to a shard and it's children shards stopped being processed after a job restart.

A checkpoint started
Enumerator took a checkpoint (shard was assigned here)
Enumerator sent checkpoint event to reader
Before taking reader checkpoint, a SplitFinishedEvent came up in reader
Reader took checkpoint
Now, just after checkpoint complete, job restarted

This can lead to a shard lineage getting lost because of a shard being in ASSIGNED state in enumerator and not being part of any task manager state.
This PR changes the behaviour by also checkpointing the finished splits events received in between two checkpoints and on restore, those events again getting replayed.

Verifying this change

Please make sure both new and modified tests in this PR follows the conventions defined in our code quality guide: https://flink.apache.org/contributing/code-style-and-quality-common.html#testing

(Please pick either of the following options)

Added UTs and this is almost a cherry pick of [FLINK-37416][BugFix][Connectors/DynamoDB] Fix state inconsistency issue in DDB connector when sending split finished event from reader -> enumerator #193 into the kinesis connector
I manually verified this by running the connector in a local flink cluster which was getting restarted every 10 minutes. No checkpoint inconsistency was observed

Significant changes

(Please check any boxes [x] if the answer is "yes". You can first publish the PR and check them afterwards, for convenience.)

Dependencies have been added or upgraded
Public API has been changed (Public API is any class annotated with @Public(Evolving))
Serializers have been changed
New feature has been introduced
- If yes, how is this documented? (not applicable / docs / JavaDocs / not documented)

boring-cyborg · 2025-04-11T06:09:40Z

Thanks for opening this pull request! Please check out our contributing guidelines. (https://flink.apache.org/contributing/how-to-contribute.html)

...ava/org/apache/flink/connector/kinesis/source/enumerator/KinesisStreamsSourceEnumerator.java

...c/main/java/org/apache/flink/connector/kinesis/source/reader/KinesisStreamsSourceReader.java

...streams/src/main/java/org/apache/flink/connector/kinesis/source/split/KinesisShardSplit.java

...st/java/org/apache/flink/connector/kinesis/source/reader/KinesisStreamsSourceReaderTest.java

...src/main/java/org/apache/flink/connector/kinesis/source/enumerator/tracker/SplitTracker.java

...c/main/java/org/apache/flink/connector/kinesis/source/split/KinesisShardSplitSerializer.java

...src/main/java/org/apache/flink/connector/kinesis/source/enumerator/tracker/SplitTracker.java

…t/savepoint which coincides with shard split causes data loss

leekeiabstraction suggested changes Apr 11, 2025

View reviewed changes

aws-nageshvh reviewed Apr 11, 2025

View reviewed changes

...src/main/java/org/apache/flink/connector/kinesis/source/enumerator/tracker/SplitTracker.java Show resolved Hide resolved

aws-nageshvh reviewed Apr 11, 2025

View reviewed changes

...c/main/java/org/apache/flink/connector/kinesis/source/split/KinesisShardSplitSerializer.java Show resolved Hide resolved

aws-nageshvh reviewed Apr 11, 2025

View reviewed changes

...src/main/java/org/apache/flink/connector/kinesis/source/enumerator/tracker/SplitTracker.java Show resolved Hide resolved

aws-nageshvh reviewed Apr 11, 2025

View reviewed changes

...src/main/java/org/apache/flink/connector/kinesis/source/enumerator/tracker/SplitTracker.java Show resolved Hide resolved

arunlakshman force-pushed the FLINK-37627 branch from d5a615a to cbb3eb7 Compare April 15, 2025 21:16

arunlakshman marked this pull request as ready for review April 15, 2025 21:27

[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoin…

8a1ded6

…t/savepoint which coincides with shard split causes data loss

arunlakshman force-pushed the FLINK-37627 branch from cbb3eb7 to 8a1ded6 Compare April 15, 2025 21:43

arunlakshman requested review from aws-nageshvh and leekeiabstraction April 15, 2025 21:45

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoint/savepoint which coincides with shard split causes data loss #198

[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoint/savepoint which coincides with shard split causes data loss #198

arunlakshman commented Apr 11, 2025 •

edited

Loading

boring-cyborg bot commented Apr 11, 2025

[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoint/savepoint which coincides with shard split causes data loss #198

Are you sure you want to change the base?

[FLINK-37627][BugFix][Connectors/Kinesis] Restarting from a checkpoint/savepoint which coincides with shard split causes data loss #198

Conversation

arunlakshman commented Apr 11, 2025 • edited Loading

Purpose of the change

Verifying this change

Significant changes

boring-cyborg bot commented Apr 11, 2025

arunlakshman commented Apr 11, 2025 •

edited

Loading