Flink状态和普通class变量的区别

Question

我无法理解 Apache Flink 中状态的使用。据我了解，状态在 Flink 程序执行期间维护变量值。我认为同样的事情可以通过 class 变量来实现。

例如，如果我声明一个 class 变量 "someCounter" 并在某些 Map 函数中增加它的值，那么 "someCounter" 值在代码执行过程中会保留，那么为什么我们需要一个昂贵的状态来维持与示例中提到的相似值 link: https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/state/state.html#tab_java_0 ？

static class abc extends RichMapFunction<X,Y> {
    long someCounter = 0;
    //ctor
    public  abc() {};

    @Override
    public Y map(X x) throws Exception {            
        someCounter++;
        if(someCounter > 1000)
            someCounter = 0;
        return someCounter;
    }
}

Answer 1

故障恢复、重新部署和重新扩展是一些重大差异。

Flink 对其管理的状态进行定期检查。如果发生故障，您的作业可以使用最新的检查点自动恢复，并继续处理。您还可以手动触发状态快照（在本例中称为保存点）并在重新部署后使用它重新启动。在此过程中，您还可以向上或向下重新缩放集群。

您还可以选择 Flink 状态所在的位置——作为堆上的对象，或者作为磁盘上的序列化字节。因此，有可能拥有比内存所能容纳的更多的状态。

从操作的角度来看，这更像是将数据存储在数据库中，而不是存储在内存中。但从性能的角度来看，它更像是使用变量：状态始终是本地的，具有高吞吐量和低延迟。

Flink状态和普通class变量的区别

Difference between Flink state and ordinary class variables

java

variables

streaming

state

apache-flink