哪个 F1-score 用于语义分割任务?
Which F1-score is used for the semantic segmentation tasks?
我读了一些关于最先进的语义分割模型的论文,在所有这些论文中,作者都使用 F1 分数指标进行比较,但他们没有写他们是否使用它的“微观”或“宏观”版本。
有谁知道用哪个F1-score来描述分割结果,为什么这么明显作者没有在论文中定义它?
样本论文:
只有一个 F-1 分数 - 准确率和召回率的调和平均值。
Macro/Micro/Samples/Weighted/Binary 用于 multiclass/multilabel 目标的上下文中。如果 None
,则返回每个 class 的分数。否则,这决定了对数据执行的平均类型:
binary
:仅报告 pos_label 指定的 class 的结果。这仅适用于目标 (y_{true,pred}) 是二进制的情况。
micro
:通过计算真阳性、假阴性和误报的总数来全局计算指标。
macro
:计算每个标签的指标,求出它们的未加权均值。这没有考虑标签不平衡。
weighted
:计算每个标签的指标,并找到它们的平均支持度加权(每个标签的真实实例数)。这改变了“宏观”以解释标签不平衡;它可能导致 F 分数不介于精度和召回率之间。
samples
:计算每个实例的指标,并找到它们的平均值(仅对多标签classification有意义,这与accuracy_score不同)
Segnet 论文在 Table#5 中分别讨论了不同的 classes 精度。所以我认为他们在这种情况下选择了None
。
我读了一些关于最先进的语义分割模型的论文,在所有这些论文中,作者都使用 F1 分数指标进行比较,但他们没有写他们是否使用它的“微观”或“宏观”版本。
有谁知道用哪个F1-score来描述分割结果,为什么这么明显作者没有在论文中定义它?
样本论文:
只有一个 F-1 分数 - 准确率和召回率的调和平均值。
Macro/Micro/Samples/Weighted/Binary 用于 multiclass/multilabel 目标的上下文中。如果 None
,则返回每个 class 的分数。否则,这决定了对数据执行的平均类型:
binary
:仅报告 pos_label 指定的 class 的结果。这仅适用于目标 (y_{true,pred}) 是二进制的情况。
micro
:通过计算真阳性、假阴性和误报的总数来全局计算指标。
macro
:计算每个标签的指标,求出它们的未加权均值。这没有考虑标签不平衡。
weighted
:计算每个标签的指标,并找到它们的平均支持度加权(每个标签的真实实例数)。这改变了“宏观”以解释标签不平衡;它可能导致 F 分数不介于精度和召回率之间。
samples
:计算每个实例的指标,并找到它们的平均值(仅对多标签classification有意义,这与accuracy_score不同)
Segnet 论文在 Table#5 中分别讨论了不同的 classes 精度。所以我认为他们在这种情况下选择了None
。