vowpal wabbit 中的标签

Tags in vowpal wabbit

我正在使用 vowpal-wabbit 进行二元分类。一个特定的记录(特征集)有 10 个零和 5 个一。所以,我在 vowpal-format

中创建了两行
-1 10 `50 |f f1
1 5 `50 |f f1

由于这两个记录的预测(概率)相同,我想保留相同的标签,这样我可以稍后删除预测({标签,预测})并与我的原始原始数据结合. 是否可以在 vowpal-wabbit 中为多个记录保留相同的标签?

First, the syntax above isn't correct

要这样识别,标签应该:

  • 触摸 | 分隔符(它们之间没有 space)或
  • 按照惯例,前引号必须是简单的引号,而不是反引号。

(或两者)。

否则你会得到: warning: `50 is not a good float, replacing with 0 warning: `50 is not a good float, replacing with 0

这暗示 vw 将这些 "tags" 解释为预测基础。

详情见Input format in the official documentation

示例固定为正确的语法后: -1 10 '50|f f1 1 5 '50|f f1

运行良好,我们可以回答问题:

Is it possible to keep the same tag for more than one record in vowpal-wabbit?

是的,你可以。标签只是一种连接输入和输出的简单方法(当涉及预测时),没有任何地方的唯一性检查。如果您在输入上复制标签,您也会在预测输出上简单地获得相同的重复标签。

更多注释:

  • 即使两个示例相同,如果模型在它们之间发生了一些变化,您也可能会得到不同的预测。请记住 vw 是在线学习器,因此模型可以随着每个示例不断变化,除非您添加 -t(仅测试,不学习)选项。
  • 忽略值为零的特征,因此您可以删除它们。在 vw 中表示这是 'positive' 和这是 'negative' 的标准方法是使用值 {+1, -1}。对于标签和输入特征都是如此。