没有标签的文档是否会向 Facebook 的 FastText 监督分类器添加信息?
Do documents without labels add information to Facebook's FastText supervised classifier?
希望你们一切顺利。
我正在使用 Facebook 的 FastText 训练分类器以确定一段文本(推文)是否在谈论经济。
为了完成这项任务,我有大约 2200 条标记为“经济”或“not_economy”的推文,但我也有将近一百万条未标记的推文。
阅读 FastText 的文档我知道受监督的输入文件应该是一个文档,每行一条推文,前缀为 __label__economy
或 __label__not_economy
.
该文档没有谈到将未标记的文档添加到无监督输入文件中,但由于它是一个词嵌入模型,它应该从词的文本分布中获取上下文信息,所以我认为给模型所有这些额外的东西信息应该有助于更好地嵌入我的词汇表。出于这个原因,我正在训练模型(使用 fasttext supervised -input tweets_input -output tweets_model
),但我还在最后添加了未标记的文档。问题是所有这些近 100 万条推文似乎根本没有增强模型。
我知道我可以利用这些数据的另一种方法是训练一个无监督模型并开始使用句子嵌入来训练分类器。
问题是标题中的问题:
没有标签的文档是否会向 Facebook 的 FastText 监督分类器添加信息?获取文档嵌入并与其他库一起训练我自己的分类器是否更好?
感谢您提供任何有助于我更好地理解的信息。
您不能使用未标记的文档来训练监督模型,
因为他们缺少标签。
你可以试试这个主意:
- 使用所有文档(也包括未标记的文档)到train an unsupervised embedding(bin 文件)
- convert bin model to vec file
- train the supervised model, providing the vec file as pretrainedVectors parameter:通过这样做,无监督模型成为监督模型的基础。
希望你们一切顺利。
我正在使用 Facebook 的 FastText 训练分类器以确定一段文本(推文)是否在谈论经济。 为了完成这项任务,我有大约 2200 条标记为“经济”或“not_economy”的推文,但我也有将近一百万条未标记的推文。
阅读 FastText 的文档我知道受监督的输入文件应该是一个文档,每行一条推文,前缀为 __label__economy
或 __label__not_economy
.
该文档没有谈到将未标记的文档添加到无监督输入文件中,但由于它是一个词嵌入模型,它应该从词的文本分布中获取上下文信息,所以我认为给模型所有这些额外的东西信息应该有助于更好地嵌入我的词汇表。出于这个原因,我正在训练模型(使用 fasttext supervised -input tweets_input -output tweets_model
),但我还在最后添加了未标记的文档。问题是所有这些近 100 万条推文似乎根本没有增强模型。
我知道我可以利用这些数据的另一种方法是训练一个无监督模型并开始使用句子嵌入来训练分类器。
问题是标题中的问题:
没有标签的文档是否会向 Facebook 的 FastText 监督分类器添加信息?获取文档嵌入并与其他库一起训练我自己的分类器是否更好?
感谢您提供任何有助于我更好地理解的信息。
您不能使用未标记的文档来训练监督模型, 因为他们缺少标签。
你可以试试这个主意:
- 使用所有文档(也包括未标记的文档)到train an unsupervised embedding(bin 文件)
- convert bin model to vec file
- train the supervised model, providing the vec file as pretrainedVectors parameter:通过这样做,无监督模型成为监督模型的基础。