tf-idf 中的文档和语料库是什么?

What are document and corpus in tf-idf?

tf-idf = term frequency * inverse document frequency

术语频率 定义为文档中术语的计数。

反向文档频率定义为文档总数除以包含该词的文档数。

上面的公式可能会有所不同,但这是大局。 现在,假设我有一个包含 100 万个句子列表的数据集:

1) 文档是数据集中的条目吗?

2)整个数据集是语料库吗?

这个问题在某种程度上与 [1] 有关,但答案并没有帮助我理解真实数据集的概念。

谢谢。

[1]

在您的特定情况下,如果句子不相关,则将每个句子称为 "document"。

更详细地说,TF意味着一个术语在当前样本中很频繁(避免术语"document")。 DF表示一个词项在每个样本中都是频繁的。商 TF/DF,然后,returns 对于在整个集合中罕见的术语来说是一个很大的数字——表明它们很重要——而对于常见的术语来说是一个较低的数字。