tf-idf 中的文档和语料库是什么？

What are document and corpus in tf-idf?

tf-idf = term frequency * inverse document frequency

术语频率 定义为文档中术语的计数。

反向文档频率定义为文档总数除以包含该词的文档数。

上面的公式可能会有所不同，但这是大局。现在，假设我有一个包含 100 万个句子列表的数据集：

1) 文档是数据集中的条目吗？

2）整个数据集是语料库吗？

这个问题在某种程度上与 [1] 有关，但答案并没有帮助我理解真实数据集的概念。

谢谢。

[1]

在您的特定情况下，如果句子不相关，则将每个句子称为 "document"。

更详细地说，TF意味着一个术语在当前样本中很频繁（避免术语"document"）。 DF表示一个词项在每个样本中都是频繁的。商 TF/DF，然后，returns 对于在整个集合中罕见的术语来说是一个很大的数字——表明它们很重要——而对于常见的术语来说是一个较低的数字。