tf-idf 中的文档和语料库是什么?
What are document and corpus in tf-idf?
tf-idf = term frequency * inverse document frequency
术语频率 定义为文档中术语的计数。
反向文档频率定义为文档总数除以包含该词的文档数。
上面的公式可能会有所不同,但这是大局。
现在,假设我有一个包含 100 万个句子列表的数据集:
1) 文档是数据集中的条目吗?
2)整个数据集是语料库吗?
这个问题在某种程度上与 [1] 有关,但答案并没有帮助我理解真实数据集的概念。
谢谢。
[1]
在您的特定情况下,如果句子不相关,则将每个句子称为 "document"。
更详细地说,TF意味着一个术语在当前样本中很频繁(避免术语"document")。 DF表示一个词项在每个样本中都是频繁的。商 TF/DF,然后,returns 对于在整个集合中罕见的术语来说是一个很大的数字——表明它们很重要——而对于常见的术语来说是一个较低的数字。
tf-idf = term frequency * inverse document frequency
术语频率 定义为文档中术语的计数。
反向文档频率定义为文档总数除以包含该词的文档数。
上面的公式可能会有所不同,但这是大局。 现在,假设我有一个包含 100 万个句子列表的数据集:
1) 文档是数据集中的条目吗?
2)整个数据集是语料库吗?
这个问题在某种程度上与 [1] 有关,但答案并没有帮助我理解真实数据集的概念。
谢谢。
[1]
在您的特定情况下,如果句子不相关,则将每个句子称为 "document"。
更详细地说,TF意味着一个术语在当前样本中很频繁(避免术语"document")。 DF表示一个词项在每个样本中都是频繁的。商 TF/DF,然后,returns 对于在整个集合中罕见的术语来说是一个很大的数字——表明它们很重要——而对于常见的术语来说是一个较低的数字。