"IDF is just dependent on the term" 是什么意思?
What does it mean "IDF is just dependent on the term"?
有人可以举例说明 "Tf is dependent on term and document" 和 "IDF is just dependent on the term" 吗?
假设我们有这两个文档:
d_1: "Tf is dependent on term and document"
d_2: "IDF is just dependent on the term"
每个文档中的术语数如下:
d_1:
{Tf: 1, is: 1, dependent: 1, on: 1, term: 1, and: 1, document: 1}
d_2:
{IDF: 1, is: 1, just: 1, dependent: 1, on: 1, the: 1, term: 1}
术语 "on" 的术语频率(即术语 t 在文档 d 中出现的次数与该文档的术语总数之比)为:
tf(on, d_1) = 1 / 7
tf(on, d_2) = 1 / 7
要计算一个词的词频,您必须指定您在谈论哪个文档。 tf(on, d_1) = 1/7 告诉你 d_1 中所有单词的 1/7 是 "on"。
逆文档频率(包含单词"on"的文档比率的对数)为:
idf(on) = log(2/2) = 0
如您所见,这个由两个文档组成的语料库中的所有文档的 idf 都是不变的。它只是衡量一个术语在一组文档中的常见程度。 idf(on) = 0 告诉您 "on" 一点也不特殊,它出现在所有文档中。
有人可以举例说明 "Tf is dependent on term and document" 和 "IDF is just dependent on the term" 吗?
假设我们有这两个文档:
d_1: "Tf is dependent on term and document"
d_2: "IDF is just dependent on the term"
每个文档中的术语数如下:
d_1:
{Tf: 1, is: 1, dependent: 1, on: 1, term: 1, and: 1, document: 1}
d_2:
{IDF: 1, is: 1, just: 1, dependent: 1, on: 1, the: 1, term: 1}
术语 "on" 的术语频率(即术语 t 在文档 d 中出现的次数与该文档的术语总数之比)为:
tf(on, d_1) = 1 / 7
tf(on, d_2) = 1 / 7
要计算一个词的词频,您必须指定您在谈论哪个文档。 tf(on, d_1) = 1/7 告诉你 d_1 中所有单词的 1/7 是 "on"。
逆文档频率(包含单词"on"的文档比率的对数)为:
idf(on) = log(2/2) = 0
如您所见,这个由两个文档组成的语料库中的所有文档的 idf 都是不变的。它只是衡量一个术语在一组文档中的常见程度。 idf(on) = 0 告诉您 "on" 一点也不特殊,它出现在所有文档中。