信息检索系统

Information retrieval system

文档的TF-IDF排序和排序的二元独立模型有什么区别?我无法区分它们。

我认为二进制独立模型的实际实现导致了 TF-IDF。如果我错了请帮助我。

你是对的。 Binary Independence Model assumption is that documents are binary vectors. That is, only the presence or absence of terms in documents are recorded. On the other hand, according to Vector Space Model,文档由术语权重向量表示,TF-IDF 只是表示术语权重的一种方式。

主要区别在于,在二元独立模型中,并不知道一个词有多重要,所有的词都被一视同仁。但是用 TF-IDF 对词进行加权会给在一篇文档中使用较多且文档频率较低的词提供更好的分数。