向量 Space 模型 - 查询向量 [0, 0.707, 0.707] 计算

Vector Space Model - query vector [0, 0.707, 0.707] calculated

我正在阅读 "Introduction to Information Retrieval "(Christopher Manning)这本书,当它介绍查询 "jealous gossip" 时,我卡在了第 6 章,它表明关联的向量单位是 [ 0, 0.707, 0.707] ( https://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html ) 考虑术语影响、嫉妒和八卦。 我试图通过计算 tfidf 来计算它,假设: - Tf 等于 1 表示嫉妒和八卦 - 如果我们将它计算为 log(N/df) 且 N=1(我只有 1 个查询,这是我的文档),idf 始终等于 0,df=1 表示嫉妒和八卦 => log(1) =0 由于idf为0,结果tfidf为0。 所以我决定用原始 tf 除以欧氏长度来计算查询向量的每个权重。在这种情况下,欧几里德长度为 sqrt(1+1)=1。 我无法获得决定 [0, 0.707, 0.707] 是查询向量的公式。 有人能帮我吗?

我还没有解决这个问题,但我认为问题可能是 sqrt(1+1)sqrt(2),所以当你规范化时,每个 1 都变成 1/sqrt(2) = 0.707