如何使用欧氏距离计算三对文档的相似度值

How to use Euclidean Distance to calculate similarity values for the three pairs of documents

我正在尝试解决这个问题,但是我不确定如何使用欧几里得方程来找到解决方案。

问题:

以下是来自其他 3 个的关键字、频率和标记计数 文件。

文档 4 – 平板电脑:7;内存:5;应用程序:8;呆滞:5

文档 5 – 内存:4;性能:6;剧本:8;应用程序:6

文档 6 –平板电脑:6;性能:3;剧本:7;呆滞:3

令牌数:Doc 4:55 Doc 5:60 Doc 6:65

(i) 使用欧氏距离计算三对的相似度值 文档 (4,5)、(4,6)、(5,6) 以及相对频率值。说明 每对距离小数点后 4 位 (4 d.p.).


我尝试将欧几里得距离公式与给定的文档对一起使用,以找出每对文档的距离。

这是我尝试使用的方程式:

距离((x, y), (a, b)) = √(x - a)² + (y - b)²

根据解决方案,答案应该是这样的:

欧几里得 D4,D5 = 0.2343 到 4.d.p

欧几里得 D5,D6 = 0.1693 到 4.d.p

欧几里得 D4,D6 = 0.2153 到 4.d.p

如有任何帮助,我们将不胜感激。

Euclidean distance是一种流行的启发式算法,公式如下:

假设您有 2 个点 (a1,b1)(a2,b2),那么这些点之间的 Euclidean distance 为:SquareRoot( (a2-a1)^2 + (b2-b1)^2 ).

在你的情况下,

Doc 4 - (7,5,8,5)
Doc 5 - (4,6,8,6)

所以要应用的公式是,

SquareRoot( (a2-a1)^2 + (b2-b1)^2 + (c2-c1)^2 + (d2-d1)^2 ).

Wikipedia

点p和q之间的欧氏距离是连接它们的线段的长度(pq).

笛卡尔坐标系中,如果p=(p1,p2,...,pn)和q=(q1,q2,...,qn)是欧式n-space中的两个点,那么从 p 到 q 或从 q 到 p 的距离 (d) 由毕达哥拉斯公式给出:

d(p ,q) = d (q ,p) = [(p1-q1)^2  + (p1-q1)^2 + ... (pn-qn)^2]^(1/2)

让我们像这样规范化给定。

Doc 4 – tablet: 7, memory: 5, apps: 8, sluggish: 5, playbook: 0,  performance: 0
Doc 5 – tablet: 0, memory: 4, apps: 6, sluggish: 0, playbook: 8, performance: 6 
Doc 6 – tablet: 6, memory: 0, apps:0, sluggish: 3, playbook: 7, performance: 3 

那么根据上面的公式,

D(Doc4, Doc5) = [(7-0)^2 + (5-4)^2 + (8-6)^2 + (5-0)^2 + (8-0)^2 + (0-0)^2]^(1/2) = [49+1+4+25+64]^(1/2) ~= 11.96

你可以像我一样计算另外两对。

如果需要请告诉我,因此我添加了一个示例片段来以编程方式进行计算。

首先,您应该根据您的术语频率制作文档术语矩阵。术语的术语频率是指该术语在文档中重复的次数除以文档具有的标记数。所以我们做了下面的 table:

你自己提到了距离公式,我就以文档4和文档5的距离计算为例

d(Document4,Document5) = [(7/55-0)^2 + (5/55-4/60)^2 + (8/55-6/60)^2 + (5/ 55-0)^2 + (0-6/60)^2 + (0-8/60)^2]^(1/2) = 0.23428614982 四舍五入为 0.2343.