获得两个全文文档之间相似性度量的方法?
Ways of obtaining a similarity metric between two full text documents?
假设我有三个文本文档,例如(让 3 个随机生成的文本)。
文档 1:
"Whole every miles as tiled at seven or. Wished he entire esteem mr oh by. Possible bed you pleasure civility boy elegance ham. He prevent request by if in pleased. Picture too and concern has was comfort. Ten difficult resembled eagerness nor. Same park bore on be...."
文档 2:
"Style too own civil out along. Perfectly offending attempted add arranging age gentleman concluded. Get who uncommonly our expression ten increasing considered occasional travelling. Ever read tell year give may men call its. Piqued son turned fat income played end wicket..."
如果我想在 python(使用库)中获得一个 关于这两个文档与第三个文档的相似程度的指标(换句话说,哪一个两份文件中的一份与第三份文件更相似),最好的处理方式是什么?
edit:我观察到他们通过将单个句子与其他句子进行比较来回答其他问题,但我对此不感兴趣,因为我想比较全文(由相关句子组成)与另一个全文进行比较,并获得一个数字(例如,该数字可能大于另一个与目标文件不太相似的不同文档的比较)
这个问题没有简单的答案。因为相似性会更好或更差,具体取决于您要执行的特定任务。
话虽如此,您确实有几个关于比较文本块的选项。 This post 对计算句子相似度的几种不同方法进行比较和排名,然后您可以将它们聚合起来以执行完整的文档相似度。如何聚合这个?也将取决于您的特定任务。一种简单但通常表现良好的方法是计算 2 个(或更多)文档的平均句子相似度。
本主题的其他有用链接包括:
- Introduction to Information Retrieval(免费书籍)
- Doc2Vec(来自gensim,用于段落嵌入,这可能非常适合您的情况)
假设我有三个文本文档,例如(让 3 个随机生成的文本)。
文档 1:
"Whole every miles as tiled at seven or. Wished he entire esteem mr oh by. Possible bed you pleasure civility boy elegance ham. He prevent request by if in pleased. Picture too and concern has was comfort. Ten difficult resembled eagerness nor. Same park bore on be...."
文档 2:
"Style too own civil out along. Perfectly offending attempted add arranging age gentleman concluded. Get who uncommonly our expression ten increasing considered occasional travelling. Ever read tell year give may men call its. Piqued son turned fat income played end wicket..."
如果我想在 python(使用库)中获得一个 关于这两个文档与第三个文档的相似程度的指标(换句话说,哪一个两份文件中的一份与第三份文件更相似),最好的处理方式是什么?
edit:我观察到他们通过将单个句子与其他句子进行比较来回答其他问题,但我对此不感兴趣,因为我想比较全文(由相关句子组成)与另一个全文进行比较,并获得一个数字(例如,该数字可能大于另一个与目标文件不太相似的不同文档的比较)
这个问题没有简单的答案。因为相似性会更好或更差,具体取决于您要执行的特定任务。
话虽如此,您确实有几个关于比较文本块的选项。 This post 对计算句子相似度的几种不同方法进行比较和排名,然后您可以将它们聚合起来以执行完整的文档相似度。如何聚合这个?也将取决于您的特定任务。一种简单但通常表现良好的方法是计算 2 个(或更多)文档的平均句子相似度。
本主题的其他有用链接包括:
- Introduction to Information Retrieval(免费书籍)
- Doc2Vec(来自gensim,用于段落嵌入,这可能非常适合您的情况)