文本内容相关性检查
Text Content Relevancy Check
我需要检查特定网页上内容的相关性。我有成千上万
检查这个的网页。检查页面标题是否与页面内容相关的最佳方法是什么。
你的问题有点含糊,当你说:
What is the best way to check if the page title is relevant to the
content on the page.
如何根据您的问题定义相关性?
我不知道这是否是您想要的,但我想到了一些事情,本质上是比较两个文档的相似程度,一个文档是标题,另一个是描述。
你可以考虑为两者生成向量表示的方法,并比较它们的相似程度。
- Jaccard 相似度使用标记作为两个集合(即文档)的元素
- TF-IDF 加权向量并将它们与余弦相似度进行比较
- 计算每个文档的分布主题 model/LDA 并使用 Kullback-Leibler 散度
比较它们
- 将文档编码成某种密集向量(doc2vec,或通过 LSTM 读取它们并保持最后状态),然后比较两个向量。
唯一的考虑是标题的大小与网页内容相比非常小。
我需要检查特定网页上内容的相关性。我有成千上万 检查这个的网页。检查页面标题是否与页面内容相关的最佳方法是什么。
你的问题有点含糊,当你说:
What is the best way to check if the page title is relevant to the content on the page.
如何根据您的问题定义相关性?
我不知道这是否是您想要的,但我想到了一些事情,本质上是比较两个文档的相似程度,一个文档是标题,另一个是描述。
你可以考虑为两者生成向量表示的方法,并比较它们的相似程度。
- Jaccard 相似度使用标记作为两个集合(即文档)的元素
- TF-IDF 加权向量并将它们与余弦相似度进行比较
- 计算每个文档的分布主题 model/LDA 并使用 Kullback-Leibler 散度 比较它们
- 将文档编码成某种密集向量(doc2vec,或通过 LSTM 读取它们并保持最后状态),然后比较两个向量。
唯一的考虑是标题的大小与网页内容相比非常小。