如何匹配来自不同电子商务来源的标题的产品?提取产品属性

How to match products from titles from different eCommerce sources? extract attributes of products

这是我的第二个问题,如有错误,请见谅。

我的主要目标是从不同的 e-commerce 站点收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同站点的相同产品。由于不同的网站写标题不同,我需要从标题中提取产品属性以正确匹配。我使用 scrapy 收集数据,但无法匹配来自不同站点的相同产品。

我的尝试:

首先,我收集了品牌、型号等,然后按照常规方式从标题中进行匹配。但它不起作用,因为无法收集所有型号名称进行比较。另外,不同品类的产品属性不同,不相似。我正在努力寻找适用于各种产品的解决方案。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、相机等)

我也尝试过应用机器学习,但不了解哪种方法适合我的需要。大多数文本分类方法对类别进行分类而不是提取属性。

我也看了MALLET. but not sure if that will solve my issue. Also tried scikit-learn this tutorial

来自不同站点的示例产品标题。 三星 Galaxy S9 Plus

请分享我如何解决这个问题,哪种方法最好。如果可能的话,分享一些类似目标的链接或资源。

使用 sentence2vec 或 word2vec 库将文本转换为向量。之后使用向量之间的余弦相似度。

保持一定的相似度阈值,否则具有最大相似度值的向量将是匹配的产品。

这就是您比较它们的方式。