如何匹配来自不同电子商务来源的标题的产品?提取产品属性
How to match products from titles from different eCommerce sources? extract attributes of products
这是我的第二个问题,如有错误,请见谅。
我的主要目标是从不同的 e-commerce 站点收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同站点的相同产品。由于不同的网站写标题不同,我需要从标题中提取产品属性以正确匹配。我使用 scrapy 收集数据,但无法匹配来自不同站点的相同产品。
我的尝试:
首先,我收集了品牌、型号等,然后按照常规方式从标题中进行匹配。但它不起作用,因为无法收集所有型号名称进行比较。另外,不同品类的产品属性不同,不相似。我正在努力寻找适用于各种产品的解决方案。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、相机等)
我也尝试过应用机器学习,但不了解哪种方法适合我的需要。大多数文本分类方法对类别进行分类而不是提取属性。
我也看了MALLET. but not sure if that will solve my issue. Also tried scikit-learn this tutorial。
来自不同站点的示例产品标题。
三星 Galaxy S9 Plus
- 带有免费无线充电器和 5GB Banglalink 数据的三星 Galaxy S9 Plus - pickaboo
- 三星盖乐世 S9 Plus - kiksha
- 三星 Galaxy S9+ - mobiledokan
- Samsung Galaxy S9 Plus - 智能手机 - 6.2" - 6GB RAM - 64GB ROM - 12 MP 相机 - 淡紫色 - daraz
请分享我如何解决这个问题,哪种方法最好。如果可能的话,分享一些类似目标的链接或资源。
使用 sentence2vec 或 word2vec 库将文本转换为向量。之后使用向量之间的余弦相似度。
保持一定的相似度阈值,否则具有最大相似度值的向量将是匹配的产品。
这就是您比较它们的方式。
这是我的第二个问题,如有错误,请见谅。
我的主要目标是从不同的 e-commerce 站点收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同站点的相同产品。由于不同的网站写标题不同,我需要从标题中提取产品属性以正确匹配。我使用 scrapy 收集数据,但无法匹配来自不同站点的相同产品。
我的尝试:
首先,我收集了品牌、型号等,然后按照常规方式从标题中进行匹配。但它不起作用,因为无法收集所有型号名称进行比较。另外,不同品类的产品属性不同,不相似。我正在努力寻找适用于各种产品的解决方案。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、相机等)
我也尝试过应用机器学习,但不了解哪种方法适合我的需要。大多数文本分类方法对类别进行分类而不是提取属性。
我也看了MALLET. but not sure if that will solve my issue. Also tried scikit-learn this tutorial。
来自不同站点的示例产品标题。 三星 Galaxy S9 Plus
- 带有免费无线充电器和 5GB Banglalink 数据的三星 Galaxy S9 Plus - pickaboo
- 三星盖乐世 S9 Plus - kiksha
- 三星 Galaxy S9+ - mobiledokan
- Samsung Galaxy S9 Plus - 智能手机 - 6.2" - 6GB RAM - 64GB ROM - 12 MP 相机 - 淡紫色 - daraz
请分享我如何解决这个问题,哪种方法最好。如果可能的话,分享一些类似目标的链接或资源。
使用 sentence2vec 或 word2vec 库将文本转换为向量。之后使用向量之间的余弦相似度。
保持一定的相似度阈值,否则具有最大相似度值的向量将是匹配的产品。
这就是您比较它们的方式。