从电子商务产品页面中提取主要产品图像

Extracting the main product image from a ecommerce product page

我正在寻找从零售商网站上的产品页面中提取主图像的选项,问题是产品页面中有多个图像(相关图像),我认为可行的一种方法是提取所有图像链接,下载每个图像并比较每个图像的大小,并考虑将存储字节大小最大的那个作为主要产品图像。

显然这是一种非常低效的方法,我们知道大多数零售商都使用某些电子商务平台,如 magento、bigcommerce 等,主要的电子商务平台屈指可数,是否可以检测电子商务平台并利用他们每个人提供的模板来精确提取主要产品图像?

我知道这种方法永远不会完美,但我正在寻找一种算法,其准确率大概在 80% 左右,可行吗?

您可以使用简单的 dom html 库来提取 html。就magento而言,产品缩略图是产品页面上"product-image" class内的img标签。您可以将其提取为大小合适的缩略图。

您是否有要从中提取图像的零售商列表?如果是,则手动浏览每个零售商的站点,查看其 HTML,并创建一些代码以成功从该特定零售商提取图像。如果没有,那么恐怕你运气不好 - 你可以只抓取页面上最大的图像,或者使用其他一些启发式方法,但不能保证你抓取的是实际的产品图像。

创建某种通用实用程序的问题是每个电子商务平台都有自己的显示产品图像的结构,并且每个站点都可以更改该结构。例如,仅仅因为 Magento 通常 以某种方式构建其图像,并不意味着您将始终以这种方式看到它们 - 这完全取决于当前应用的主题。

如果您知道零售商和图像,也可以通过脚本下载它并在 foreach 循环语句中检查尺寸并保存最大的一个。

谢谢