寻找自动从 CMS 中提取值以构建报告的最佳方法

Looking for the best way to automate scraping values off of a CMS to build reports

首先post所以对我放轻松:)

情况是我正试图从基于网络的(客户)CMS(客户管理系统)中抓取信息,该系统上有销售信息,然后将这些值放入 excel 或 Google sheets 最终构建一个报告,从而避免 time/errors 手动翻阅所有这些报告。

我记得曾经使用过一个解决方案(多种工具),它基本上会遍历页面并从这些页面上定义的字段中获取值,然后将该信息放入 sheet 的列中,然后我们将手动操作。我很确定它是基于 python 并且(我认为)使用 tampermonkey 扩展来获取有关 chrome.

的 dev/debugger 版本的信息

过程看起来像这样:

有人对如何完成这项工作有任何想法,或者任何人都知道有关此类特定任务的指南吗?尝试尽可能自动化 - 提前致谢。

Python 应该是一个不错的选择,因为它为您提供了许多不同的工具。根据 CMS 的功能,您可以选择不同的包。

简单HTML抓取

对于静态 HTML 内容的简单抓取 scrapy or Beautiful Soup 应该足够了。

抓取包括可执行内容

对于这些情况,您可以使用 Selenium which you can combine with Beautiful Soup. For more details can be found in this related question and