寻找自动从 CMS 中提取值以构建报告的最佳方法
Looking for the best way to automate scraping values off of a CMS to build reports
首先post所以对我放轻松:)
情况是我正试图从基于网络的(客户)CMS(客户管理系统)中抓取信息,该系统上有销售信息,然后将这些值放入 excel 或 Google sheets 最终构建一个报告,从而避免 time/errors 手动翻阅所有这些报告。
我记得曾经使用过一个解决方案(多种工具),它基本上会遍历页面并从这些页面上定义的字段中获取值,然后将该信息放入 sheet 的列中,然后我们将手动操作。我很确定它是基于 python 并且(我认为)使用 tampermonkey 扩展来获取有关 chrome.
的 dev/debugger 版本的信息
过程看起来像这样:
- 已经登录到 CMS -> 执行 tool/script 然后会在新的 window
中自动打开订单
- 然后它会通过该顺序并从特定字段中获取值,然后将这些值复制到 sheet
- 然后关闭 window 并继续执行指定范围内的下一个订单
- 一旦它完成了指定的(日期)范围,这些列将类似于销售员/订单号/销售金额/附件金额等 - 然后手动操作,不需要进一步的自动化(除了公式中的sheet)
有人对如何完成这项工作有任何想法,或者任何人都知道有关此类特定任务的指南吗?尝试尽可能自动化 - 提前致谢。
Python 应该是一个不错的选择,因为它为您提供了许多不同的工具。根据 CMS 的功能,您可以选择不同的包。
简单HTML抓取
对于静态 HTML 内容的简单抓取 scrapy or Beautiful Soup 应该足够了。
抓取包括可执行内容
对于这些情况,您可以使用 Selenium which you can combine with Beautiful Soup. For more details can be found in this related question and 。
首先post所以对我放轻松:)
情况是我正试图从基于网络的(客户)CMS(客户管理系统)中抓取信息,该系统上有销售信息,然后将这些值放入 excel 或 Google sheets 最终构建一个报告,从而避免 time/errors 手动翻阅所有这些报告。
我记得曾经使用过一个解决方案(多种工具),它基本上会遍历页面并从这些页面上定义的字段中获取值,然后将该信息放入 sheet 的列中,然后我们将手动操作。我很确定它是基于 python 并且(我认为)使用 tampermonkey 扩展来获取有关 chrome.
的 dev/debugger 版本的信息过程看起来像这样:
- 已经登录到 CMS -> 执行 tool/script 然后会在新的 window 中自动打开订单
- 然后它会通过该顺序并从特定字段中获取值,然后将这些值复制到 sheet
- 然后关闭 window 并继续执行指定范围内的下一个订单
- 一旦它完成了指定的(日期)范围,这些列将类似于销售员/订单号/销售金额/附件金额等 - 然后手动操作,不需要进一步的自动化(除了公式中的sheet)
有人对如何完成这项工作有任何想法,或者任何人都知道有关此类特定任务的指南吗?尝试尽可能自动化 - 提前致谢。
Python 应该是一个不错的选择,因为它为您提供了许多不同的工具。根据 CMS 的功能,您可以选择不同的包。
简单HTML抓取
对于静态 HTML 内容的简单抓取 scrapy or Beautiful Soup 应该足够了。
抓取包括可执行内容
对于这些情况,您可以使用 Selenium which you can combine with Beautiful Soup. For more details can be found in this related question and