适用于浏览网站的 Python 个模块
Suitable Python modules for navigating a website
我正在寻找一个 python 模块,可以让我浏览网站的搜索栏、链接等。
对于上下文,我希望对该网站进行一些网络抓取 [https://www.realclearpolitics.com/]
我只是想获取与 2020 年大选有关的每个州的信息(投票数据等),并将其全部组织在一个数据库集合中。
显然有很多状态要经过,每个状态都在一个单独的网页上。所以我在 python 中寻找一种方法,我可以在其中快速浏览站点并获取每个页面的数据等,以及更新和添加到现有数据。因此,找到一种使用我输入的数据快速导航链接和搜索栏的方法将非常有帮助。
任何建议将不胜感激。
# a simple list that contains the names of each state
states = ["Alabama", "Alaska" ,"Arizona", "....."]
for state in states:
#code to look up the state in the searchbar of website
#figures being taken from website etc
break
这是我的粗略想法
Python 有很多选择可以实现这一点。正如@LD 提到的,您可以使用硒。如果您需要通过无头浏览器与网站 UI 交互,Selenium 是一个不错的选择。例如单击按钮,在搜索栏中输入文本等。如果您的需求不是那么复杂,例如,如果您只需要快速从网页中抓取所有原始内容并进行处理,那么您应该使用请求来自 Python 标准库的模块。
为了处理抓取的原始内容,我建议 beautiful soup。
希望对您有所帮助!
我正在寻找一个 python 模块,可以让我浏览网站的搜索栏、链接等。 对于上下文,我希望对该网站进行一些网络抓取 [https://www.realclearpolitics.com/] 我只是想获取与 2020 年大选有关的每个州的信息(投票数据等),并将其全部组织在一个数据库集合中。 显然有很多状态要经过,每个状态都在一个单独的网页上。所以我在 python 中寻找一种方法,我可以在其中快速浏览站点并获取每个页面的数据等,以及更新和添加到现有数据。因此,找到一种使用我输入的数据快速导航链接和搜索栏的方法将非常有帮助。 任何建议将不胜感激。
# a simple list that contains the names of each state
states = ["Alabama", "Alaska" ,"Arizona", "....."]
for state in states:
#code to look up the state in the searchbar of website
#figures being taken from website etc
break
这是我的粗略想法
Python 有很多选择可以实现这一点。正如@LD 提到的,您可以使用硒。如果您需要通过无头浏览器与网站 UI 交互,Selenium 是一个不错的选择。例如单击按钮,在搜索栏中输入文本等。如果您的需求不是那么复杂,例如,如果您只需要快速从网页中抓取所有原始内容并进行处理,那么您应该使用请求来自 Python 标准库的模块。
为了处理抓取的原始内容,我建议 beautiful soup。
希望对您有所帮助!