从从表单生成 csv 文件的网站抓取网页 (http://njdep.rutgers.edu/continuous/data.php)
web scraping from site that generates csv file from form (http://njdep.rutgers.edu/continuous/data.php)
我很感兴趣从 http://njdep.rutgers.edu/continuous/data.php 中抓取数据集,以创建一个闪亮的应用程序,允许人们搜索该站点包含的数据。
在网站上填写表格后,它会生成一个 .csv 文件。无论如何找出从最早日期到最近状态的所有数据存储在哪里并使用 R 包或 python 包提取它?
在浏览器中,您可以右键单击并检查页面。当你点击下载按钮时,你可以在网络选项卡中看到底层的休息api。它应该看起来像这样:
http://njdep.rutgers.edu/continuous/data/downloadData.php?affiliation=NJDEP+-+Marine+Water+Monitoring&project=-1&huc14=-1&county=-1&munis=-1&station_type=-1&station=-1&start_date=&end_date=¶ms=
如果您更改各种表单参数,您可以了解如何更改 url 以获得不同的数据变体。然后你可以使用像请求这样的包来获取 python.
中的数据
import requests
url = 'your_modified_url'
res = requests.get(url)
res.raise_for_status()
data = res.content
我很感兴趣从 http://njdep.rutgers.edu/continuous/data.php 中抓取数据集,以创建一个闪亮的应用程序,允许人们搜索该站点包含的数据。
在网站上填写表格后,它会生成一个 .csv 文件。无论如何找出从最早日期到最近状态的所有数据存储在哪里并使用 R 包或 python 包提取它?
在浏览器中,您可以右键单击并检查页面。当你点击下载按钮时,你可以在网络选项卡中看到底层的休息api。它应该看起来像这样:
http://njdep.rutgers.edu/continuous/data/downloadData.php?affiliation=NJDEP+-+Marine+Water+Monitoring&project=-1&huc14=-1&county=-1&munis=-1&station_type=-1&station=-1&start_date=&end_date=¶ms=
如果您更改各种表单参数,您可以了解如何更改 url 以获得不同的数据变体。然后你可以使用像请求这样的包来获取 python.
中的数据import requests
url = 'your_modified_url'
res = requests.get(url)
res.raise_for_status()
data = res.content