从从表单生成 csv 文件的网站抓取网页 (http://njdep.rutgers.edu/continuous/data.php)

Question

我很感兴趣从 http://njdep.rutgers.edu/continuous/data.php 中抓取数据集，以创建一个闪亮的应用程序，允许人们搜索该站点包含的数据。

在网站上填写表格后，它会生成一个 .csv 文件。无论如何找出从最早日期到最近状态的所有数据存储在哪里并使用 R 包或 python 包提取它？

Answer 1

在浏览器中，您可以右键单击并检查页面。当你点击下载按钮时，你可以在网络选项卡中看到底层的休息api。它应该看起来像这样：

http://njdep.rutgers.edu/continuous/data/downloadData.php?affiliation=NJDEP+-+Marine+Water+Monitoring&project=-1&huc14=-1&county=-1&munis=-1&station_type=-1&station=-1&start_date=&end_date=&params=

如果您更改各种表单参数，您可以了解如何更改 url 以获得不同的数据变体。然后你可以使用像请求这样的包来获取 python.

中的数据

import requests

url = 'your_modified_url'
res = requests.get(url)
res.raise_for_status()
data = res.content

从从表单生成 csv 文件的网站抓取网页 (http://njdep.rutgers.edu/continuous/data.php)

web scraping from site that generates csv file from form (http://njdep.rutgers.edu/continuous/data.php)

python

csv

screen-scraping

r