网络数据提取

data extraction from web

作为我工作的一部分,我计划从网络资源中提取数据(网络抓取)。我想提取我公司 10 公里半径范围内的信息。

我想提取公寓、地址、单位数量和每平方英尺价格等信息。其他如该地区的学校和幼儿园数量以及酒店。

我知道我需要从几个 sources/webpages 中提取。我也会使用 Python.

我想知道我应该使用哪个或哪些库。网络抓取是唯一的手段吗?我们可以从 Google 地图中提取信息吗?

此外,如果有人有任何经验,如果你能指导我,我将不胜感激。

非常感谢,伙计们。

对于 Google 地图,请尝试 API。 Google TOS 强烈反对使用网络抓取工具提取地图数据。

如果您正在使用 Python,它有非常好的库 BeautifulSoup 和 Scrapy 用于此目的。

其他方式?你可以从 OSM 数据中提取兴趣点,试试开源工具。 属性信息?政府办公室可能会为您所在的县/州提供此服务,请尝试一下。