可以抓取这种类型的网站架构吗?
Scraping this type of site architecture possible?
我正在尝试为客户构建 Web 应用程序。它在这个站点上实现了一个简单的远程搜索:
https://www.handelsregister.de/rp_web/mask.do?Typ=n
我需要做的就是在标记为 Company or keywords
的输入字段中插入一些值,执行搜索并获得 HTTP 响应。
问题是我不熟悉这种架构;我一直使用带有URL等的API,是否可以通过编程自动执行上述操作?
可能吧。您可以发送 POST 请求并解析响应。这是 Python 中带有模块 requests
的基本示例:
import requests
query = "test"
post_fields = {'suchTyp':'n',
'registerArt':'',
'registerNummer':'',
'registergericht':'',
'schlagwoerter':query,
'schlagwortOptionen':2,
'ergebnisseProSeite':100,
'btnSuche':'Rechercher'}
response = requests.post("https://www.handelsregister.de/rp_web/search.do", data=post_fields)
print(response.status_code)
print(response.text)
我正在尝试为客户构建 Web 应用程序。它在这个站点上实现了一个简单的远程搜索:
https://www.handelsregister.de/rp_web/mask.do?Typ=n
我需要做的就是在标记为 Company or keywords
的输入字段中插入一些值,执行搜索并获得 HTTP 响应。
问题是我不熟悉这种架构;我一直使用带有URL等的API,是否可以通过编程自动执行上述操作?
可能吧。您可以发送 POST 请求并解析响应。这是 Python 中带有模块 requests
的基本示例:
import requests
query = "test"
post_fields = {'suchTyp':'n',
'registerArt':'',
'registerNummer':'',
'registergericht':'',
'schlagwoerter':query,
'schlagwortOptionen':2,
'ergebnisseProSeite':100,
'btnSuche':'Rechercher'}
response = requests.post("https://www.handelsregister.de/rp_web/search.do", data=post_fields)
print(response.status_code)
print(response.text)