无需 API 即可自动进行网络搜索

Question

我正在尝试自动从此 website 中提取一组值的信息。我有一个起始端口和目标端口的列表，例如THEODOSIA 和 KERCH 并且我需要为每个起点-目的地组合提取计算出的距离、速度和天数。有人可以就如何在 Python 中实现这一点提出建议吗？另一个潜在障碍是我列表中的端口有 'short names' 例如THEODOSIA 代表 Port of Theodosia, Ukraine。当您在搜索中输入 THEODOSIA 时，网站会提供自动完成建议，因此适合手动搜索。但是，我不确定这在自动搜索中是如何工作的。

我对网络完全没有经验scraping/searching所以在阅读了一些在线文章后开始编写下面的代码但是已经走到了死胡同并且认为我的代码没有任何用处。

from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
from webdriver_manager.chrome import ChromeDriverManager
import requests

#Example start and destination port values
df = pd.DataFrame({'StartPort':['THEODOSIA', 'ROSTOV'], 'DestinationPort':['KERCH', 'MARSEILLE']})

r = requests.get('http://ports.com/sea-route/')
soup = BeautifulSoup(r.content, 'html.parser')
rows = soup.findAll('tr', {"class": "span-7 prepend-top"})

startport = []
for a in soup.findAll('a',href=True, attrs={'class':"span-7 prepend-top"}):
    startport=a.find('div', attrs={'class':"span-7 title ac_input"})

Answer 1

您可以使用他们的 API 来获取完整的端口名称。然后用这些名字获取距离、速度和海上天数。

例如：

import requests
from bs4 import BeautifulSoup


from_ = 'Theodosia'
to_ = 'Kerch'

find_port_url = 'http://ports.com/aj/findport/'
route_url = 'http://ports.com/aj/sea-route/'

def find_port(port_name):
    return requests.get(find_port_url, params={'q': port_name, 'limit': 1}).text.split('|')[0]

def find_route(f, t):
    data = requests.get(route_url, params={'a':0, 'b':0, 'c': f.split(',')[0], 'd': t.split(',')[0]}, headers={'X-Requested-With': 'XMLHttpRequest'}).json()
    return data['cost']['nauticalmiles'], data['default_speed'], data['days_at_sea']


f = find_port(from_)
t = find_port(to_)

nm, speed, days = find_route(f, t)
print('Distance: {} nm Speed: {} Days at sea: {:.1f}'.format(nm, speed, days))

打印：

Distance: 70 nm Speed: 10 Days at sea: 0.3

无需 API 即可自动进行网络搜索

Automate web search without API

python

selenium

beautifulsoup

web-scraping

web-search