解析来自网站的链接，并将特定链接输出为 Python 中的变量

Question

我第一次尝试使用 python 进行网络抓取时再次陷入困境。

url = link
page = requests.get(url)
soup = BeautifulSoup(page.content, features="lxml")
checkout_link = []
links = soup.find_all("a")
for url in soup.find_all('a'):
    if url.get('href') == None:
        pass
    elif len(url.get('href')) >= 200:
        checklist += 10
        for search in links:
            if "checkout" in search.get("href"):
                checkout_link = search.get("href")
            else:
                pass
    else:
        pass

所以这是我现在的代码。所有 links 的解析工作正常（我希望这部分检查总共有多少 links 可用，并且认为这将是在单个请求中同时执行这两个操作的好方法。纠正我如果我正在以错误的方式尝试此操作），即使我搜索结帐 link 并打印它，我也会打印出正确的 link 参考，但我找不到将其存储在 checkout_link 进一步使用它。我想在之后向这个特定的结帐请求 url。

Answer 1

您需要将其附加到列表中

checkout_link.append(search.get("href"))

考虑通过带有 * 包含运算符的属性选择器进行 href 过滤：

soup.select_one("[href*=checkout]")['href']

解析来自网站的链接，并将特定链接输出为 Python 中的变量

Parsing links from website, and outputting a specific one as variable in Python

python

beautifulsoup

html-parsing

web-scraping

web