BeautifulSoup url 抓取

Question

第一次尝试BeautifulSoup。

我有这个linkhttp://www.mediafire.com/download/alv8dq6k35n4m2k/For+You.zip

我想通过
下载按钮直接下载 url http://download2110.mediafire.com/niz8p9iu6r9g/alv8dq6k35n4m2k/For+You.zip

到目前为止我已经尝试了什么。

r = requests.get(url)
soup = BeautifulSoup(r.content)
links = soup.findAll('a')

我认为最后一个函数 findAll('a') 会从该页面找到所有 link，但我无法在我的 links 列表中找到直接下载 url .

我是不是做错了什么？如果是这样，我怎样才能用 beautifulsoup 抓住那个 link。我在 Chrome Developer Console 中检查元素，我看到 link 在那里。

Answer 1

您可以尝试从 javascript:

中提取 url

from bs4 import BeautifulSoup

import requests

r = requests.get("http://www.mediafire.com/download/alv8dq6k35n4m2k/For+You.zip")

soup = BeautifulSoup(r.content)

link = soup.find("div",{"class":"download_link"})
import re

url = re.findall("http.*.zip?",link.text)[0]

BeautifulSoup url 抓取

BeautifulSoup url scraping

python

beautifulsoup

request

web-scraping