BeautifulSoup url 抓取
BeautifulSoup url scraping
第一次尝试BeautifulSoup。
我有这个linkhttp://www.mediafire.com/download/alv8dq6k35n4m2k/For+You.zip
我想通过
下载按钮直接下载 url
http://download2110.mediafire.com/niz8p9iu6r9g/alv8dq6k35n4m2k/For+You.zip
到目前为止我已经尝试了什么。
r = requests.get(url)
soup = BeautifulSoup(r.content)
links = soup.findAll('a')
我认为最后一个函数 findAll('a')
会从该页面找到所有 link,但我无法在我的 links
列表中找到直接下载 url .
我是不是做错了什么?如果是这样,我怎样才能用 beautifulsoup 抓住那个 link。我在 Chrome Developer Console 中检查元素,我看到 link 在那里。
您可以尝试从 javascript:
中提取 url
from bs4 import BeautifulSoup
import requests
r = requests.get("http://www.mediafire.com/download/alv8dq6k35n4m2k/For+You.zip")
soup = BeautifulSoup(r.content)
link = soup.find("div",{"class":"download_link"})
import re
url = re.findall("http.*.zip?",link.text)[0]
第一次尝试BeautifulSoup。
我有这个linkhttp://www.mediafire.com/download/alv8dq6k35n4m2k/For+You.zip
我想通过
下载按钮直接下载 url
http://download2110.mediafire.com/niz8p9iu6r9g/alv8dq6k35n4m2k/For+You.zip
到目前为止我已经尝试了什么。
r = requests.get(url)
soup = BeautifulSoup(r.content)
links = soup.findAll('a')
我认为最后一个函数 findAll('a')
会从该页面找到所有 link,但我无法在我的 links
列表中找到直接下载 url .
我是不是做错了什么?如果是这样,我怎样才能用 beautifulsoup 抓住那个 link。我在 Chrome Developer Console 中检查元素,我看到 link 在那里。
您可以尝试从 javascript:
中提取 urlfrom bs4 import BeautifulSoup
import requests
r = requests.get("http://www.mediafire.com/download/alv8dq6k35n4m2k/For+You.zip")
soup = BeautifulSoup(r.content)
link = soup.find("div",{"class":"download_link"})
import re
url = re.findall("http.*.zip?",link.text)[0]