Python – 从网站中提取某些链接
Python – Extract certain links from website
我想从 website 中提取某些 link。
要提取所有 link,我试过:
import urllib
import xml.etree.ElementTree as ET
from BeautifulSoup import *
url = 'http://pdok.bundestag.de/index.php?qsafe=&aload=off&q=kleine+anfrage&x=0&y=0&df=22.10.2013&dt=13.01.2016'
uh = urllib.urlopen(url)
data = uh.read()
soup=BeautifulSoup(data)
soup.prettify()
for href in soup.findAll('a'):
print href
现在,我得到了 link 的列表,但出于某种原因,我没有得到 tbody
中的重要 link。我也尝试过使用 ElementTree,但我在读取 link 时遇到错误,因为它使用了一些无效符号(?)。任何帮助深表感谢! :)
urllib
加载网站 HTML Javascript off。您试图在 tbody
中抓取的链接由 JavaScript 呈现,因此永远不要加载。
您可以通过在浏览器中关闭 JavaScript 并访问该网站来复制此行为。如果你经常抓取,你可能希望下载一个浏览器插件,它允许你快速打开和关闭 JavaScript。
要抓取使用 JavaScript 加载 HTML 内容的网站,您可能希望探索 selenium
等浏览器自动化选项。
我想从 website 中提取某些 link。
要提取所有 link,我试过:
import urllib
import xml.etree.ElementTree as ET
from BeautifulSoup import *
url = 'http://pdok.bundestag.de/index.php?qsafe=&aload=off&q=kleine+anfrage&x=0&y=0&df=22.10.2013&dt=13.01.2016'
uh = urllib.urlopen(url)
data = uh.read()
soup=BeautifulSoup(data)
soup.prettify()
for href in soup.findAll('a'):
print href
现在,我得到了 link 的列表,但出于某种原因,我没有得到 tbody
中的重要 link。我也尝试过使用 ElementTree,但我在读取 link 时遇到错误,因为它使用了一些无效符号(?)。任何帮助深表感谢! :)
urllib
加载网站 HTML Javascript off。您试图在 tbody
中抓取的链接由 JavaScript 呈现,因此永远不要加载。
您可以通过在浏览器中关闭 JavaScript 并访问该网站来复制此行为。如果你经常抓取,你可能希望下载一个浏览器插件,它允许你快速打开和关闭 JavaScript。
要抓取使用 JavaScript 加载 HTML 内容的网站,您可能希望探索 selenium
等浏览器自动化选项。