想用 lxml 和 python 从某个网站提取链接和标题,但不能
Want to extract links and titles from a certain website with lxml and python but cant
我是 Yasa James,14 岁,我是网络抓取的新手。
我正在尝试从此 website 中提取标题和链接。
作为一个所谓的“Utako”和一个 want-to-be 程序员,我想创建一个同时提取链接和标题的程序。我目前正在使用 lxml,因为我无法下载 selenium,有限的互联网,非常慢的互联网,因为我来自菲律宾的一个省,我认为它比我使用过的其他模块更快。
这是我的代码:
from lxml import html
import requests
url = 'https://animixplay.to/dr.%20stone'
page = requests.get(url)
doc = html.fromstring(page.content)
anime = doc.xpath('//*[@id="result1"]/ul/li[1]/p[1]/a/text()')
print(anime)
我注意到的一件事是我想从任何 div 中获取元素的值,它是否会给出一个空列表作为输出。
我希望你能帮助我,我的前辈们。谢谢!
更新:
我用 requests-html
解决了我的问题,现在可以用了,谢谢!
这不起作用的原因是您尝试获取的网站使用 JavaScript 生成结果,这意味着如果您想抓取 HTML,Selenium 是您唯一的选择.任何静态抓取和处理库,如 lxml 和 beautifulsoup 根本无法解析 JavaScript 调用的结果。
我是 Yasa James,14 岁,我是网络抓取的新手。 我正在尝试从此 website 中提取标题和链接。 作为一个所谓的“Utako”和一个 want-to-be 程序员,我想创建一个同时提取链接和标题的程序。我目前正在使用 lxml,因为我无法下载 selenium,有限的互联网,非常慢的互联网,因为我来自菲律宾的一个省,我认为它比我使用过的其他模块更快。
这是我的代码:
from lxml import html
import requests
url = 'https://animixplay.to/dr.%20stone'
page = requests.get(url)
doc = html.fromstring(page.content)
anime = doc.xpath('//*[@id="result1"]/ul/li[1]/p[1]/a/text()')
print(anime)
我注意到的一件事是我想从任何 div 中获取元素的值,它是否会给出一个空列表作为输出。
我希望你能帮助我,我的前辈们。谢谢!
更新:
我用 requests-html
解决了我的问题,现在可以用了,谢谢!
这不起作用的原因是您尝试获取的网站使用 JavaScript 生成结果,这意味着如果您想抓取 HTML,Selenium 是您唯一的选择.任何静态抓取和处理库,如 lxml 和 beautifulsoup 根本无法解析 JavaScript 调用的结果。