想用 lxml 和 python 从某个网站提取链接和标题,但不能

Want to extract links and titles from a certain website with lxml and python but cant

我是 Yasa James,14 岁,我是网络抓取的新手。 我正在尝试从此 website 中提取标题和链接。 作为一个所谓的“Utako”和一个 want-to-be 程序员,我想创建一个同时提取链接和标题的程序。我目前正在使用 lxml,因为我无法下载 selenium,有限的互联网,非常慢的互联网,因为我来自菲律宾的一个省,我认为它比我使用过的其他模块更快。

这是我的代码:

from lxml import html
import requests

url = 'https://animixplay.to/dr.%20stone'
page = requests.get(url)
doc = html.fromstring(page.content)

anime = doc.xpath('//*[@id="result1"]/ul/li[1]/p[1]/a/text()')

print(anime)

我注意到的一件事是我想从任何 div 中获取元素的值,它是否会给出一个空列表作为输出。

我希望你能帮助我,我的前辈们。谢谢!

更新: 我用 requests-html 解决了我的问题,现在可以用了,谢谢!

这不起作用的原因是您尝试获取的网站使用 JavaScript 生成结果,这意味着如果您想抓取 HTML,Selenium 是您唯一的选择.任何静态抓取和处理库,如 lxml 和 beautifulsoup 根本无法解析 JavaScript 调用的结果。