想用 lxml 和 python 从某个网站提取链接和标题，但不能

Question

我是 Yasa James，14 岁，我是网络抓取的新手。我正在尝试从此 website 中提取标题和链接。作为一个所谓的“Utako”和一个 want-to-be 程序员，我想创建一个同时提取链接和标题的程序。我目前正在使用 lxml，因为我无法下载 selenium，有限的互联网，非常慢的互联网，因为我来自菲律宾的一个省，我认为它比我使用过的其他模块更快。

这是我的代码：

from lxml import html
import requests

url = 'https://animixplay.to/dr.%20stone'
page = requests.get(url)
doc = html.fromstring(page.content)

anime = doc.xpath('//*[@id="result1"]/ul/li[1]/p[1]/a/text()')

print(anime)

我注意到的一件事是我想从任何 div 中获取元素的值，它是否会给出一个空列表作为输出。

我希望你能帮助我，我的前辈们。谢谢！

更新：我用 requests-html 解决了我的问题，现在可以用了，谢谢！

Answer 1

这不起作用的原因是您尝试获取的网站使用 JavaScript 生成结果，这意味着如果您想抓取 HTML，Selenium 是您唯一的选择.任何静态抓取和处理库，如 lxml 和 beautifulsoup 根本无法解析 JavaScript 调用的结果。

想用 lxml 和 python 从某个网站提取链接和标题，但不能

Want to extract links and titles from a certain website with lxml and python but cant

python

xpath

lxml

screen-scraping