Python中的lxml：抓取只显示英文字符（其他都是乱码）

Question

这是我的代码：

import requests
from lxml.etree import HTML
title_req = requests.get("https://www.youtube.com/watch?v=VK3QWm7jvZs")
title_main = HTML(title_req.content)
title = title_main.xpath("//span[@id='eow-title']/@title")[0]
print(title)
>> Halsey - Without Me - Ù\x85ØªØ±Ø¬Ù\x85Ø© Ø¹Ø±Ø¨Ù\x8a

我希望它是这样的：

>> Halsey - Without Me - مترجمة عربي

我尝试添加 UTF-8 编码，但它不起作用

谢谢。

Answer 1

我不知道为什么，但这条线造成了问题。

title_main = HTML(title_req.content)

改为

title_main = HTML(title_req.text)

我会试着知道为什么。

Python中的lxml：抓取只显示英文字符（其他都是乱码）

lxml in Python: Scraping shows only English characters (others are garbled)

python

encoding

python-3.x

lxml.html