Python中的lxml:抓取只显示英文字符(其他都是乱码)
lxml in Python: Scraping shows only English characters (others are garbled)
这是我的代码:
import requests
from lxml.etree import HTML
title_req = requests.get("https://www.youtube.com/watch?v=VK3QWm7jvZs")
title_main = HTML(title_req.content)
title = title_main.xpath("//span[@id='eow-title']/@title")[0]
print(title)
>> Halsey - Without Me - Ù\x85ترجÙ\x85Ø© عربÙ\x8a
我希望它是这样的:
>> Halsey - Without Me - مترجمة عربي
我尝试添加 UTF-8 编码,但它不起作用
谢谢。
我不知道为什么,但这条线造成了问题。
title_main = HTML(title_req.content)
改为
title_main = HTML(title_req.text)
我会试着知道为什么。
这是我的代码:
import requests
from lxml.etree import HTML
title_req = requests.get("https://www.youtube.com/watch?v=VK3QWm7jvZs")
title_main = HTML(title_req.content)
title = title_main.xpath("//span[@id='eow-title']/@title")[0]
print(title)
>> Halsey - Without Me - Ù\x85ترجÙ\x85Ø© عربÙ\x8a
我希望它是这样的:
>> Halsey - Without Me - مترجمة عربي
我尝试添加 UTF-8 编码,但它不起作用
谢谢。
我不知道为什么,但这条线造成了问题。
title_main = HTML(title_req.content)
改为
title_main = HTML(title_req.text)
我会试着知道为什么。