UTF-8(字面意思)到希伯来语
UTF-8 (in literal) to hebrew
我正在尝试使用 BeautifulSoup python 抓取一个包含希伯来语的网站。 html 结果很好,但标签中的内容如下所示:
<span class="color_11">\xc2\xa0\xd7\x91\xd7\x97\xd7\xa9\xd7\x91\xd7\x95\xd7\xa0\xd7\x95\xd7\xaa \xd7\x9c\xd7\xa7\xd7\x95\xd7\x97 \xd7\x92\xd7\x93\xd7\x95\xd7\x9c\xd7\x99\xd7\x9d I\xc2\xa0\xd7\xa4\xd7\x99\xd7\xaa\xd7\x95\xd7\x97 \xd7\x9e\xd7\x9b\xd7\x99\xd7\xa8\xd7\x95\xd7\xaa \xc2\xa0\xd7\x90\xd7\x99\xd7\xa9\xd7\x99 \xd7\x95\xd7\xa7\xd7\x91\xd7\x95\xd7\xa6\xd7\xaa\xd7\x99 \xd7\x91\xd7\x9e\xd7\x92\xd7\xa8\xd7\xa9 \xd7\x94\xd7\x91\xd7\x99\xd7\xa6\xd7\x95\xd7\xa2\xd7\x99\xd7\x9d</span>
根据这个 table 我发现:https://utf8-chartable.de/unicode-utf8-table.pl?start=1408&number=128&utf8=string-literal
这是 UTF-8(字面意思)。我如何将它变成相应的希伯来字符?
添加了代码 i 运行:
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen
my_url = "Website_url"
uclient = urlopen(my_url)
page_html = uclient.read()
uclient.close()
page_soup = soup(page_html,"html.parser")
with open("source.txt","w") as file:
a = str(page_soup.p.encode())
file.write(a)
替换
a = str(page_soup.p.encode())
和
a = str(page_soup.p)
通过此更改,您的代码(指向 he.wikipedia.org)执行正确的操作。
我正在尝试使用 BeautifulSoup python 抓取一个包含希伯来语的网站。 html 结果很好,但标签中的内容如下所示:
<span class="color_11">\xc2\xa0\xd7\x91\xd7\x97\xd7\xa9\xd7\x91\xd7\x95\xd7\xa0\xd7\x95\xd7\xaa \xd7\x9c\xd7\xa7\xd7\x95\xd7\x97 \xd7\x92\xd7\x93\xd7\x95\xd7\x9c\xd7\x99\xd7\x9d I\xc2\xa0\xd7\xa4\xd7\x99\xd7\xaa\xd7\x95\xd7\x97 \xd7\x9e\xd7\x9b\xd7\x99\xd7\xa8\xd7\x95\xd7\xaa \xc2\xa0\xd7\x90\xd7\x99\xd7\xa9\xd7\x99 \xd7\x95\xd7\xa7\xd7\x91\xd7\x95\xd7\xa6\xd7\xaa\xd7\x99 \xd7\x91\xd7\x9e\xd7\x92\xd7\xa8\xd7\xa9 \xd7\x94\xd7\x91\xd7\x99\xd7\xa6\xd7\x95\xd7\xa2\xd7\x99\xd7\x9d</span>
根据这个 table 我发现:https://utf8-chartable.de/unicode-utf8-table.pl?start=1408&number=128&utf8=string-literal
这是 UTF-8(字面意思)。我如何将它变成相应的希伯来字符?
添加了代码 i 运行:
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen
my_url = "Website_url"
uclient = urlopen(my_url)
page_html = uclient.read()
uclient.close()
page_soup = soup(page_html,"html.parser")
with open("source.txt","w") as file:
a = str(page_soup.p.encode())
file.write(a)
替换
a = str(page_soup.p.encode())
和
a = str(page_soup.p)
通过此更改,您的代码(指向 he.wikipedia.org)执行正确的操作。