部分字符无法解码,被替换为REPLACEMENT CHARACTER
Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER
我已经在 Python 中编码了大约 3 个月,我正在尝试为 class 项目做一些网络抓取,来自 class "https:/ /www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/”。但是,当我尝试拉取站点 html 时,我收到错误消息,“某些字符无法解码,并被替换为替换字符。”
我尝试了几种不同类型的解码,但没有成功。我正在使用的代码如下。任何帮助将不胜感激。
代码:
myurl = "https://www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/"
website = uReq(myurl)
website_html = website.read() #.decode(encoding="iso-8859-1")
print(website_html)
print(type(website_html))
website.close()
site_soup = soup(website_html,"html.parser")#, from_encoding="utf-8)
print(type(site_soup))
html 输出将如下所示:
�}�WI���s����y��-H,��`�m���6�����
5�J�Řf����ȭJ%!��r���cTU�DFFDƖ�����?y�� ����۾W,��9�����
��y7����5ju���N���{�
数据的字节版本如下所示:
\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec}\xf9W\x1bI\xb2\xee\xefs\xce\xfb\x1f\xca\xeay\x83\xfd\x0
该网站正在使用 gzip 传输编码,而您的 http 客户端未对其进行解码。
>> from urllib import request
>>> import gzip
>>> res = request.urlopen(url)
>>> content = res.read()
>>> content[:25]
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec}\xf9W\x1bI\xb2\xee\xefs\xce\xfb\x1f\xca\xea'
>>> print(res.headers)
...
Content-Encoding: gzip
Content-Language: en
Content-Type: text/html; charset=utf-8
...
>>> decompressed = gzip.decompress(content)
>>> decompressed[:25]
b'<!DOCTYPE html>\n<!--[if l'
requests 包自动处理这个问题
>>> import requests
>>> r = requests.get(url)
>>> r.text[:25]
'<!DOCTYPE html>\n<!--[if l'
我无法重现您的错误,但这是一个使用请求包的工作版本:
import requests
from bs4 import BeautifulSoup as bs
url = "https://www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/"
r = requests.get(url)
soup = bs(r.content)
print(soup)
我已经在 Python 中编码了大约 3 个月,我正在尝试为 class 项目做一些网络抓取,来自 class "https:/ /www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/”。但是,当我尝试拉取站点 html 时,我收到错误消息,“某些字符无法解码,并被替换为替换字符。” 我尝试了几种不同类型的解码,但没有成功。我正在使用的代码如下。任何帮助将不胜感激。
代码:
myurl = "https://www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/"
website = uReq(myurl)
website_html = website.read() #.decode(encoding="iso-8859-1")
print(website_html)
print(type(website_html))
website.close()
site_soup = soup(website_html,"html.parser")#, from_encoding="utf-8)
print(type(site_soup))
html 输出将如下所示:
�}�WI���s����y��-H,��`�m���6����� 5�J�Řf����ȭJ%!��r���cTU�DFFDƖ�����?y�� ����۾W,��9����� ��y7����5ju���N���{�
数据的字节版本如下所示:
\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec}\xf9W\x1bI\xb2\xee\xefs\xce\xfb\x1f\xca\xeay\x83\xfd\x0
该网站正在使用 gzip 传输编码,而您的 http 客户端未对其进行解码。
>> from urllib import request
>>> import gzip
>>> res = request.urlopen(url)
>>> content = res.read()
>>> content[:25]
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec}\xf9W\x1bI\xb2\xee\xefs\xce\xfb\x1f\xca\xea'
>>> print(res.headers)
...
Content-Encoding: gzip
Content-Language: en
Content-Type: text/html; charset=utf-8
...
>>> decompressed = gzip.decompress(content)
>>> decompressed[:25]
b'<!DOCTYPE html>\n<!--[if l'
requests 包自动处理这个问题
>>> import requests
>>> r = requests.get(url)
>>> r.text[:25]
'<!DOCTYPE html>\n<!--[if l'
我无法重现您的错误,但这是一个使用请求包的工作版本:
import requests
from bs4 import BeautifulSoup as bs
url = "https://www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/"
r = requests.get(url)
soup = bs(r.content)
print(soup)