尝试从 Python 中的 'google.com' 读取数据时出现 UnicodeDecodeError

Question

我开始学习如何从网站读取数据。但是当我尝试从 google.com 读取数据时，我遇到了这个错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe0 in position 279: invalid continuation byte

下面是我的代码（摘自教学视频，只是不同的网站）：

import urllib.request, urllib.parse, urllib.error
fhand=urllib.request.urlopen('https://www.google.com/')
for line in fhand:
    print(line.decode().strip())

怎么了？提前致谢

Answer 1

指定编码和错误处理应该可以解决问题：

import urllib.request, urllib.parse, urllib.error
fhand=urllib.request.urlopen('https://www.google.com/')
for line in fhand:
    print(line.decode(encoding="utf-8", errors="backslashreplace").strip())

当您学习使用 python 进行网络抓取时，您可能想看看 BeautifulSoup：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

尝试从 Python 中的 'google.com' 读取数据时出现 UnicodeDecodeError

UnicodeDecodeError when try to read data from 'google.com' in Python

python

database

url

encoding

decoding