Web 抓取时的编码问题 Python
Encoding problem while web scraping Python
你知道吗,为什么我得到的是这个 ID ÐоÑРееÑÑÑа 而不是 ID ΓосРеестра。我知道编码存在一些问题,因为它是西里尔字母。不知道怎么解决。
抓取网页是link
我的代码是:
dfo_url = "https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-view/26730?OptionName=ExtraData"
r = requests.get(dfo_url)
tree = html.fromstring(r.content)
tr_elements = tree.xpath('//tr')
#Create empty list
col=[]
i=0
#For each row, store each first element (header) and an empty list
for t in tr_elements[2]:
i+=1
name=t.text_content()
print ('%d:"%s"'%(i,name))
col.append((name,[]))
这可能会解决问题,请尝试在打印之前执行此操作:
name.encode(encoding='UTF-8',errors='strict')
或尝试 this link.
你知道吗,为什么我得到的是这个 ID ÐоÑРееÑÑÑа 而不是 ID ΓосРеестра。我知道编码存在一些问题,因为它是西里尔字母。不知道怎么解决。
抓取网页是link
我的代码是:
dfo_url = "https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-view/26730?OptionName=ExtraData"
r = requests.get(dfo_url)
tree = html.fromstring(r.content)
tr_elements = tree.xpath('//tr')
#Create empty list
col=[]
i=0
#For each row, store each first element (header) and an empty list
for t in tr_elements[2]:
i+=1
name=t.text_content()
print ('%d:"%s"'%(i,name))
col.append((name,[]))
这可能会解决问题,请尝试在打印之前执行此操作:
name.encode(encoding='UTF-8',errors='strict')
或尝试 this link.