Beautifulsoup：删除德语变音符号

Question

我是这一切的新手，所以我需要一点帮助。对于一个 uni 项目，我正在尝试从网站中提取 ingedrients，并且通常代码可以正常工作，但我只是不知道如何最后得到“Bärlauch”而不是“B%C3%A4rlauch”。

我使用 beautifulsoup 和以下代码：

URL = [...]

links = []

for url in range(0,10):
    req = requests.get(URL[url])
    soup = bs(req.content, 'html.parser')
    
    for link in soup.findAll('a'):
        links.append(str(link.get('href')))

我不明白为什么它不能正常工作，尽管编码已经是 utf-8。也许有人知道得更多。

谢谢！

Answer 1

URL 是 URL 编码的。请求的响应是 response 而不是 req(uest)。

URLS = [...]

links = []
for url in URLS:
    response = requests.get(url)
    soup = bs(response.content, 'html.parser')
    
    for link in soup.find_all('a'):
        links.append(urllib.parse.unquote(link.get('href')))

Beautifulsoup：删除德语变音符号

Beautifulsoup: Removing German Umlauts

python

beautifulsoup

web-scraping

python-unicode