基于来自 Thesaurus.com 的查询词的网页抓取

Question

我试图在用户输入任何单词时从 www.thesaurus.com 中抓取所有同义词（见图）。

我已经成功获取了 "noun" 和 "meaning" 等信息，但是在尝试获取同义词时，我运行遇到了问题，因为每个 "value" 的

BeautifulSoup .find_all('a', attrs={'href':'**my problem**'})

与 href = "/browse/**each different synonym**" 不同。

我的目的是收集图片中所有突出显示的单词，如 "capability" 和 "capacity" 等

inspect html code

Answer 1

通过 CSS 选择器 .select() 更容易，见下文

import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.thesaurus.com/browse/power")
soup = BeautifulSoup(response.content, 'html.parser')

# select only first '<section class="synonyms-container....'
synonyms = soup.select('.MainContentContainer > section > .synonyms-container a')
print 'synonyms for: Power'
for synonym in synonyms:
    print synonym.text
    #print synonym.get('href')

基于来自 Thesaurus.com 的查询词的网页抓取

Web Scraping based on Query Terms from Thesaurus.com

python

beautifulsoup

scrape