基于来自 Thesaurus.com 的查询词的网页抓取
Web Scraping based on Query Terms from Thesaurus.com
我试图在用户输入任何单词时从 www.thesaurus.com 中抓取所有同义词(见图)。
我已经成功获取了 "noun" 和 "meaning" 等信息,但是在尝试获取同义词时,我 运行 遇到了问题,因为每个 "value" 的
BeautifulSoup .find_all('a', attrs={'href':'**my problem**'})
与 href = "/browse/**each different synonym**"
不同。
我的目的是收集图片中所有突出显示的单词,如 "capability" 和 "capacity" 等
inspect html code
通过 CSS 选择器 .select()
更容易,见下文
import requests
from bs4 import BeautifulSoup
response = requests.get("https://www.thesaurus.com/browse/power")
soup = BeautifulSoup(response.content, 'html.parser')
# select only first '<section class="synonyms-container....'
synonyms = soup.select('.MainContentContainer > section > .synonyms-container a')
print 'synonyms for: Power'
for synonym in synonyms:
print synonym.text
#print synonym.get('href')
我试图在用户输入任何单词时从 www.thesaurus.com 中抓取所有同义词(见图)。
我已经成功获取了 "noun" 和 "meaning" 等信息,但是在尝试获取同义词时,我 运行 遇到了问题,因为每个 "value" 的
BeautifulSoup .find_all('a', attrs={'href':'**my problem**'})
与 href = "/browse/**each different synonym**"
不同。
我的目的是收集图片中所有突出显示的单词,如 "capability" 和 "capacity" 等
inspect html code
通过 CSS 选择器 .select()
更容易,见下文
import requests
from bs4 import BeautifulSoup
response = requests.get("https://www.thesaurus.com/browse/power")
soup = BeautifulSoup(response.content, 'html.parser')
# select only first '<section class="synonyms-container....'
synonyms = soup.select('.MainContentContainer > section > .synonyms-container a')
print 'synonyms for: Power'
for synonym in synonyms:
print synonym.text
#print synonym.get('href')