正在尝试抓取个人资料 URL 的 Yelp 个搜索结果页面
Trying to Crawl Yelp Search Results page for Profile URLs
我正在尝试使用 Beautiful Soup 从 Yelp 搜索结果页面抓取个人资料 URLs。这是我目前拥有的代码:
url="https://www.yelp.com/search?find_desc=tree+-+removal+-+&find_loc=Baltimore+MD&start=40"
response=requests.get(url)
data=response.text
soup = BeautifulSoup(data,'lxml')
for a in soup.find_all('a', href=True):
with open(r'C:\Users\my.name\Desktop\Yelp-URLs.csv',"a") as f:
print(a,file=f)
这为我提供了页面上的每个 href link,而不仅仅是个人资料 URL。此外,当我只需要 URL 的业务资料时,我得到了完整的 class 字符串(一个 class 柠檬....)。
请帮忙。
您可以使用 select 缩小 href 限制。
for a in soup.select('a[href^="/biz/"]'):
with open(r'/Users/my.name/Desktop/Yelp-URLs.csv',"a") as f:
print(a.attrs['href'], file=f)
我正在尝试使用 Beautiful Soup 从 Yelp 搜索结果页面抓取个人资料 URLs。这是我目前拥有的代码:
url="https://www.yelp.com/search?find_desc=tree+-+removal+-+&find_loc=Baltimore+MD&start=40"
response=requests.get(url)
data=response.text
soup = BeautifulSoup(data,'lxml')
for a in soup.find_all('a', href=True):
with open(r'C:\Users\my.name\Desktop\Yelp-URLs.csv',"a") as f:
print(a,file=f)
这为我提供了页面上的每个 href link,而不仅仅是个人资料 URL。此外,当我只需要 URL 的业务资料时,我得到了完整的 class 字符串(一个 class 柠檬....)。
请帮忙。
您可以使用 select 缩小 href 限制。
for a in soup.select('a[href^="/biz/"]'):
with open(r'/Users/my.name/Desktop/Yelp-URLs.csv',"a") as f:
print(a.attrs['href'], file=f)