如何使用 beautifulsoup 抓取使用 JavaScript 的网站?
How to crawl a website that uses JavaScript using beautifulsoup?
<div class="details">
<h2 class="title"><a href="{{=it.url}}">{{=it.title}}</a></h2>
<div class="author">
<span class="avatar">
<a href="{{=it.userProfileUrl}}"><img src="{{=it.userAvatarUrl}}" alt="{{=it.displayName}}" /></a>
</span>
<span class="name">By <a href="{{=it.userProfileUrl}}">{{=it.displayName}}</a></span>
</div>
<div class="meta-data">
<div class="fd-rating">
<div class="five-star">
<span class="fd-rating-percent" style="width:{{=it.percentRating}};"></span>
</div>
<span>({{=it.ratingCount}})</span>
</div>
<div class="cook-time"><i class='icon-fdc-clock'></i> {{=it.totalTime}}</div>
</div>
上面给出的是我要抓取的网站代码的一部分。我想获取 =it.url 中的值。我试图获取 href 的所有值,试图搜索变量 it.url 的初始化。他们都返回了一个空的 tuple.Is 有什么方法可以获取 url 值?任何建议都会有很大的帮助。
使用此 Link 获取完整代码。
通过使用 selenium 和 PhantomJS 解决了这个问题,我使用下面的代码来获取处理后的 HTML 代码
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(url)
time.sleep(5)
result=driver.page_source
<div class="details">
<h2 class="title"><a href="{{=it.url}}">{{=it.title}}</a></h2>
<div class="author">
<span class="avatar">
<a href="{{=it.userProfileUrl}}"><img src="{{=it.userAvatarUrl}}" alt="{{=it.displayName}}" /></a>
</span>
<span class="name">By <a href="{{=it.userProfileUrl}}">{{=it.displayName}}</a></span>
</div>
<div class="meta-data">
<div class="fd-rating">
<div class="five-star">
<span class="fd-rating-percent" style="width:{{=it.percentRating}};"></span>
</div>
<span>({{=it.ratingCount}})</span>
</div>
<div class="cook-time"><i class='icon-fdc-clock'></i> {{=it.totalTime}}</div>
</div>
上面给出的是我要抓取的网站代码的一部分。我想获取 =it.url 中的值。我试图获取 href 的所有值,试图搜索变量 it.url 的初始化。他们都返回了一个空的 tuple.Is 有什么方法可以获取 url 值?任何建议都会有很大的帮助。
使用此 Link 获取完整代码。
通过使用 selenium 和 PhantomJS 解决了这个问题,我使用下面的代码来获取处理后的 HTML 代码
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(url)
time.sleep(5)
result=driver.page_source