如何使用 Nokogiri 获取 <a> 标签
How to get a <a> tag using Nokogiri
我正在使用 Nokogiri Ruby 编写一个简单的抓取工具。
def processNokogiri
doc = HTTParty.get("https://www.remotelyawesomejobs.com/jobs")
@parse_page ||= Nokogiri::HTML(doc)
@jobs = @parse_page.css(".job").first.at_css "h2"
puts '*********************'
puts @jobs
puts '*********************'
flash[:error] = "Noko"
end
当我打印 @jobs
时,控制台显示:
<h2>
<a itemprop="title" href="/jobs/the-coral-project-mozilla-infrastructure-integration-engineer">Infrastructure & Integration Engineer</a>
<span class="company">
at
<span itemprop="hiringOrganization">The Coral Project @ Mozilla</span>
</span>
</h2>
我要访问
href="/jobs/the-coral-project-mozilla-infrastructure-integration-engineer"
公司名称:"The Coral Project @ Mozilla"
如何过滤 @jobs
实体以访问此数据?
@parse_page.css(".job").first.at_css("h2 .company span").text #=> "The Coral Project @ Mozilla"
@parse_page.css(".job").first.at_css("h2 a")['href'] #=> "/jobs/the-coral-project-mozilla-infrastructure-integration-engineer"
我正在使用 Nokogiri Ruby 编写一个简单的抓取工具。
def processNokogiri
doc = HTTParty.get("https://www.remotelyawesomejobs.com/jobs")
@parse_page ||= Nokogiri::HTML(doc)
@jobs = @parse_page.css(".job").first.at_css "h2"
puts '*********************'
puts @jobs
puts '*********************'
flash[:error] = "Noko"
end
当我打印 @jobs
时,控制台显示:
<h2>
<a itemprop="title" href="/jobs/the-coral-project-mozilla-infrastructure-integration-engineer">Infrastructure & Integration Engineer</a>
<span class="company">
at
<span itemprop="hiringOrganization">The Coral Project @ Mozilla</span>
</span>
</h2>
我要访问
href="/jobs/the-coral-project-mozilla-infrastructure-integration-engineer"
公司名称:"The Coral Project @ Mozilla"
如何过滤 @jobs
实体以访问此数据?
@parse_page.css(".job").first.at_css("h2 .company span").text #=> "The Coral Project @ Mozilla"
@parse_page.css(".job").first.at_css("h2 a")['href'] #=> "/jobs/the-coral-project-mozilla-infrastructure-integration-engineer"