Rails 机械化数据抓取正确 data/cleaning 它

Question

我无法从 UCAS 网站抓取我想要的确切数据。

目前我正在使用以下代码提取课程标题：

  course_page.search('ol.resultscontainer li').each do |course|
  @course_name = course.search('.courseTitle').text

其中给我提供了例如：

 Mathematics (PGDE - Graduates only)

在下面，我使用括号中的 UCAS 代码提取课程标题：

 course_page.search('ol.resultscontainer li').each do |course|
            @ucas_numb = clean_text(course.search('h4').text)

这为我提供了：

Mathematics (PGDE - Graduates only)(G1X1)

我想在最后一个例子中提取的只是UCAS代码（上面例子中的G1X1）。谁能帮我解决这个问题，或者如何 select 只删除 UCAS 代码？

下面是我正在抓取的 UCAS 网站的代码，它处理我想抓取的数据：

    <h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">

        <span class="courseTitle"></span>
    (G1X1)
</a> <h4>

Answer 1

对于任何想知道的人，我通过使用下面的代码删除跨度 class 来解决这个问题：

            # Removes excess html which was interferring with text
            course.search(
                '.coursenamearea a span,').remove

Rails 机械化数据抓取正确 data/cleaning 它

Rails mechanize data scraping correct data/cleaning it

ruby

ruby-on-rails

mechanize

nokogiri

web-scraping