Rails 机械化数据抓取正确 data/cleaning 它

Rails mechanize data scraping correct data/cleaning it

我无法从 UCAS 网站抓取我想要的确切数据。

目前我正在使用以下代码提取课程标题:

  course_page.search('ol.resultscontainer li').each do |course|
  @course_name = course.search('.courseTitle').text

其中给我提供了例如:

 Mathematics (PGDE - Graduates only)

在下面,我使用括号中的 UCAS 代码提取课程标题:

 course_page.search('ol.resultscontainer li').each do |course|
            @ucas_numb = clean_text(course.search('h4').text)

这为我提供了:

Mathematics (PGDE - Graduates only)(G1X1)

我想在最后一个例子中提取的只是UCAS代码(上面例子中的G1X1)。谁能帮我解决这个问题,或者如何 select 只删除 UCAS 代码?

下面是我正在抓取的 UCAS 网站的代码,它处理我想抓取的数据:

    <h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">

        <span class="courseTitle"></span>
    (G1X1)
</a> <h4>

对于任何想知道的人,我通过使用下面的代码删除跨度 class 来解决这个问题:

            # Removes excess html which was interferring with text
            course.search(
                '.coursenamearea a span,').remove