Rails 机械化数据抓取正确 data/cleaning 它
Rails mechanize data scraping correct data/cleaning it
我无法从 UCAS 网站抓取我想要的确切数据。
目前我正在使用以下代码提取课程标题:
course_page.search('ol.resultscontainer li').each do |course|
@course_name = course.search('.courseTitle').text
其中给我提供了例如:
Mathematics (PGDE - Graduates only)
在下面,我使用括号中的 UCAS 代码提取课程标题:
course_page.search('ol.resultscontainer li').each do |course|
@ucas_numb = clean_text(course.search('h4').text)
这为我提供了:
Mathematics (PGDE - Graduates only)(G1X1)
我想在最后一个例子中提取的只是UCAS代码(上面例子中的G1X1)。谁能帮我解决这个问题,或者如何 select 只删除 UCAS 代码?
下面是我正在抓取的 UCAS 网站的代码,它处理我想抓取的数据:
<h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">
<span class="courseTitle"></span>
(G1X1)
</a> <h4>
对于任何想知道的人,我通过使用下面的代码删除跨度 class 来解决这个问题:
# Removes excess html which was interferring with text
course.search(
'.coursenamearea a span,').remove
我无法从 UCAS 网站抓取我想要的确切数据。
目前我正在使用以下代码提取课程标题:
course_page.search('ol.resultscontainer li').each do |course|
@course_name = course.search('.courseTitle').text
其中给我提供了例如:
Mathematics (PGDE - Graduates only)
在下面,我使用括号中的 UCAS 代码提取课程标题:
course_page.search('ol.resultscontainer li').each do |course|
@ucas_numb = clean_text(course.search('h4').text)
这为我提供了:
Mathematics (PGDE - Graduates only)(G1X1)
我想在最后一个例子中提取的只是UCAS代码(上面例子中的G1X1)。谁能帮我解决这个问题,或者如何 select 只删除 UCAS 代码?
下面是我正在抓取的 UCAS 网站的代码,它处理我想抓取的数据:
<h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">
<span class="courseTitle"></span>
(G1X1)
</a> <h4>
对于任何想知道的人,我通过使用下面的代码删除跨度 class 来解决这个问题:
# Removes excess html which was interferring with text
course.search(
'.coursenamearea a span,').remove