从一系列网页中提取数据最容易的是什么?
What´s the easiest to extract data from a series of Webpages?
这是我的问题:
我有来自电子商务的 sitemap.xlm。它包含其产品的所有 URL。从那些 URL 我想得到产品的名称(也许还有它的价格)。我的第一个想法是使用 Google App Script:
function test() {
var response = UrlFetchApp.fetch("http://www.leroymerlin.com.br/emenda-rigido-de-pvc-600cm-plasbil_87821293");
Logger.log(response);
var ind;
while( ind = /<img src="([^"]*)/.exec( response.getContentText()) ){
Logger.log(ind[1]);
}
}
谁的UrlFetchApp.fetch()方法一点都不靠谱。所以我很快意识到这不是我最好的选择。
这是一项非常简单的任务。我不想以任何方式建立一些爬满整个网站的东西。我只想从一组 URL 中提取一些数据。所以我认为必须有一个简单的解决方案。不幸的是,我在 GoolgeSearch 中发现的所有内容要么太复杂(遍历整个站点的爬虫)要么不是免费的。
我需要一个基于 javascript 的解决方案。如果它是一个基于网络的解决方案(我可以在我的浏览器上做的事情),我也会很棒,但如果我必须使用一个程序,它也可以。或者甚至是在 Google App Script 上进行这项工作的解决方案也适合我。
非常感谢。
您可以使用浏览器的 DOM parser and XMLHttpRequest 加载 URL 并解析它(对每个 url 重复):
<script type="text/javascript">
// create your DOM element
var myPage = document.createElement('html');
// now load myPage with the html from url
loadURLHtml("http://myURL");
function loadURLHtml(url)
{
var xmlhttp;
if (window.XMLHttpRequest)
{// code for IE7+, Firefox, Chrome, Opera, Safari
xmlhttp=new XMLHttpRequest();
}
else
{// code for IE6, IE5
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function()
{
if (xmlhttp.readyState==4 && xmlhttp.status==200)
{
// POPULATE HTML into your DOM
myPage.innerHTML = xmlhttp.responseText;
if (myPage.innerHTML)
{
// get your element of interest from the loaded html in the DOM
myPage.getElementsByTagName('myTag');
}
}
}
xmlhttp.open("GET", url, true);
xmlhttp.send();
}
</script>
您可能想 PhantomJS 试一试。它基本上是一个基于 webkit 的浏览器,没有任何可见的 window。 API 在 JS 中是原生的并且相当简单。您甚至可以使用 CSS 选择器来获取相关页面的特定部分。
这是我的问题:
我有来自电子商务的 sitemap.xlm。它包含其产品的所有 URL。从那些 URL 我想得到产品的名称(也许还有它的价格)。我的第一个想法是使用 Google App Script:
function test() {
var response = UrlFetchApp.fetch("http://www.leroymerlin.com.br/emenda-rigido-de-pvc-600cm-plasbil_87821293");
Logger.log(response);
var ind;
while( ind = /<img src="([^"]*)/.exec( response.getContentText()) ){
Logger.log(ind[1]);
}
}
谁的UrlFetchApp.fetch()方法一点都不靠谱。所以我很快意识到这不是我最好的选择。
这是一项非常简单的任务。我不想以任何方式建立一些爬满整个网站的东西。我只想从一组 URL 中提取一些数据。所以我认为必须有一个简单的解决方案。不幸的是,我在 GoolgeSearch 中发现的所有内容要么太复杂(遍历整个站点的爬虫)要么不是免费的。
我需要一个基于 javascript 的解决方案。如果它是一个基于网络的解决方案(我可以在我的浏览器上做的事情),我也会很棒,但如果我必须使用一个程序,它也可以。或者甚至是在 Google App Script 上进行这项工作的解决方案也适合我。
非常感谢。
您可以使用浏览器的 DOM parser and XMLHttpRequest 加载 URL 并解析它(对每个 url 重复):
<script type="text/javascript">
// create your DOM element
var myPage = document.createElement('html');
// now load myPage with the html from url
loadURLHtml("http://myURL");
function loadURLHtml(url)
{
var xmlhttp;
if (window.XMLHttpRequest)
{// code for IE7+, Firefox, Chrome, Opera, Safari
xmlhttp=new XMLHttpRequest();
}
else
{// code for IE6, IE5
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function()
{
if (xmlhttp.readyState==4 && xmlhttp.status==200)
{
// POPULATE HTML into your DOM
myPage.innerHTML = xmlhttp.responseText;
if (myPage.innerHTML)
{
// get your element of interest from the loaded html in the DOM
myPage.getElementsByTagName('myTag');
}
}
}
xmlhttp.open("GET", url, true);
xmlhttp.send();
}
</script>
您可能想 PhantomJS 试一试。它基本上是一个基于 webkit 的浏览器,没有任何可见的 window。 API 在 JS 中是原生的并且相当简单。您甚至可以使用 CSS 选择器来获取相关页面的特定部分。