Scrape/Retrieve 来自数据网格的数据 - DOM 到 CSV 控制台输出
Scrape/Retrieve Data from Data Grid - DOM to CSV console output
我想刮
此页面上的单元格小部件 -> 数据网格:
http://samples.gwtproject.org/samples/Showcase/Showcase.html#!CwDataGrid
理想情况下,我正在寻找 csv 样式的字符串输出,例如
(第一行和最后一行示例)
;Corey;Jenkins;63;Coworkers;438 Techwood St;
.... (many rows here)
;Yvonne;Morris;55;Family; 483 Third Pkwy;
(我正在使用 Firefox)
不确定您是否正在尝试这样做以在 gwt 网站上构建网站抓取工具。在上面的示例中,每一行在由 TR 标记表示的每个网格行中都有一个标识属性。对于第一个 TR 标签,您将有 __gwt_row="0" __gwt_subrow="0"
.
您还将拥有 __gwt_cell="cell-gwt-uid-29"
类型的单元格属性
行和单元格的上述两个属性应该允许您轻松地执行 XPATH 查找和迭代以抓取页面并输出到 csv 文件。
var jq = document.createElement('script');
jq.onload = function() {
jQuery.noConflict();
// Our stuff...
(function ($) {
$('table').find('tr')
.each(function(j, rowitem) {
var line = ''
$(rowitem).find('div').each(function(i, item) {
var o = $(item).find('option[selected]');
if (o.length > 0) {
line += $(o).text();
} else {
line += $(item).text();
}
line += ';';
});
console.log(line);
});
})(jQuery);
}
// Load jQuery as per
jq.src = "http://ajax.googleapis.com/ajax/libs/jquery/2.1.3/jquery.min.js";
document.getElementsByTagName('head')[0].appendChild(jq);
我想刮 此页面上的单元格小部件 -> 数据网格: http://samples.gwtproject.org/samples/Showcase/Showcase.html#!CwDataGrid
理想情况下,我正在寻找 csv 样式的字符串输出,例如 (第一行和最后一行示例)
;Corey;Jenkins;63;Coworkers;438 Techwood St;
.... (many rows here)
;Yvonne;Morris;55;Family; 483 Third Pkwy;
(我正在使用 Firefox)
不确定您是否正在尝试这样做以在 gwt 网站上构建网站抓取工具。在上面的示例中,每一行在由 TR 标记表示的每个网格行中都有一个标识属性。对于第一个 TR 标签,您将有 __gwt_row="0" __gwt_subrow="0"
.
您还将拥有 __gwt_cell="cell-gwt-uid-29"
行和单元格的上述两个属性应该允许您轻松地执行 XPATH 查找和迭代以抓取页面并输出到 csv 文件。
var jq = document.createElement('script');
jq.onload = function() {
jQuery.noConflict();
// Our stuff...
(function ($) {
$('table').find('tr')
.each(function(j, rowitem) {
var line = ''
$(rowitem).find('div').each(function(i, item) {
var o = $(item).find('option[selected]');
if (o.length > 0) {
line += $(o).text();
} else {
line += $(item).text();
}
line += ';';
});
console.log(line);
});
})(jQuery);
}
// Load jQuery as per
jq.src = "http://ajax.googleapis.com/ajax/libs/jquery/2.1.3/jquery.min.js";
document.getElementsByTagName('head')[0].appendChild(jq);