如何从站点检索所有用户评论?
How to retrieve all the user comments from a site?
我想要来自该站点的所有用户评论:http://www.consumercomplaints.in/?search=chevrolet
问题是评论只显示了一部分,要查看完整的评论,我必须点击上面的标题,并且必须对所有评论重复此过程。
另一个问题是评论页多
所以我想将所有完整的评论存储在上述指定站点的 excel sheet 中。
这可能吗 ?
我正在考虑将 crawler4j 和 jericho 与 Eclipse 一起使用。
我的 visitPage 方法代码:
@覆盖
public无效访问(页面页面){
String url = page.getWebURL().getURL();
System.out.println("URL: " + url);
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String html = htmlParseData.getHtml();
// Set<WebURL> links = htmlParseData.getOutgoingUrls();
// String text = htmlParseData.getText();
try
{
String CrawlerOutputPath = "/DA Project/HTML Source/";
File outputfile = new File(CrawlerOutputPath);
//If file doesnt exists, then create it
if(!outputfile.exists()){
outputfile.createNewFile();
}
FileWriter fw = new FileWriter(outputfile,true); //true = append file
BufferedWriter bufferWritter = new BufferedWriter(fw);
bufferWritter.write(html);
bufferWritter.close();
fw.write(html);
fw.close();
}catch(IOException e)
{
System.out.println("IOException : " + e.getMessage() );
e.printStackTrace();
}
System.out.println("Html length: " + html.length());
}
}
提前致谢。任何帮助将不胜感激。
是的,这是可能的。
- 开始在您的搜索网站上抓取 (http://www.consumercomplaints.in/?search=chevrolet)
- 使用crawler4j的visitPage方法只关注评论和正在进行的页面
- 从 crawler4j 中获取 html 内容并将其推送到 jericho
- 筛选出您要存储的内容并将其写入某种 .csv 或 .xls 文件(我更喜欢 .csv)
希望对您有所帮助
我想要来自该站点的所有用户评论:http://www.consumercomplaints.in/?search=chevrolet
问题是评论只显示了一部分,要查看完整的评论,我必须点击上面的标题,并且必须对所有评论重复此过程。
另一个问题是评论页多
所以我想将所有完整的评论存储在上述指定站点的 excel sheet 中。 这可能吗 ? 我正在考虑将 crawler4j 和 jericho 与 Eclipse 一起使用。
我的 visitPage 方法代码:
@覆盖
public无效访问(页面页面){
String url = page.getWebURL().getURL();
System.out.println("URL: " + url);
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String html = htmlParseData.getHtml();
// Set<WebURL> links = htmlParseData.getOutgoingUrls();
// String text = htmlParseData.getText();
try
{
String CrawlerOutputPath = "/DA Project/HTML Source/";
File outputfile = new File(CrawlerOutputPath);
//If file doesnt exists, then create it
if(!outputfile.exists()){
outputfile.createNewFile();
}
FileWriter fw = new FileWriter(outputfile,true); //true = append file
BufferedWriter bufferWritter = new BufferedWriter(fw);
bufferWritter.write(html);
bufferWritter.close();
fw.write(html);
fw.close();
}catch(IOException e)
{
System.out.println("IOException : " + e.getMessage() );
e.printStackTrace();
}
System.out.println("Html length: " + html.length());
}
}
提前致谢。任何帮助将不胜感激。
是的,这是可能的。
- 开始在您的搜索网站上抓取 (http://www.consumercomplaints.in/?search=chevrolet)
- 使用crawler4j的visitPage方法只关注评论和正在进行的页面
- 从 crawler4j 中获取 html 内容并将其推送到 jericho
- 筛选出您要存储的内容并将其写入某种 .csv 或 .xls 文件(我更喜欢 .csv)
希望对您有所帮助