如何使用样板从 HTML 中获取文章的主要内容?
How to get the main content of an article from HTML using boilerplate?
我正在尝试使用 boilerpipe 代码从 HTML 中获取文章的主要内容。
已从 here 下载最新的 jar。
我正在尝试使用以下代码:
String article = "";
try {
article = ArticleExtractor.INSTANCE.getText(url);
System.out.println("Article ++++ >>" + article);
} catch (BoilerpipeProcessingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
但是这个 returns 每个 URL 都是一个空字符串。谁能帮我解决这个问题?
您是否尝试传递 HTML 本身而不是 url?或者您的 url 字符串的格式化方式可能存在问题。
我正在尝试使用 boilerpipe 代码从 HTML 中获取文章的主要内容。
已从 here 下载最新的 jar。
我正在尝试使用以下代码:
String article = "";
try {
article = ArticleExtractor.INSTANCE.getText(url);
System.out.println("Article ++++ >>" + article);
} catch (BoilerpipeProcessingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
但是这个 returns 每个 URL 都是一个空字符串。谁能帮我解决这个问题?
您是否尝试传递 HTML 本身而不是 url?或者您的 url 字符串的格式化方式可能存在问题。