让 StormCrawler 从网页中检索更多正文内容并将其放入 Elasticsearch
Getting StormCrawler to retrieve more body content from a web page and put it into Elasticsearch
我有一个概念证明 Stormcrawler 安装指向我们的一个较小的大学网站(https://example.com - 大约 300 页),并且我对 SC 从正文内容中提取的信息量有疑问。这个站点在页面顶部有大量菜单,而 SC 只是在关闭之前通过提取菜单内容来完成大部分工作,而从未真正接触到页面的真实内容。有没有办法告诉 SC 从页面中获取更多的正文内容?还是 Elasticsearch 方面的问题?我目前已经 SC/ES 安装设置,就像您发布的教程一样。
谢谢!
吉姆
可能是由于 http.content.limit 的配置在 config generated by the artefact.
中的值为 65K
您可以将其设置为 -1,以便保留全部内容。
我从那个网站的一个页面上注意到主要内容在 MAIN 元素中。您可以配置 ContentParseFilter 以便它从这些元素中提取文本并将其用作文档的文本(如果找到的话)。这样您就不会将样板中的文本索引到 ES 中。
我有一个概念证明 Stormcrawler 安装指向我们的一个较小的大学网站(https://example.com - 大约 300 页),并且我对 SC 从正文内容中提取的信息量有疑问。这个站点在页面顶部有大量菜单,而 SC 只是在关闭之前通过提取菜单内容来完成大部分工作,而从未真正接触到页面的真实内容。有没有办法告诉 SC 从页面中获取更多的正文内容?还是 Elasticsearch 方面的问题?我目前已经 SC/ES 安装设置,就像您发布的教程一样。
谢谢! 吉姆
可能是由于 http.content.limit 的配置在 config generated by the artefact.
中的值为 65K您可以将其设置为 -1,以便保留全部内容。
我从那个网站的一个页面上注意到主要内容在 MAIN 元素中。您可以配置 ContentParseFilter 以便它从这些元素中提取文本并将其用作文档的文本(如果找到的话)。这样您就不会将样板中的文本索引到 ES 中。