爬取文件系统和索引的最佳方式

Best way to crawl through file system and index

我正在做一个项目,我需要爬取超过 10TB 的数据并将其编入索引。我需要实现花费更少时间的增量抓取。

我的问题是: 哪种工具最适合所有大型组织与 java 一起使用?

我正在尝试使用 Solr 和 Manifold CF,但 Manifold 在 Internet 上的文档很少。

对于使用 Java 的任何抓取活动,最好使用 开源 JSOUP and SolrJ API, 清晰、简洁、容易理解的文档。

Jsoup 是一个 Java 库,用于处理现实世界 HTML。它使用 DOM、CSS 和 jquery 类方法中的精华,为提取和操作数据提供了非常方便的 API。

SolrJ 是一个 API,它使 Java 应用程序可以轻松地与 Solr 对话。 SolrJ 隐藏了许多连接到 Solr 的细节,并允许您的应用程序通过简单的高级方法与 Solr 交互。

如需更多选项,您还可以尝试 Elasticsearch with the java API

我们最终使用了 Solr J (JAVA) 和 Apache Manifold CF。 尽管 Manifold CF 的文档很少 none,但我们订阅了时事通讯并向开发人员提问,他们很快做出了回应。 但是,我不建议任何人使用此设置,因为 Apache Manifold CF 已经过时且构建不佳。所以最好寻找替代品。希望这对某人有所帮助。