爬取文件系统和索引的最佳方式

Best way to crawl through file system and index

我正在做一个项目，我需要爬取超过 10TB 的数据并将其编入索引。我需要实现花费更少时间的增量抓取。

我的问题是：哪种工具最适合所有大型组织与 java 一起使用？

我正在尝试使用 Solr 和 Manifold CF，但 Manifold 在 Internet 上的文档很少。

对于使用 Java 的任何抓取活动，最好使用开源 JSOUP and SolrJ API, 清晰、简洁、容易理解的文档。

Jsoup 是一个 Java 库，用于处理现实世界 HTML。它使用 DOM、CSS 和 jquery 类方法中的精华，为提取和操作数据提供了非常方便的 API。

SolrJ 是一个 API，它使 Java 应用程序可以轻松地与 Solr 对话。 SolrJ 隐藏了许多连接到 Solr 的细节，并允许您的应用程序通过简单的高级方法与 Solr 交互。

如需更多选项，您还可以尝试 Elasticsearch with the java API

我们最终使用了 Solr J (JAVA) 和 Apache Manifold CF。尽管 Manifold CF 的文档很少 none，但我们订阅了时事通讯并向开发人员提问，他们很快做出了回应。但是，我不建议任何人使用此设置，因为 Apache Manifold CF 已经过时且构建不佳。所以最好寻找替代品。希望这对某人有所帮助。

爬取文件系统和索引的最佳方式

Best way to crawl through file system and index

java

solr

manifoldcf