Apache nutch 和 solr：查询

Question

我刚开始使用 Nutch 1.9 和 Solr 4.10

浏览某些页面后，我发现运行这个版本的语法已更改，我必须更新某些 xml 的语法以配置 Nutch 和 Solr

此版本的软件包不需要 Tomcat 运行。我启动了 Solr：

java-罐子start.jar

并检查了 localhost:8983/solr/admin，它正在工作。

我在 bin/url/seed.txt 种下了一颗种子，种子是 "simpleweb.org"

运行 Nutch 中的命令：./crawl urls -dir crawl -depth 3 -topN 5

我在中间遇到了一些 IO 异常，所以为了避免我下载的 IO 异常 patch-hadoop_7682-1.0.x-win.jar 并在 nutch-site.xml 和将 jar 文件放在 Nutch.

的库中

运行Nutch之后，创建了以下文件夹：

apache-nutch-1.9\bin\-dir\crawldb\current\part-00000

我可以在该路径中看到以下文件：

data<br>
index<br>
.data.crc<br>
.index.crc<br>

我想知道如何处理这些文件，接下来的步骤是什么？我们可以查看这些文件吗？如果是，如何？

我将 Nutch 的抓取数据索引到 Solr:

用于将 solr 与 nutch 链接（命令成功完成）命令 ./crawl urls solr http://localhost:8983/solr/ -depth 3 -topN 5

为什么要把Nutch爬取的数据索引到Solr？

使用 Nutch

抓取后

用于此的命令：./crawl urls -dir crawl -depth 3 -topN 5;我们可以查看爬取的数据吗，如果可以，在哪里？

OR只有将Nutch爬取的数据索引到Solr后，才能查看抓取的数据完整吗？

如何在solr web中查看爬取的数据？

用于此的命令：./crawl urls solr localhost:8983/solr/ -depth 3 -topN 5

Answer 1

虽然 Nutch 被构建为一个网络规模的搜索引擎，但情况已不再如此。目前Nutch的主要用途是做大规模爬虫。然后，您对抓取的数据所做的操作将符合您的要求。默认情况下，Nutch 允许将数据发送到 Solr。这就是为什么你可以运行

crawl url crawl solraddress depth level

您也可以发出 solr url 参数。在那种情况下，nutch 不会将爬取的数据发送到 Solr 中。不将爬取的数据发送给solr，就无法搜索到数据。爬取数据和搜索数据是两个不同但又非常相关的事情。

一般情况下，您会在crawl/segments中找到抓取的数据，而不是在crawl/crawdb中。 crawl db 文件夹存储有关已抓取 url 的信息、它们的抓取状态和下一次抓取时间以及其他一些对抓取有用的信息。 Nutch 将实际爬取的数据存储在 crawl/segments.

中

如果你想有一个简单的方法来查看爬取的数据，你可以尝试 nutch 2.x 因为它可以将其爬取的数据存储到多个后端，如 MySQL、Hbase、Cassandra 等通过 Gora 组件。

要在 solr 上查看数据，您只需像这样向 Solr 发出查询：

curl http://127.0.0.1:8983/solr/collection1/select/?q=*:*

否则，您始终可以通过添加索引器插件将数据推送到不同的存储中。目前，Nutch 支持向 Solr 和 Elasticsearch 发送数据。这些索引器插件发送结构化数据，如标题、文本、元数据、作者和其他元数据。

下面总结了 Nutch 中发生的事情：

seed list -> crawldb -> fetching raw data (download site contents) 
-> parsing the raw data -> structuring the parse data into fields (title, text, anchor text, metadata and so on)-> 
sending the structured data to storage for usage (like ElasticSearch and Solr).

其中每个阶段都是可扩展的，允许您添加逻辑以满足您的要求。

希望这能消除您的困惑。

Answer 2

你可以运行抓住 windows-我也是初学者-是的，在 windows 中安装有点困难，但它确实有效！-这个输入路径不'存在的问题可以通过以下方式解决：- 将 apache-nutch-1.9/lib 中的 Hadoop-core-1.2.0.jar 文件替换为 hadoop-core-0.20.2.jar（来自 maven）然后将这个新文件重命名为 hadoop-core-1.2.0

Apache nutch 和 solr：查询

Apache nutch and solr : queries

apache

solr

nutch