Apache nutch 和 solr:查询
Apache nutch and solr : queries
我刚开始使用 Nutch 1.9 和 Solr 4.10
浏览某些页面后,我发现 运行 这个版本的语法已更改,我必须更新某些 xml 的语法以配置 Nutch 和 Solr
此版本的软件包不需要 Tomcat 运行。我启动了 Solr:
java-罐子start.jar
并检查了 localhost:8983/solr/admin,它正在工作。
我在 bin/url/seed.txt 种下了一颗种子,种子是 "simpleweb.org"
运行 Nutch 中的命令:./crawl urls -dir crawl -depth 3 -topN 5
我在中间遇到了一些 IO 异常,所以为了避免我下载的 IO 异常
patch-hadoop_7682-1.0.x-win.jar 并在 nutch-site.xml 和将 jar 文件放在 Nutch.
的库中
运行Nutch之后,
创建了以下文件夹:
apache-nutch-1.9\bin\-dir\crawldb\current\part-00000
我可以在该路径中看到以下文件:
data<br>
index<br>
.data.crc<br>
.index.crc<br>
我想知道如何处理这些文件,接下来的步骤是什么?我们可以查看这些文件吗?如果是,如何?
我将 Nutch 的抓取数据索引到 Solr:
用于将 solr 与 nutch 链接(命令成功完成)
命令 ./crawl urls solr http://localhost:8983/solr/ -depth 3 -topN 5
为什么要把Nutch爬取的数据索引到Solr?
使用 Nutch
抓取后
用于此的命令:./crawl urls -dir crawl -depth 3 -topN 5;
我们可以查看爬取的数据吗,如果可以,在哪里?
OR只有将Nutch爬取的数据索引到Solr后,才能查看抓取的数据完整吗?
如何在solr web中查看爬取的数据?
用于此的命令:./crawl urls solr localhost:8983/solr/ -depth 3 -topN 5
虽然 Nutch 被构建为一个网络规模的搜索引擎,但情况已不再如此。目前Nutch的主要用途是做大规模爬虫。然后,您对抓取的数据所做的操作将符合您的要求。默认情况下,Nutch 允许将数据发送到 Solr。这就是为什么你可以 运行
crawl url crawl solraddress depth level
您也可以发出 solr url 参数。在那种情况下,nutch 不会将爬取的数据发送到 Solr 中。不将爬取的数据发送给solr,就无法搜索到数据。爬取数据和搜索数据是两个不同但又非常相关的事情。
一般情况下,您会在crawl/segments中找到抓取的数据,而不是在crawl/crawdb中。 crawl db 文件夹存储有关已抓取 url 的信息、它们的抓取状态和下一次抓取时间以及其他一些对抓取有用的信息。 Nutch 将实际爬取的数据存储在 crawl/segments.
中
如果你想有一个简单的方法来查看爬取的数据,你可以尝试 nutch 2.x 因为它可以将其爬取的数据存储到多个后端,如 MySQL、Hbase、Cassandra 等通过 Gora 组件。
要在 solr 上查看数据,您只需像这样向 Solr 发出查询:
curl http://127.0.0.1:8983/solr/collection1/select/?q=*:*
否则,您始终可以通过添加索引器插件将数据推送到不同的存储中。目前,Nutch 支持向 Solr 和 Elasticsearch 发送数据。这些索引器插件发送结构化数据,如标题、文本、元数据、作者和其他元数据。
下面总结了 Nutch 中发生的事情:
seed list -> crawldb -> fetching raw data (download site contents)
-> parsing the raw data -> structuring the parse data into fields (title, text, anchor text, metadata and so on)->
sending the structured data to storage for usage (like ElasticSearch and Solr).
其中每个阶段都是可扩展的,允许您添加逻辑以满足您的要求。
希望这能消除您的困惑。
你可以 运行 抓住 windows-我也是初学者-是的,在 windows 中安装有点困难,但它确实有效!-这个输入路径不'存在的问题可以通过以下方式解决:-
将 apache-nutch-1.9/lib 中的 Hadoop-core-1.2.0.jar 文件替换为 hadoop-core-0.20.2.jar(来自 maven)
然后将这个新文件重命名为 hadoop-core-1.2.0
我刚开始使用 Nutch 1.9 和 Solr 4.10
浏览某些页面后,我发现 运行 这个版本的语法已更改,我必须更新某些 xml 的语法以配置 Nutch 和 Solr
此版本的软件包不需要 Tomcat 运行。我启动了 Solr:
java-罐子start.jar
并检查了 localhost:8983/solr/admin,它正在工作。
我在 bin/url/seed.txt 种下了一颗种子,种子是 "simpleweb.org"
运行 Nutch 中的命令:./crawl urls -dir crawl -depth 3 -topN 5
我在中间遇到了一些 IO 异常,所以为了避免我下载的 IO 异常 patch-hadoop_7682-1.0.x-win.jar 并在 nutch-site.xml 和将 jar 文件放在 Nutch.
的库中运行Nutch之后, 创建了以下文件夹:
apache-nutch-1.9\bin\-dir\crawldb\current\part-00000
我可以在该路径中看到以下文件:
data<br>
index<br>
.data.crc<br>
.index.crc<br>
我想知道如何处理这些文件,接下来的步骤是什么?我们可以查看这些文件吗?如果是,如何?
我将 Nutch 的抓取数据索引到 Solr:
用于将 solr 与 nutch 链接(命令成功完成) 命令 ./crawl urls solr http://localhost:8983/solr/ -depth 3 -topN 5
为什么要把Nutch爬取的数据索引到Solr?
使用 Nutch
抓取后用于此的命令:./crawl urls -dir crawl -depth 3 -topN 5;
我们可以查看爬取的数据吗,如果可以,在哪里?
OR只有将Nutch爬取的数据索引到Solr后,才能查看抓取的数据完整吗?
如何在solr web中查看爬取的数据?
用于此的命令:./crawl urls solr localhost:8983/solr/ -depth 3 -topN 5
虽然 Nutch 被构建为一个网络规模的搜索引擎,但情况已不再如此。目前Nutch的主要用途是做大规模爬虫。然后,您对抓取的数据所做的操作将符合您的要求。默认情况下,Nutch 允许将数据发送到 Solr。这就是为什么你可以 运行
crawl url crawl solraddress depth level
您也可以发出 solr url 参数。在那种情况下,nutch 不会将爬取的数据发送到 Solr 中。不将爬取的数据发送给solr,就无法搜索到数据。爬取数据和搜索数据是两个不同但又非常相关的事情。
一般情况下,您会在crawl/segments中找到抓取的数据,而不是在crawl/crawdb中。 crawl db 文件夹存储有关已抓取 url 的信息、它们的抓取状态和下一次抓取时间以及其他一些对抓取有用的信息。 Nutch 将实际爬取的数据存储在 crawl/segments.
中如果你想有一个简单的方法来查看爬取的数据,你可以尝试 nutch 2.x 因为它可以将其爬取的数据存储到多个后端,如 MySQL、Hbase、Cassandra 等通过 Gora 组件。
要在 solr 上查看数据,您只需像这样向 Solr 发出查询:
curl http://127.0.0.1:8983/solr/collection1/select/?q=*:*
否则,您始终可以通过添加索引器插件将数据推送到不同的存储中。目前,Nutch 支持向 Solr 和 Elasticsearch 发送数据。这些索引器插件发送结构化数据,如标题、文本、元数据、作者和其他元数据。
下面总结了 Nutch 中发生的事情:
seed list -> crawldb -> fetching raw data (download site contents)
-> parsing the raw data -> structuring the parse data into fields (title, text, anchor text, metadata and so on)->
sending the structured data to storage for usage (like ElasticSearch and Solr).
其中每个阶段都是可扩展的,允许您添加逻辑以满足您的要求。
希望这能消除您的困惑。
你可以 运行 抓住 windows-我也是初学者-是的,在 windows 中安装有点困难,但它确实有效!-这个输入路径不'存在的问题可以通过以下方式解决:- 将 apache-nutch-1.9/lib 中的 Hadoop-core-1.2.0.jar 文件替换为 hadoop-core-0.20.2.jar(来自 maven) 然后将这个新文件重命名为 hadoop-core-1.2.0