如何在 apache nutch 中获取 webgraph?

How to get webgraph in apache nutch?

我使用命令 'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb'apache nutch 中生成了 webgrapgh 数据库。它在 crawl/webgraphdb 中生成了三个文件夹,分别是 inlinks、outlinks 和 nodes。这些文件夹中的每一个都包含两个二进制文件,如数据和索引。如何在 apache nutch 中获取可视化 web 图?网图有什么用?

Webgraph 旨在成为基于 link 结构(即 webgraph)的 分数计算 中的一个步骤:

  • webgraph 将为指定的 segment/s
  • 生成数据结构
  • linkrank会根据前面的结构计算分数
  • scoreupdater 会将来自 webgraph 的分数更新回 crawdb

请注意,此程序非常 CPU/IO 密集,默认情况下会忽略网站的内部 link。

您可以使用nodedumper命令从webgraph数据中获取有用的数据,包括节点的实际得分和最高得分inlinks/outlinks。但这并不是为了可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化。

也就是说,从 Nutch 1.11 开始,插件 index-links 已被添加,这将允许您索引到 Solr/ES inlinks 和 outlink每个 URL 的 s。我已经使用这个索引到 Solr 的插件和 sigmajs 库来生成我的爬行的 link 结构的一些图形可视化,也许这可以满足您的需要。