如何在 apache nutch 中获取 webgraph?
How to get webgraph in apache nutch?
我使用命令 'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb'
在 apache nutch
中生成了 webgrapgh
数据库。它在 crawl/webgraphdb 中生成了三个文件夹,分别是 inlinks、outlinks 和 nodes。这些文件夹中的每一个都包含两个二进制文件,如数据和索引。如何在 apache nutch 中获取可视化 web 图?网图有什么用?
Webgraph 旨在成为基于 link 结构(即 webgraph)的 分数计算 中的一个步骤:
webgraph
将为指定的 segment/s 生成数据结构
linkrank
会根据前面的结构计算分数
scoreupdater
会将来自 webgraph 的分数更新回 crawdb
请注意,此程序非常 CPU/IO 密集,默认情况下会忽略网站的内部 link。
您可以使用nodedumper
命令从webgraph数据中获取有用的数据,包括节点的实际得分和最高得分inlinks/outlinks。但这并不是为了可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化。
也就是说,从 Nutch 1.11 开始,插件 index-links
已被添加,这将允许您索引到 Solr/ES inlinks 和 outlink每个 URL 的 s。我已经使用这个索引到 Solr 的插件和 sigmajs 库来生成我的爬行的 link 结构的一些图形可视化,也许这可以满足您的需要。
我使用命令 'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb'
在 apache nutch
中生成了 webgrapgh
数据库。它在 crawl/webgraphdb 中生成了三个文件夹,分别是 inlinks、outlinks 和 nodes。这些文件夹中的每一个都包含两个二进制文件,如数据和索引。如何在 apache nutch 中获取可视化 web 图?网图有什么用?
Webgraph 旨在成为基于 link 结构(即 webgraph)的 分数计算 中的一个步骤:
webgraph
将为指定的 segment/s 生成数据结构
linkrank
会根据前面的结构计算分数scoreupdater
会将来自 webgraph 的分数更新回 crawdb
请注意,此程序非常 CPU/IO 密集,默认情况下会忽略网站的内部 link。
您可以使用nodedumper
命令从webgraph数据中获取有用的数据,包括节点的实际得分和最高得分inlinks/outlinks。但这并不是为了可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化。
也就是说,从 Nutch 1.11 开始,插件 index-links
已被添加,这将允许您索引到 Solr/ES inlinks 和 outlink每个 URL 的 s。我已经使用这个索引到 Solr 的插件和 sigmajs 库来生成我的爬行的 link 结构的一些图形可视化,也许这可以满足您的需要。