Apache Nutch 中的 parserJob 有什么用?
What's the utility of parserJob in Apache Nutch?
我找不到任何关于它的有用文档,例如注入器、生成器、提取器和 dbUpdater。
我需要了解它的作用。
我正在使用 nutch 2.2.1
在两个版本中 1.x/2.x 解析指的是同一个概念:从之前获取的网页中提取有用的信息。
当然"useful"是一个非常宽泛的术语。在更专注于 Nutch 的视图中,这通常意味着 运行 所有解析过滤器插件,(每个插件负责完成一项特定工作)。例如,parse-metatags
插件将提取特定的(配置的)元标记并允许您将其存储在后端。默认情况下,Nutch 仅尝试提取网页的文本内容和一些附加信息,如标题、headers 等。
我找不到任何关于它的有用文档,例如注入器、生成器、提取器和 dbUpdater。 我需要了解它的作用。 我正在使用 nutch 2.2.1
在两个版本中 1.x/2.x 解析指的是同一个概念:从之前获取的网页中提取有用的信息。
当然"useful"是一个非常宽泛的术语。在更专注于 Nutch 的视图中,这通常意味着 运行 所有解析过滤器插件,(每个插件负责完成一项特定工作)。例如,parse-metatags
插件将提取特定的(配置的)元标记并允许您将其存储在后端。默认情况下,Nutch 仅尝试提取网页的文本内容和一些附加信息,如标题、headers 等。