JSoupParserBolt 是否有一个内置的实现来利用 parsefilters.json 文件和与之关联的 类?
Does JSoupParserBolt has an inbuilt implementation to utilise parsefilters.json file and the classes associated with it?
我正在研究使用 Storm 爬虫中提供的过滤器 类 的特定 XPath 数据提取。我想知道 JSoupParserBolt 是否利用了与过滤器 类 和文件相关的 类,或者我们是否必须覆盖过滤器 类 才能提取所需的数据。
我还试图了解如何使用 indexer.md.filter 和 indexer.md.mapping 来自 [=28] 的条目=],但由于文档有限,我不清楚使用方法。
谁能帮帮我?
JSoupParserBolt 调用 parsefilters.json 中定义的 ParseFilters。 The one generated by the archetype 很好地说明了您可以使用它们做什么。如果你需要做一些简单的 XPath 提取,你应该能够通过配置 com.digitalpebble.stormcrawler.parse.filter.XPathFilter 来完成。例如,
"parse.title": [
"//TITLE",
"//META[@name=\"title\"]/@content"
]
将尝试匹配两个 Xpath 表达式并存储在键 parse.title.
下的元数据中找到的任何值
您当然可以实现自定义 ParseFilters,this package 包含您可以用作灵感来源的各种实现。
至于 indexer.md 配置,see wiki。基本上,映射允许您重命名元数据键
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
在上面的示例中,键 'parse.title' 将被索引为名为 'title' 的字段。只有映射中列出的元数据将用于索引。
indexer.md.filter 有不同的用途。如 Javadoc 中所述,它用于过滤掉(即跳过索引)在其元数据中具有键+值的文档。
我正在研究使用 Storm 爬虫中提供的过滤器 类 的特定 XPath 数据提取。我想知道 JSoupParserBolt 是否利用了与过滤器 类 和文件相关的 类,或者我们是否必须覆盖过滤器 类 才能提取所需的数据。
我还试图了解如何使用 indexer.md.filter 和 indexer.md.mapping 来自 [=28] 的条目=],但由于文档有限,我不清楚使用方法。
谁能帮帮我?
JSoupParserBolt 调用 parsefilters.json 中定义的 ParseFilters。 The one generated by the archetype 很好地说明了您可以使用它们做什么。如果你需要做一些简单的 XPath 提取,你应该能够通过配置 com.digitalpebble.stormcrawler.parse.filter.XPathFilter 来完成。例如,
"parse.title": [
"//TITLE",
"//META[@name=\"title\"]/@content"
]
将尝试匹配两个 Xpath 表达式并存储在键 parse.title.
下的元数据中找到的任何值您当然可以实现自定义 ParseFilters,this package 包含您可以用作灵感来源的各种实现。
至于 indexer.md 配置,see wiki。基本上,映射允许您重命名元数据键
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
在上面的示例中,键 'parse.title' 将被索引为名为 'title' 的字段。只有映射中列出的元数据将用于索引。
indexer.md.filter 有不同的用途。如 Javadoc 中所述,它用于过滤掉(即跳过索引)在其元数据中具有键+值的文档。