使用 Nutch 1.X REST APi 沿着种子 url 传递元数据
Pass metadata along seed urls with Nutch 1.X REST APi
我目前正在尝试将种子 url 包含在为我的搜索后端(当前为 ElasticSearch)中的每个 url 编制索引的数据中。
我在 that metadata could be passed with each seed, which could suit my need. However, I'm using the REST API to create my seed list 中看到过,seedUrls
参数中似乎不允许使用元数据。
有没有人尝试用 REST API 做到这一点?
还有其他方法可以实现吗?
我以为我可以编写一个自定义的 IndexingFilter 来在要索引的 NutchDocument 中添加种子 URL,但是此时,种子 URL 从我所看到的不可用。
提前致谢!
目前 REST API 似乎不支持处理关联的元数据。我相信这并不需要那么大的努力来完成,基本上我们只需要处理JSON payload并自定义相应的实体SeedUrl
来保存元数据,当然还可以自定义[=14] =] 方法。
尽管您编写 IndexingFilter
的方法行不通。种子 URL 在抓取生命周期的最开始时注入,IndexingFilter
只负责选择将哪些内容编入您的存储。
我目前正在尝试将种子 url 包含在为我的搜索后端(当前为 ElasticSearch)中的每个 url 编制索引的数据中。
我在 seedUrls
参数中似乎不允许使用元数据。
有没有人尝试用 REST API 做到这一点?
还有其他方法可以实现吗? 我以为我可以编写一个自定义的 IndexingFilter 来在要索引的 NutchDocument 中添加种子 URL,但是此时,种子 URL 从我所看到的不可用。
提前致谢!
目前 REST API 似乎不支持处理关联的元数据。我相信这并不需要那么大的努力来完成,基本上我们只需要处理JSON payload并自定义相应的实体SeedUrl
来保存元数据,当然还可以自定义[=14] =] 方法。
尽管您编写 IndexingFilter
的方法行不通。种子 URL 在抓取生命周期的最开始时注入,IndexingFilter
只负责选择将哪些内容编入您的存储。