使用种子 url 更新主机字段名称
Update Host field name with the seed url
我正在研究 Storm Crawler 1.10 和 ES 6.4.2。我在种子文件中插入了几个 url,我希望根据主机名过滤结果。有什么办法可以告诉爬虫将种子 url 存储在主机字段中。
例如,我的种子 url 是 https://abce.com/ghi, https://abce.com/jkl, https://abce.com/mno. Need to filter the results based on https://abce.com/ghi。尝试使用弹性搜索通配符过滤器,但结果不准确。
主机字段用于分片并自动创建。只需为其创建一个新的可搜索字段。
您可以在种子文件中为每个条目添加自定义元数据,例如
https://abce.com/ghi 种子=ghi
您需要为元数据传输指定密钥,以便外链获取它:
metadata.transfer:
- seed
然后配置索引器,以便为它创建一个字段
indexer.md.mapping:
- seed=seed
最后,您可能想要优化 ES 模式并使该字段成为 关键字
"seed": {
"type": "keyword",
"index": "true",
"store": true
}
我正在研究 Storm Crawler 1.10 和 ES 6.4.2。我在种子文件中插入了几个 url,我希望根据主机名过滤结果。有什么办法可以告诉爬虫将种子 url 存储在主机字段中。
例如,我的种子 url 是 https://abce.com/ghi, https://abce.com/jkl, https://abce.com/mno. Need to filter the results based on https://abce.com/ghi。尝试使用弹性搜索通配符过滤器,但结果不准确。
主机字段用于分片并自动创建。只需为其创建一个新的可搜索字段。
您可以在种子文件中为每个条目添加自定义元数据,例如 https://abce.com/ghi 种子=ghi
您需要为元数据传输指定密钥,以便外链获取它:
metadata.transfer:
- seed
然后配置索引器,以便为它创建一个字段
indexer.md.mapping:
- seed=seed
最后,您可能想要优化 ES 模式并使该字段成为 关键字
"seed": {
"type": "keyword",
"index": "true",
"store": true
}