nutch+solr如何获取文档的最后修改时间或创建时间?

How to get the last-modified or the creation time of a document crawled and indexed by nutch+solr?

我需要通过nutch+solr获取某个内网下某个文档的最后修改时间或者创建时间? 我尝试使用 Metadata.LAST_MODIFIED 字段,但它返回 null。我 在显示我的搜索结果时需要它们。 Date 返回抓取的日期。 我在这方面不是很有经验,所以欢迎任何帮助!非常感谢你。 问候, 亚历克斯

您测试的 URL 很可能没有 return Last-Modified 响应 header。大多数网页没有 return 此信息。由于它在您的 Intranet 中,我建议使用一些工具(例如 Chrome Developer Tools 的网络监视器)对其进行测试,以查看 header 是否实际上 returned.

我在这里找到了一个可能的答案,但这并不是我要寻找的答案,它比这更复杂,但对其他人可能有所帮助: www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/