获取 Common Crawl 首次抓取 URL 的日期?

Getting date of first crawl of URL by Common Crawl?

在 Common Crawl 中,相同的 URL 可以多次收获。

例如,Reddit 博客 post 可以在创建时被抓取,然后在添加后续评论时被抓取。

有没有办法找到给定 URL 首次被 Common Crawl 抓取的时间?

URL 索引 (CDX or columnar) 包括 field/column 和捕获时间。只需搜索 URL,记录所有捕获,然后查看有关添加评论的捕获的页面内容。索引还包括 WARC 文件名、记录偏移量和长度,允许使用 HTTP 范围请求获取 WARC 记录。