通过 http 将 AWS Common Crawl 的小样本下载到本地计算机
Download small sample of AWS Common Crawl to local machine via http
我有兴趣下载 AWS Common Crawl 的一个小子集(10 兆字节)的原始文本,作为信息检索测试的语料库。
Common Crawl 页面建议我需要一个 S3 帐户 and/or Java 程序来访问它,然后我正在考虑筛选 100 Gb 的数据,而我只需要一些十几兆。
有 some code here,但它需要 S3 帐户和访问权限(尽管我确实喜欢 Python)。
有没有一种方法可以形成一个 http(s) URL,让我获得一个微小的爬网横截面以供我使用?我相信我查看了一个页面,该页面建议使用日、小时、分钟构建目录的方法,但我似乎无法再次找到该页面。
谢谢!
这很简单:只需从任何月度抓取中随机选择一个 WARC(WAT 或 WET)文件。抓取在此处公布:https://commoncrawl.org/connect/blog/
- 获取最新的抓取(例如 April 2019)
- 导航到 WARC 文件列表并下载(WAT 或 WET 相同)
- 解压文件随机select一行(文件路径)
- 在路径前加上https://commoncrawl.s3.amazonaws.com/(博客中有说明post)然后下载
你很沮丧,因为每个 WARC/WAT/WET 文件本身就是一个随机样本。需要更多数据:随机选择更多文件即可。
我有兴趣下载 AWS Common Crawl 的一个小子集(10 兆字节)的原始文本,作为信息检索测试的语料库。
Common Crawl 页面建议我需要一个 S3 帐户 and/or Java 程序来访问它,然后我正在考虑筛选 100 Gb 的数据,而我只需要一些十几兆。
有 some code here,但它需要 S3 帐户和访问权限(尽管我确实喜欢 Python)。
有没有一种方法可以形成一个 http(s) URL,让我获得一个微小的爬网横截面以供我使用?我相信我查看了一个页面,该页面建议使用日、小时、分钟构建目录的方法,但我似乎无法再次找到该页面。
谢谢!
这很简单:只需从任何月度抓取中随机选择一个 WARC(WAT 或 WET)文件。抓取在此处公布:https://commoncrawl.org/connect/blog/
- 获取最新的抓取(例如 April 2019)
- 导航到 WARC 文件列表并下载(WAT 或 WET 相同)
- 解压文件随机select一行(文件路径)
- 在路径前加上https://commoncrawl.s3.amazonaws.com/(博客中有说明post)然后下载
你很沮丧,因为每个 WARC/WAT/WET 文件本身就是一个随机样本。需要更多数据:随机选择更多文件即可。