关于 WARC-StormCrawler WARC 文件中的条目类型
On WARC-Type of entries in StormCrawler WARC files
将我们的爬虫从 StormCrawler 1.8 升级到 1.14 后,我们注意到我们的 WARC 条目的响应类型已从 "WARC-Type: response" 更改为 "WARC-Type: resource"。
关于如何切换回 "WARC-Type: response" 的任何建议?
WARCRecordFormat between 1.8 and 1.14 - if there is a verbatim HTTP response header available, a response record is written. If there is no HTTP header, a WARC resource 记录没有任何变化。
为了存储 HTTP headers,需要进行以下配置:
http.store.headers: true
http.protocol.implementation: com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol
https.protocol.implementation: com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol
可在 README of the WARC module 中找到更多信息。
将我们的爬虫从 StormCrawler 1.8 升级到 1.14 后,我们注意到我们的 WARC 条目的响应类型已从 "WARC-Type: response" 更改为 "WARC-Type: resource"。 关于如何切换回 "WARC-Type: response" 的任何建议?
WARCRecordFormat between 1.8 and 1.14 - if there is a verbatim HTTP response header available, a response record is written. If there is no HTTP header, a WARC resource 记录没有任何变化。
为了存储 HTTP headers,需要进行以下配置:
http.store.headers: true
http.protocol.implementation: com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol
https.protocol.implementation: com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol
可在 README of the WARC module 中找到更多信息。