Gzip 文件:提取未按预期工作

Gzip Files: Extracting Does Not Work as Expected

我在处理 gzip 文件时遇到了这个非常奇怪的问题。我正在尝试下载此文件 https://www.sec.gov/Archives/edgar/daily-index/2014/QTR2/master.20140402.idx.gz

当我查看压缩包中的文件内容时,它是完美的。

然而,当我解压缩内容并尝试查看它们时,全是乱码。

文件有问题还是我在这里看不到任何东西?

如果我没记错的话,idx 文件是 Java 文件。它也可以是纯文本存档格式,在本例中就是这种格式。

在 Linux 上,尝试 运行

gunzip master.20140402.idx.gz

这会将其提取到一个 idx 文件中,您应该可以使用任何文本 reader 打开该文件,例如 vi,因为 vi 几乎可以打开任何东西。

在 Windows 上,您可以从命令行使用 WinZip,其中:

wzunzip -d master.20140402.idx.gz

然后您可以使用 IE、Edge 或写字板之类的工具来尝试检查该文件,它们应该会自动加载可读环境。

编辑:

因此,我下载了该文件,并且能够使用我的上述命令在 vi、IE 和写字板中提取和查看它,所以如果您看到乱码,请尝试重新下载它。 .gz 格式应该是 104kb,提取出来是 533kb。