在这种情况下我的压缩率可以低于 6.25% 吗?

Can I have compression ratio less than 6.25% in this situation?

我有一个文本文件,其中包含仅由两个字符组合而成的长文本。

有什么方法可以将它们压缩到小于 6.25% 的压缩率。

我不想使用任何库或某些函数,但是
我想要一些公式或算法来完成这项工作。
一个想法是我的问题的最佳答案。

P.S :- 实际上我正在尝试自己创建一个,但我对此一无所知。不管是什么,我都拿着笔+笔记本坐着,并试图自己完成。

压缩率直接由文件内容决定。例如,一个只包含 0s N 次的文件可以使用 log_2(N) 位进行压缩(您只需指定它包含多少个零)。从技术上讲,压缩率最多等于源的香农熵,因为您可能认为您的文件包含一些随机源生成的符号。

因此,除非您知道文件的结构并且可以使用一些附加信息,否则无法保证压缩率低于某个阈值。如果您不知道结构并且您的文件只包含随机的 0 和 1,那么就无法压缩它(在这种情况下熵只是 1)。

参见例如this link 了解更多详情。您绝对应该阅读一些介绍性的信息论,否则重新发明轮子可能会非常乏味。

除非您的数据中有其他冗余,否则不会。您可以做的最好是 12.5%,即 1/8,因为您可以将每个字符编码为一位。