从文件中读取动态位集写入数据无法读取正确的数据

Reading the dynamic bitset written data from file cannot read the correct data

所以我有一个包含三个数字的向量。 65、66 和 67。我将这些数字从 int 转换为二进制并将它们附加到一个字符串中。字符串变为 100000110000101000011(分别为 65、66、67)。我正在通过 dynamic_bitset 库将这些数据写入文件。我有 BitOperations class,它可以读取和写入文件。当我从文件中读取数据而不是给出上面的位时,它给了我这些 001100010100001000001 位。

这是我的 BitOperations class:

#include <iostream>
#include <boost/dynamic_bitset.hpp>
#include <fstream>
#include <streambuf>
#include "Utility.h"
using namespace std;
using namespace boost;

template <typename T>
class BitOperations {
private:
    T data;
    int size;
    dynamic_bitset<unsigned char> Bits;
    string fName;
    int bitSize;

public:
    BitOperations(dynamic_bitset<unsigned char> b){
        Bits = b;
        size = b.size();
    }

    BitOperations(dynamic_bitset<unsigned char> b, string fName){
        Bits = b;
        this->fName = fName;
        size = b.size();
    }

    BitOperations(T data, string fName, int bitSize){
        this->data = data;
        this->fName = fName;
        this->bitSize = bitSize;
    }

    BitOperations(int bitSize, string fName){
        this->bitSize = bitSize;
        this->fName = fName;
    }

    void writeToFile(){
        if (data != ""){
            vector<int> bitTemp = extractIntegersFromBin(data);
            for (int i = 0; i < bitTemp.size(); i++){
                Bits.push_back(bitTemp[i]);
            }
        }
        ofstream output(fName, ios::binary| ios::app);
        ostream_iterator<char> osit(output);
        to_block_range(Bits, osit);
        cout << "File Successfully modified" << endl;
    }

    dynamic_bitset<unsigned char> readFromFile(){
        ifstream input(fName);
        stringstream strStream;
        strStream << input.rdbuf();
        T str = strStream.str();

        dynamic_bitset<unsigned char> b;
        for (int i = 0; i < str.length(); i++){
            for (int j = 0; j < bitSize; ++j){
                bool isSet = str[i] & (1 << j);
                b.push_back(isSet);
            }
        }
        return b;
    }
};

下面是调用这些操作的代码:

#include <iostream>
// #include <string.h>
#include <boost/dynamic_bitset.hpp>
#include "Utility/BitOps.h"

int main(){
    vector<int> v;
    v.push_back(65);
    v.push_back(66);
    v.push_back(67);

    stringstream ss;
    string st;
    for (int i = 0; i < v.size(); i++){
        ss = toBinary(v[i]);
        st += ss.str().c_str();
        cout << i << " )" << st << endl;
    }
    // reverse(st.begin(), st.end());
    cout << "Original: " << st << endl;

    BitOperations<string> b(st, "bits2.bin", 7);
    b.writeToFile();
    BitOperations<string>c(7, "bits2.bin");
    boost::dynamic_bitset<unsigned char> bits;
    bits = c.readFromFile();
    string s;
    
    // for (int i = 0; i < 16; i++){
        to_string(bits, s);
        // reverse(s.begin(), s.end());
    // }
    cout << "Decompressed: " << s << endl;
}

我做错了什么导致了不正确的行为?

编辑:这是 extractIntegersFromBin(string s) 函数。

vector<int> extractIntegersFromBin(string s){

    char tmp;
    vector<int> nums;

    for (int i = 0; s[i]; i++ ){
        nums.push_back(s[i] - '0');
    }

    return nums;
}

编辑 2:这是 toBinary 的代码:

stringstream toBinary(int n){
    vector<int> bin, bin2;
    int i = 0;
    while (n > 0){
        bin.push_back(n % 2);
        n /= 2;
        i++;
    }

    // for (int j = i-1; j >= 0; j--){
    //     bin2.push_back(bin[j]);
    // }
    reverse(bin.begin(), bin.end());
    stringstream s;
    for (int i = 0; i < bin.size(); i++){
        s << bin[i];
    }

    return s;
}

您面临两个不同的问题:

  1. boost 函数 to_block_range 将通过在末尾附加零来将输出填充到内部块大小。在您的情况下,内部块大小为 sizeof(unsigned char)*8 == 8。因此,如果您在 writeToFile 中写入文件的位序列不是 8 的倍数,则会写入额外的 0 以构成 8 的倍数。因此,如果您使用 readFromFile 读回位序列,则必须找到某种方法再次删除填充位。

  2. 没有标准的方式来表示位序列 (reference)。根据具体情况,从左到右或从右到左(或一些完全不同的顺序)表示位可能更方便。因此,当您使用不同的代码片段打印相同的位序列并且您希望这些代码片段打印相同的结果时,您必须确保这些代码片段对如何表示位序列达成一致。如果一段代码从左到右打印,另一段代码从右到左打印,您将得到不同的结果。

让我们分别讨论每个问题:

关于问题 1

我了解到您想在 boost::dynamic_bitset 的内部块大小之上使用 bitSize 变量定义您自己的块大小。例如,在您的 main 方法中,您构造 BitOperations<string> c(7, "bits2.bin");。我理解这意味着您希望文件中存储的位序列的长度是 7.

的某个倍数

如果这种理解是正确的,您可以删除由 to_block_range 插入的填充位,方法是读取文件大小,然后将其向下舍入到最接近您的块大小的倍数。尽管您应该注意,您目前没有在 BitOperation 构造函数或 writeToFile 中强制执行此合同(即通过确保数据大小是 7 的倍数)。

在您的 readFromFile 方法中,首先请注意内部循环错误地考虑了 blockSize。所以如果 blockSize7,这会错误地只考虑每个块的前 7 位。而由 to_block_range 编写的块使用每个 1 字节块的完整 8 位,因为 boost::dynamic_bitset 对您的 7 一无所知-位块大小。所以这会让你错过一些细节。

这是一个如何修复代码的示例:

    size_t bitCount = (str.length()*8) / bitSize * bitSize;
    size_t bitsPerByte = 8;

    for (int i = 0; i < bitCount; i++) {
      size_t index = (i / bitsPerByte);
      size_t offset = (i % bitsPerByte);

      bool isSet = (str[index] & ( 1 << offset));
      b.push_back(isSet);
    }

此示例首先通过将文件大小四舍五入为块大小的最接近倍数来计算总共应读取多少位。然后它遍历输入中的完整字节(即由 boost::dynamic_bitset 写入的内部块),直到读取了目标位数。剩余的填充位被丢弃。

另一种方法是使用 boost::from_block_range。这允许您摆脱一些样板代码(即将输入读入某个字符串缓冲区):

  dynamic_bitset<unsigned char> readFromFile() {
    ifstream input{fName};

    // Get file size
    input.seekg(0, ios_base::end);
    ssize_t fileSize{input.tellg()};

    // TODO Handle error: fileSize < 0

    // Reset to beginning of file
    input.clear();
    input.seekg(0);

    // Create bitset with desired size
    size_t bitsPerByte = 8;
    size_t bitCount = (fileSize * bitsPerByte) / bitSize * bitSize;
    dynamic_bitset<unsigned char> b{bitCount};

    // TODO Handle error: fileSize != b.num_blocks() * b.bits_per_block / bitsPerByte

    // Read file into bitset
    std::istream_iterator<char> iter{input};
    boost::from_block_range(iter, {}, b);

    return b;
  }

关于问题 2

解决问题 1 后,writeToFile 写入文件的 boost::dynamic_bitset 将与 readFromFile 读取的相同。如果您使用相同的方法打印两者,则输出将匹配。但是,如果您使用不同的打印方法,并且这些方法不同意打印位的顺序,您将得到不同的结果。

例如,在程序的输出中,您现在可以看到“原始:”输出与“解压缩:”输出相同,只是顺序相反:

Original: 100000110000101000011
...
Decompressed: 110000101000011000001

同样,这并不意味着 readFromFile 工作不正常,只是您使用不同的方式打印位序列。

Original:的输出是通过从左到右直接打印main中的0/1输入字符串获得的。在 writeToFile 中,这个字符串然后按照与 extractIntegersFromBin 相同的顺序分解,每个位被传递给 boost::dynamic_bitsetpush_back 方法。 push_back 方法附加到位序列的末尾,这意味着它会将您传递的每个位解释为比前一个 (reference) 更重要:

Effects: Increases the size of the bitset by one, and sets the value of the new most-significant bit to value.

因此,您的输入字符串被解释为输入字符串中的第一位是最低有效位(即序列的“第一”位),输入字符串的最后一位是最高有效位位(即序列的“最后”位)。

而您使用 to_string 构造“已解压:”的输出。从这个方法的文档中,我们可以看到位序列的最低有效位将是输出字符串的 last 位 (reference):

Effects: Copies a representation of b into the string s. A character in the string is '1' if the corresponding bit is set, and '0' if it is not. Character position i in the string corresponds to bit position b.size() - 1 - i.

所以问题很简单,to_string(设计)的打印顺序与您手动打印输入字符串的顺序相反。因此,要解决此问题,您必须反转其中一个,即通过以相反顺序迭代字符串来打印输入字符串,或者反转 to_string.

的输出