位操作和标志

Bit Manipulation and Flags

https://i.imgur.com/VU56Rwn.png

答: 当 open 的手册页说: 指定的标志由以下值组成:

       O_RDONLY        open for reading only
       O_WRONLY        open for writing only
       ...

这意味着我们应该像这样在标志之间使用逻辑或:O_RDONLY || O_WRONLY指定我们想要的权限组合。

B:为了指示不同的选项,我们使用位标志(而不是字符或整数)来保存 space。

C:对位标志执行操作很快。

D: 系统调用中使用的位标志在库文件中定义。

E: 命令 chmod 使用以八进制定义的位标志常量,因为有八种可能的权限状态。

我知道如果它是一个好的系统库,则库文件中没有定义位标志。它们通常是 header 中的常量或 #defines,而不是编译后的 object,如果那是 "library files" 所指的。但是,我不明白他们是如何保存的space,位标志不就是整数吗?

什么是位标志的简要概述

位标志是定义一组某种类型的常量,通常是各种选项。位标志通常定义为十六进制常量,其目的是将按位运算符与这些常量一起使用,以便通过使用按位运算符从常量的总集中创建一些子集。

位运算符是|(按位或)、&(按位与)、^(按位异或)、~等运算符(bitwise Not) 对两个值逐位执行运算符指定的布尔逻辑运算,生成一个新值。按位运算符不同于 ||(逻辑或)、&&(逻辑与)等逻辑运算符,它们与计算结果为布尔值真 (non-zero) 的表达式一起使用或假(零)。

使用 C 预处理器 define 指令创建按位标志的典型定义示例如下:

#define  ITM_FLAG_EXAMPLE1  0x00000001L   // an example bitwise flag
#define  ITM_FLAG_EXAMPLE2  0x00000002L   // another example flag
#define  ITM_FLAG_JUMP01    0x00040000L   // another example
#define  ITM_FLAG_JUMP02    0x00080000L   // another example

此外,现代 C 编译器也将允许使用 enum 类型。

typedef enum { ITEM_FLAG_1 = 1, ITEM_FLAG_2 = 2, ITEM_FLAG_3 = 4 } ItemType;

ItemType AnItem = ITEM_FLAG_1;    // defining a variable of the type
ItemType AnItem2 = ITEM_FLAG_1 | ITEM_FLAG_2;  // defining a second variable

enum { ITEM_FLAG_1 = 1, ITEM_FLAG_2 = 2, ITEM_FLAG_3 = 4 } ItemType;

enum ItemType AnItem = ITEM_FLAG_1;    // defining a variable of the type
enum ItemType AnItem2 = ITEM_FLAG_1 | ITEM_FLAG_2;  // defining a second variable

以及如何使用它们的几个示例:

unsigned long ulExample = ITM_FLAG_EXAMPLE2;   // ulExample contains 0x00000002L
unsigned long ulExamplex = ITM_FLAG_EXAMPLE1 | ITM_FLAG_EXAMPLE2;  // ulExamplex contains 0x00000003L
unsigned long ulExampley = ulExamplex & ITM_FLAG_EXAMPLE2;  // ulExampley contains 0x00000002L

查看此博文,Intro to Truth Tables & Boolean Algebra, which describes the various Boolean Algebra operations and this Wikipedia topic on Truth Tables

使用位标志的一些注意事项

使用位标志时可能会遇到一些问题,也有一些需要注意的地方。

  • 使用位标志定义的常量为零,未设置任何位,可能会导致问题
  • 与逻辑运算混合的位运算可能是一个缺陷区域

通常使用定义为零值而不是 non-zero 的位标志会导致错误。大多数程序员都希望位标志具有 non-zero 值,代表某种集合中的成员资格。定义为零的 bitflag 是一种违反预期的行为,在按位运算中使用时会导致意想不到的后果和行为。

当将位标志变量的按位运算与逻辑运算符结合使用时,强制执行特定运算符优先级的括号通常更容易理解,因为它不需要 reader 知道 C operator precedence table

关于发布的问题

当提供一个库时,通常会有一个或多个包含文件随库文件一起提供,以提供许多需要的项目。

  • 库提供的函数的函数原型
  • 库使用的类型的变量类型声明和定义
  • 控制库函数行为的操作数和标志的特殊常量

位标志是为函数接口提供选项的一种历史悠久的方式。位标志有几个很好的属性,使它们对 C 程序员很有吸引力。

  • 易于通过接口传输的紧凑表示
  • 非常适合布尔代数运算和集合操作
  • 自然适合 C 位运算符来执行这些操作

位标志保存 space 因为标志的名称可能很长且具有描述性,但可以编译为单个无符号值,例如 unsigned short 或 unsigned long 或 unsigned char。

使用位标志的另一个好处 属性 是,当在表达式中对常量使用按位运算符时,大多数现代编译器会将按位运算作为编译表达式的一部分进行评估。因此,现代编译器将在表达式中采用多个按位运算符,例如 O_RDONLY | O_WRONLY 并在编译源代码时执行按位或,并将表达式替换为计算表达式的值。

在大多数计算机体系结构中,按位运算符是使用寄存器执行的,数据加载到寄存器中,然后执行按位运算。对于 32 位架构,使用 32 位变量包含一组位自然适合 CPU 寄存器,就像在 64 位架构中一样,使用 32 或 64 位变量包含一组自然适合的位进入寄存器。这种自然匹配允许对相同变量进行多次按位操作,而无需从 CPU 缓存或主内存中获取数据。

C 的位运算符几乎总是有一个 CPU 机器指令模拟,因此 C 位运算符具有几乎完全相似的 CPU 操作,因此编译器生成的机器代码非常高效。

通过使用 unsigned long 传递 32 个不同的标志或使用 unsigned long long 将 64 个不同的标志传递给一个函数,可以很容易地看到位标志的紧凑表示。通过使用数组偏移量和位标志方法以及一组 C 处理器宏或一组函数来操作数组,unsigned char 数组可用于传递更多标志。

什么的一些例子可能

按位运算符与用于集合的逻辑运算符非常相似,并且用位标志表示集合效果很好。如果您有一个包含操作数的集合,其中一些操作数不应与其他一些标志一起使用,那么使用按位运算符和位掩码可以很容易地查看是否指定了两个冲突的标志。

#define FLAG_1  0x00000001L     // a required flag if FLAG_2 is specified
#define FLAG_2  0x00001000L     // must not be specified with FLAG_3
#define FLAG_3  0x00002000L     // must not be specified with FLAG_2

int func (unsigned long ulFlags)
{
    // check if both FLAG_2 and FLAG_3 are specified. if so error
    // we do a bitwise And to isolate specific bits and then compare that
    // result with the bitwise Or of the bits for equality. this approach
    // makes sure that a check for both bits is turned on.
    if (ulFlags & (FLAG_2 | FLAG_3) == (FLAG_2 | FLAG_3)) return -1;

    // check to see if either FLAG_1 or FLAG_3 is set we can just do a
    // bitwise And against the two flags and if either one or both are set
    // then the result is non-zero.
    if (ulFlags & (FLAG_1 | FLAG_3)) {
        // do stuff if either or both FLAG_1 and/or FLAG_3 are set
    }

    // check that required option FLAG_1 is specified if FLAG_2 is specified.
    // we are using zero is boolean false and non-zero is boolean true in
    // the following. the ! is the logical Not operator so if FLAG_1 is
    // not set in ulFlags then the expression (ulFlags & FLAG_1) evaluates
    // to zero, False, and the Not operator inverts the False to True or
    // if FLAG_1 is set then (ulFlags & FLAG_1) evaluates to non-zero, True,
    // and the Not operator inverts the True to False. Both sides of the
    // logical And, &&, must evaluate True in order to trigger the return.
    if ((ulFlags & FLAG_2) && ! (ulFlags & FLAG_1)) return -2;
    // other stuff
}

例如,请参阅 Using select() for non-blocking sockets 以获取有关使用位标志的标准 socket() 接口的简要概述,以及 select() 函数以获取使用类似于位标志可以做什么。 socket 函数允许通过使用带有 fcntl() 函数的位标志来设置各种特性,例如 non-blocking,而 select() 函数具有一组关联的 function/macros(FD_SET()FD_ZERO() 等)提供了一个抽象,用于指示要在 select() 中监视哪些套接字句柄。我并不是要暗示 select() 套接字集是位图,尽管在最初的 UNIX 中,我相信它们是。然而,select() 及其相关实用程序的抽象设计提供了一种可以用位标志实现的集合。

包含按位标志的变量的评估也可以更快、更容易、更有效和更易读。例如,在使用一些定义的标志调用的函数中:

#define ITEM_FLG_01  0x0001
#define ITEM_FLG_02  0x0002
#define ITEM_FLG_03  0x0101
#define ITEM_FLG_04  0x0108
#define ITEM_FLG_05  0x0200

#define ITEM_FLG_SPL1 (ITEM_FLG_01 | ITEM_FLG_02)

可能会有 switch() 语句,例如:

switch (bitwiseflags & ITEM_FLG_SPL1) {
    case ITEM_FLG_01 | ITEM_FLG_02:
        // do things if both ITEM_FLG_01 and ITEM_FLG_02 are both set
        break;
    case ITEM_FLG_01:
        // do things if ITEM_FLG_01  is set
        break;
    case ITEM_FLG_02:
        // do things if ITEM_FLG_02 is set
        break;
    default:
        // none of the flags we are looking for are set so error
        return -1;
}

您可以使用与上面相同的定义来做一些简短的表达式,例如下面的表达式。

// test if bitwiseflags has bit ITEM_FLG_5 set and if so then call function
// doFunc().
(bitwiseflags & ITEM_FLG_5) == ITEM_FLG_5 && doFunc();

附录:一种用于大量位标志的技术

请参阅此答案,Creating bitflag variables with large amounts of flags or how to create large bit-width numbers 用于大型集合的方法,大于 32 位或 64 位变量的位标志。

首先,|||是不同的运算符

| 是 bit-wise OR 运算符,它对每一位执行 OR,你得到 结果。

|| 是逻辑或运算符,如果左侧为真,则 returns 为真或 右边为真,否则为假。

如果是位标志,你应该使用|,比如O_RDONLY | O_WRONLY

B: To indicate different options we use bit flags (rather than characters or integers) in order to save space.

老实说,我认为这种措辞有点误导。好东西 关于位标志,是你可以打包成一个 int,主要是 32 位长,向上 到 32 个具有 ON/OFF 语义的不同值。所以采取的功能 这些选项,只需使用一个 int 即可获得多个选项 来自调用者,因为单个位表示这样一个 on/off 属性。如果 位为 1,则 属性 为 ON,否则为 OFF。

简而言之,当您不使用位标志时,该函数必须采用 每个选项都有单独的变量,如果你有很多选项,你需要 函数声明中有很多变量。所以你可以 "save space" 如果你 改用位标志。

考虑一下:

// lot's of other has_property_x cases

int somefunc(int has_property_a, int has_property_b, int has_property_c, ...)
{
    if(has_property_a)
        do_something_based_on_a();
    if(has_property_b)
        do_something_based_on_b();
    ....
}

void foo(void)
{
    somefunc(1, 1, 0, 1, 1);
}

这不是很有效,很难阅读,代码很痛苦, 总的来说不是一个好的设计。

但是如果你使用位标志,你可以在函数中节省很多变量:

// lot's of other HAS_PROPERTY_X cases

#define HAS_PROPERTY_A 1
#define HAS_PROPERTY_B 2
#define HAS_PROPERTY_C 4
...

int somefunc(int flags)
{
    if(flags & HAS_PROPERTY_A)
        do_something_based_on_a();
    if(flags & HAS_PROPERTY_B)
        do_something_based_on_b();
    ...
}

void foo(void)
{
    somefunc(HAS_PROPERTY_A | HAS_PROPERTY_B | HAS_PROPERTY_E);
}

更加紧凑和可读。