位域的剖析
1.定义
位域,又称位段。C语言允许在一个结构体中以位为单位来指定其成员所占内存长度,这种以位为单位的成员称为“位段”或称“位域”( bit field) 。利用位段能够用较少的位数存储数据。
信息的存取一般以字节为单位。实际上,有时存储一个信息不必用一个或多个字节,例如,“真”或“假”用0或1表示,只需1位即可。在计算机用于过程控制、参数检测或数据通信领域时,控制信息往往只占一个字节中的一个或几个二进制位,常常在一个字节中放几个信息。这样造成了大量的位处于浪费的状态。
2.性质
位段(或称“位域”,Bit field)为一种数据结构,可以把数据以位的形式紧凑的储存,并允许程序员对此结构的位进行操作。这种数据结构的好处:
1.可以使数据单元节省储存空间,当程序需要成千上万个数据单元时,这种方法就显得尤为重要。
2.位段可以很方便的访问一个整数值的部分内容从而可以简化程序源代码。
但是,位域也有它的缺点:
缺点在于,其内存分配与内存对齐的实现方式依赖于具体的机器和系统,在不同的平台可能有不同的结果,这导致了位段在本质上是不可移植的。不同的IDE在处理位段这种数据结构的时候确实会有很大的不同。比如vs和DEV-c++。具体有何不同我们后文会有讲到。
3.例子
在C语言中,位段的声明和结构体(struct)类似,但它的成员是一个或多个位的字段,这些不同长度的字段实际储存在一个或多个整型变量中。在声明时,位段成员必须是整形或枚举类型(通常是无符号类型),且在成员名的后面是一个冒号和一个整数,整数规定了成员所占用的位数。位域不能是静态类型。不能使用&对位域做取地址运算,因此不存在位域的指针,编译器通常不支持位域的引用(reference)。以下程序则展示了一个位段的声明:
以上两幅图很相似,虽然都是声明,但意义不一样。
第一个声明取自一段文本格式化程序,应用了位段声明。它可以处理256个不同的字符(8位),64种不同字体(6位),以及最多262,144个单位的长度(18位)。这样,在ch1这个字段对象中,一共才占据了32位的空间。而第二个程序利用结构体进行声明,可以看出,处理相同的数据,CHAR2类型占用了48位空间,如果考虑边界对齐并把要求最严格的int类型最先声明进行优化,那么CHAR2类型则要占据64位的空间。(后文会详细解释)
通过这个例子,你知道了位域的好处了。
4.无名位域
如果位域的定义没有给出标识符名字,那么这是无名位域,无法被初始化。无名位域用于填充(padding)内存布局。只有无名位域的比特数可以为0。这种占0比特的无名位域,用于强迫下一个位域在内存分配边界对齐。
猜一猜,这个变量a所占内存是多少。
答案是1.
如果加上无名位域,再猜猜。
结果是2.
无名位域的作用就是无名位域后面的位域不能和无名位域前面的位域合并在同一个存储单元中(可能是1,2,4字节)。用于强迫下一个位域在内存分配边界对齐。
5.实现
通常在大端序系统(如PowerPC),安排位域从最重要字节(most-significant byte)到最不重要字节(least-significant byte),在一个字节内部从最重要位(most-significant bit)到最不重要位(least-significant bit);而在小端序系统(如x86),安排位域从最不重要位(least-significant byte)到最重要字节(most-significant byte),在一个字节内部从最不重要位(least-significant bit)到最重要位(most-significant bit)。共同遵从的原则是内存字节地址从低到高,内存内部的比特编号从低到高。
我的程序是在X86系统下运行的,所以是小段模式,大部分人几乎都是在X86系统下编译C语言的。
Microsoft Visual Studio实现在一个整数(integer)(4字节)内的位域从最不重要位(least-significant)向最重要位(most-significant)依次分配,从最不重要字节向最重要字节依次分配。
相邻的两个位域如果基类型(underlying type)的长度相同,在后的位域适合当前内存分配单元且没有跨内存分配边界,那么这两个位域分配到同一个(1、2或4字节的)分配单元。这可以通俗理解为:具有相同的基类型(underlying type)长度的相邻位域尽量装入基类型的同一个对象,如果装得下的话。位域长度一定小于基类型的长度,否则编译会不通过。
6.含位域结构体的sizeof
前面已经说过,位域成员不能单独被取sizeof值,我们这里要讨论的是含有位域的结构体的sizeof,只是考虑到其特殊性而将其专门列了出来。C99规定int、unsigned int和bool可以作为位域类型,但编译器几乎都对此作了扩展,允许其它类型类型的存在。 使用位域的主要目的是压缩存储,
其大致规则为:
-
如果相邻位域字段的类型相同,且其位宽之和小于类型的sizeof大小,则后面的字段将紧邻前一个字段存储,直到不能容纳为止。
-
如果相邻位域字段的类型相同,但其位宽之和大于类型的sizeof大小,则后面的字段将从新的存储单元开始。
-
如果相邻的位域字段的类型不同,则各编译器的具体实现有差异,VS采取不压缩方 式,Dev-C++采取压缩方式。
-
如果位域字段之间穿插着非位域字段,则不进行压缩。
-
整个结构体的总大小为最宽基本类型成员大小的整数倍。
除了以上位域的规则外,还有一些要补充的。
1.一个位段必须存储在同一存储单元中,不能跨两个单元。如果第一个单元空间不能容纳下一个位段,则该空间不用,而从下一个单元起存放该位段。
2.位段可以用整型格式符输出。
3.位段可以在数值表达式中引用,它会被系统自动地转换成整型数。
4. 已命名位域不能有零宽度。
5. 给位域变量赋值的时候如果超过赋值范围,超过的位忽略。
6. 位段定义的第一个位段长度不能为0。
7.位域的压缩(SIZEOF)
7.1.位域类型相同
-
如果相邻位域字段的类型相同,且其位宽之和小于类型的sizeof大小,则后面的字段将紧邻前一个字段存储,直到不能容纳为止。
-
如果相邻位域字段的类型相同,但其位宽之和大于类型的sizeof大小,则后面的字段将从新的存储单元开始。
7.2.位域类型不同
如果相邻位域字段的类型不相同,总字节数为位域类型所占字节较大的整数倍。
但我们再来看看这种情况。
总字节数依旧为12。
最重要的来了,位段到底是怎样压缩的呢。
我们为了更好地理解压缩方式,我们对元素赋值看看。
这个结构体变量的地址为红色箭头所示,我们跟进去,看看里面的内容。
位段c和位段d在第三个字节处(四字节对齐)。由于位段c和位段d的总长不超过一个字节,所以它们压缩在同一个字节内。
位段c的值为3占两位,位段d的值为3占5位。由于内存(某些地方)一个字节默认的值为cc二进制表示为
cc : 1100 1100
位段c : 11
位段d : 000 11
最后的结果为: 1110 1111
7.3.赋值方式,排列方式
大家对上面的结果是不是很懵逼啊,哈哈,当然了,我不跟你说赋值方式和排列方式,你怎么看的懂。
排列方式:在位域结构体中,先定义的位域字段在低端,后定义的位域字段在高端。
位段c先定义,所以它在低端,位段d后定义,所以它在高端。
赋值方式:给位域变量赋值的时候如果超过赋值范围,超过的位忽略
这样,你是不是看懂了上面的结果呢。
但是,你发现位段c和位段d的总长小于一个字节,所以压缩在一个字节内,如果总长大于一个字节呢,很简单,根据前面的理论知识我们知道,位段d就存储在位段c所在字节的后面一个字节。
8.总结
本片文章详细地讲解了位域的知识,可以说是全站最详细的剖析了,如果你觉得不错的话,就请点个赞吧,如果你觉得有说错的地方,也请您不吝赐教。