1. 问题背景
最近有小伙伴对于 C 语言中指针的运算有点疑问:指针变量加 1 之后,到底向后偏移了几个字节呢?
示例代码如下,这段代码运行在32位CPU平台上:
#include<stdio.h>
#pragma pack(1)
struct tree
{
int height;
int age;
char tag;
};
#pragma pack()
int main()
{
char buffer[512];
char *tmp_ptr = NULL;
struct tree *t_ptr = NULL;
char *t_ptr_new = NULL;
tmp_ptr = buffer;
t_ptr = (struct tree *) tmp_ptr;
t_ptr_new = (char *)(t_ptr + 1);
printf("t_ptr_new point to buffer[%ld]\n", t_ptr_new - tmp_ptr);
return 0;
}
请问,指针变量 t_ptr_new 指向数组 buffer 的哪个位置?
如果能快速得出答案,恭喜你,已经掌握指针算术运算的原理,以及结构体占用空间大小的计算方法。如果不能,也不要气馁,正好可以将这部分欠缺的知识补充上。下面,让我们来逐步揭开它的内幕。
2. 结构体
C 语言中 struct 声明创建一个数据类型(结构体),能将不同类型的对象聚合到一个对象中,用名字来引用结构体的各个组成部分。结构体的所有组成部分都存放在一段连续的内存中。指向结构的指针就是结构体第一个成员的地址。
示例中结构体类型定义:
#pragma pack(1)
struct tree
{
int height;
int age;
char tag;
};
#pragma pack()
结构体内部有三个成员变量,其中两个为 int 型,一个 char 型。编译器按照成员列表顺序挨个给每个成员分配内存。此结构体占用的内存空间是多少个字节呢?
height 和 age 各占用4个字节,tag 占用 1 个字节。那结构体占用的空间就是 9 个字节 呗。是这样吗?
让我们先来了解一个概念:数据对齐。
数据对齐
许多计算机系统对基本的数据类型的合法地址做了一些限制。要求某种类型对象的地址必须是某个值(通常为2、4、8)的倍数。对齐原则是:任何占用 K 字节空间大小的基本对象,其地址必须是 K 的倍数。
由此,编译器可能需要在结构体成员内存的分配中插入间隙,保证每个结构成员都满足它的对齐要求。或者需要在结构体的末尾加入填充,从而使得结构体数组中的每个元素都会满足它的对齐要求。
本例中,结构体的首地址满足 4 字节对齐(第一个成员类型为 int)要求后,height、age、tag 三个成员均满足对齐原则。不过要考虑下面的声明:
Struct tree a[4];
如果分配 9 个字节,就不能满足数组 a 的每个元素的对齐要求。
假设数组的起始地址为 x,则每个元素的地址分别为 x、x+9、x+18、x+27,有三个元素不满足对齐原则。由此,编译器会为结构 tree 分配 12 个字节,最后 3 个字节是补充的空间(浪费的空间)。
pragma pack()
注意编译指令,#pragma pack(1) 和 #pragma pack()
pragma pack 的主要作用就是改变编译器的内存对齐方式。
在不使用这条指令的情况下,编译器采取默认方式对齐。这两条编译预处理指令,使得在这之间定义的结构体按照 1 字节方式对齐。在本例中,使用这两条指令的效果是,编译器不会在结构体尾部填充空间了。
结构体大小
最终,这个结构体占用的内存空间大小为 9 个字节。
3. 理解指针
指针定义
每个指针都对应一个类型。这个类型表明该指针指向的是哪一类对象。指针的类型不是机器码中的一部分,而是C语言提供的一种抽象,帮助程序员避免寻址错误。
每个指针都有一个值。这个值是某个指定类型的对象的地址。
示例代码中
struct tree *t_ptr = NULL;
这语句是什么意思呢?其含义为:定义一个指针变量 t_ptr 并赋予了初值 NULL。
详细解释:星号 “*” 说明标识符 t_ptr为 “一个指向…的指针”; struct tree 为类型说明符;可知,t_ptr 为指向结构体 tree 类型的指针。
指针的类型由指向对象的数据类型和星号 “” 组合起来表示。例如,指针 t_ptr 的指针类型为 “struct tree ”。
示例代码中,t_ptr_new 和 tm_ptr 为指向 char 类型的指针,并赋初始值NULL。
NULL 指针
C语言标准中定义了 NULL 指针,作为一种特殊的指针变量,其指向的内容为空(即不指向任何东西)。将其赋值给某个指针变量,表示该指针目前并未指向任何东西。
数组的名字
一个数组的名字也是一种指针,但这个指针的值是不能改变的。这种指针永远指向数组中的第一个元素,其指向的类型为数组元素的数据类型。
示例代码:
char buffer[512];
数组名字 buffer 为指向 char 数据类型的指针,它指向数组的首个元素 buffer[0]。
4. 指针转换
通过类型转换,可以将指针从一种类型转换为另一种形式,改变的只是它的类型,值是不会改变的。
C语言中的类型转换有两种:隐式类型转换和强制类型转换。
示例代码:
t_ptr_new = (char *)(t_ptr + 1);
通过 “(char )” 强制将 struct tree 类型的指针转换为 char 类型,并将其赋值给一个 char 类型的指针。如果去掉 “(char *)”,在编译过程中,编译器会根据 “=” 左侧变量的类型自动进行转换,但会产生告警信息。告警信息如下:
example.c: In function ‘main’:
example.c:21:12: warning: assignment from incompatible pointer type [-Wincompatible-pointer-types]
t_ptr_new = (t_ptr + 1);
本例中用强制类型转换,一方面是为了消除编译过程产生的警告,另一方面是为了使程序便于理解。
5. 指针运算
C语言的指针运算有两种形式。
第一种:指针 ± 整数
这种计算出来的值,会根据该指针指向的某种数据类型的大小进行伸缩。例如,指针的值为 x,指向的数据类型大小为 L,整数为 n,则计算出来的结果值为 x + n * L。
示例代码,
t_ptr_new = (char *)(t_ptr + 1);
此表达式等价于(a_ptr 符号在此处是为了便于理解而添加):
a_ptr = (t_ptr + 1);
t_ptr_new = (char *)a_ptr;
指针 t_ptr 加 1(t_ptr + 1)的结果,会根据数据类型 struct tree 的大小进行增加。假设指针 t_ptr 的值为 x(即地址值为 x),而结构体类型 tree 的大小为 9 字节,则 t_ptr + 1 的值为 x+9。然后,将此结果进行强制类型转换后,赋值给指针变量 t_ptr_new。
第二种:指针 – 指针
只有当两个指针都指向同一个数组中的元素时,计算才有意义。
减法运算的值是两个指针在内存中的距离(等于两个地址之差除以该元素数据类型的大小)。两个指针相减的结果的类型是 ptrdiff_t,它是一种有符号整数类型。
如果两个指针值(地址值)的差值为 12 字节,每个元素占用 4 个字节,则两个指针相减得到的结果将是 3(两个指针的差值 12 将除以每个元素的长度 4)。
示例代码
printf("t_ptr_new point to buffer[%ld]\n", t_ptr_new - tmp_ptr);
由以上分析,两个指针相减(t_ptr_new - tmp_ptr),地址差值为 9 字节,而数组中每个元素的大小为 1 字节(char类型数据),则指针相减得到结果为 9(9字节/1字节)。
6. 综上分析
有了以上分析的基础,让我们看看最终答案是如何得出的。
tmp_ptr = buffer;
tmp_ptr 指针指向数组 buffer 的第 0 个元素,即 buffer[0]。
t_ptr = (struct tree *) tmp_ptr;
将指针tmp_ptr强制转换为 struct tree * 类型的指针后,赋值给指针变量 t_ptr。
t_ptr_new = (char *)(t_ptr + 1);
这个表达式是问题的关键。t_ptr + 1 运算得到的结果指针,指向下一个结构体 tree 元素,而结构体占用的空间大小为9个字节,因此指针加 1 后,实际偏移了 9 个字节。经过强制类型转换后,赋值给指针 t_ptr_new。
printf("t_ptr_new point to buffer[%ld]\n", t_ptr_new - tmp_ptr);
t_ptr_new - tmp_ptr 运算得到结果是 9。由于 tmp_ptr 指向数组的第 0 个元素buffer[0],则 t_ptr_new 指向数组的第 9 个元素buffer[9]。
最终答案
指针加一后,偏移9个字节;t_ptr_new指向buffer数组的第9个元素。打印输出结果如下
t_ptr_new point to buffer[9]