bug诞生记——隐蔽的指针偏移计算导致的数据错乱

栏目: C · 发布时间: 6年前

内容简介:Base是Derived的基类,前者拥有成员变量_v_b,后者拥有前者的_v_b和自己定义的_v_d。我们分别构建一个Base和Derived对象数组我们再提供一个方法,用于遍历数组中对象的_v_b(Base基类定义的成员变量)。
class Base {
public:
    Base() = default;
    void set_v_b(int v_b) {
        _v_b = v_b;
    }
    int get_v_b() const {
        return _v_b;
    }
private:
    int _v_b;
};

class Derived :
    public Base
{
public:
    Derived() = default;
    void set_v_d(int v_d) {
        _v_d = v_d;
    }
    int get_v_d() const {
        return _v_d;
    }
private:
    int _v_d;
};

Base是Derived的基类,前者拥有成员变量_v_b,后者拥有前者的_v_b和自己定义的_v_d。

我们分别构建一个Base和Derived对象数组

Base * build_base_list(size_t count) {
    Base *b_list = new (std::nothrow) Base[count];
    if (!b_list) {
        return nullptr;
    }
    for (size_t i = 0; i < count; i++) {
        b_list[i].set_v_b(static_cast<int>(i));
    }
    return b_list;
}

Derived * build_derived_list(size_t count) {
    Derived *d_list = new (std::nothrow) Derived[count];
    if (!d_list) {
        return nullptr;
    }
    for (size_t i = 0; i < count; i++) {
        d_list[i].set_v_b(static_cast<int>(i));
        d_list[i].set_v_d(static_cast<int>(i));
    }
    return d_list;
}

我们再提供一个方法,用于遍历数组中对象的_v_b(Base基类定义的成员变量)。

void print_v_b(Base *b_list, size_t b_list_count) {
    if (!b_list) {
        return;
    }

    for (size_t i = 0; i < b_list_count; i++) {
        std::cout << "_v_b(" << i << "):" << b_list[i].get_v_b() << std::endl;
    }
}

然后我们对构建的两个数组分别调用print_v_b,以期望打印出各自的v_b。

const size_t count = 8;
    
    std::unique_ptr <Base, std::function<void(Base*)>> base_list(
        build_base_list(count),
        [](Base* p) {
            delete [] p;
        }
    );
    std::cout << "base_list:" << std::endl;
    print_v_b(base_list.get(), count);

    std::unique_ptr <Derived, std::function<void(Derived*)>> derived_list(
        build_derived_list(count),
        [](Derived* p) {
            delete [] p;
        }
    );
    std::cout << "derived_list:" << std::endl;
    print_v_b(derived_list.get(), count);

理论上,我们将看到两组相同的结果。因为base_list和derived_list中每个元素的_v_b是其在数组中的下标。然而结果是

base_list:
_v_b(0):0
_v_b(1):1
_v_b(2):2
_v_b(3):3
_v_b(4):4
_v_b(5):5
_v_b(6):6
_v_b(7):7
derived_list:
_v_b(0):0
_v_b(1):0
_v_b(2):1
_v_b(3):1
_v_b(4):2
_v_b(5):2
_v_b(6):3
_v_b(7):3

很明显,derived_list数组输出的元素信息不正确。

derived_list数组中的每个元素都是Base子类Derived的对象。理论上,对Derived对象,通过基类Base的方法访问,是可以获得正确数据的。那问题出在哪里?我们还要回到print_v_b方法中

void print_v_b(Base *b_list, size_t b_list_count) {
    if (!b_list) {
        return;
    }

    for (size_t i = 0; i < b_list_count; i++) {
        std::cout << "_v_b(" << i << "):" << b_list[i].get_v_b() << std::endl;
    }
}

我们看到第7行是通过数组下标的形式获取每个元素的。在 C语言 中,如果一个数组通过下标[]访问元素,其获取的元素实际地址是Head+index*sizeof(struct)。

我们分别看一个int型和long long型数组通过下标获取元素的取址值

const size_t count = 8;
    int integer_list[count];
    std::cout << "Head:" << integer_list << " sizeof(int):" << sizeof(int) << std::endl;
    for (size_t i = 0; i < count; i++) {
        std::cout << "integer_list[" << i << "] address:" << &integer_list[i] << std::endl;
    }
    
    long long longlong_list[count];
    std::cout << "Head:" << integer_list << " sizeof(int):" << sizeof(long long) << std::endl;
    for (size_t i = 0; i < count; i++) {
        std::cout << "longlong_list[" << i << "] address:" << &longlong_list[i] << std::endl;
    }

可以看到,虽然每次下标只是自增1,但是地址实际增加了每个元素的大小。

Head:0x7fffffffe900 sizeof(int):4
integer_list[0] address:0x7fffffffe900
integer_list[1] address:0x7fffffffe904
integer_list[2] address:0x7fffffffe908
integer_list[3] address:0x7fffffffe90c
integer_list[4] address:0x7fffffffe910
integer_list[5] address:0x7fffffffe914
integer_list[6] address:0x7fffffffe918
integer_list[7] address:0x7fffffffe91c
Head:0x7fffffffe900 sizeof(int):8
longlong_list[0] address:0x7fffffffe9a0
longlong_list[1] address:0x7fffffffe9a8
longlong_list[2] address:0x7fffffffe9b0
longlong_list[3] address:0x7fffffffe9b8
longlong_list[4] address:0x7fffffffe9c0
longlong_list[5] address:0x7fffffffe9c8
longlong_list[6] address:0x7fffffffe9d0
longlong_list[7] address:0x7fffffffe9d8

在print_v_b数组中,它默认认为数组中每个元素大小是Base对象的大小。然而derived_list数组中每个元素的是Derived对象大小。Derived类比Base类多一个元素_v_d,从而大小从Base对象的4字节变成了8字节。这样第7行中,每次下标移动实际只是移动了4字节,于是每个奇数次移动均移动到Derived对象的_v_d前,每个偶数次移动均移动到Derived对象的_v_b前。这就出现了上面的数据错乱的问题。

数组是C的遗产。为了兼容C,C++保留了很多C语言的印记,于是导致自身呈现出一些不清晰的表达。比如下面如下三种写法

  1. void print_t(T *t)
  2. void print_t(T t[])
  3. void print_t(T & t)

第3种写法,我们可以知道t是个对象。

第2种写法,我们可以知道t表达了一个数组。

第1中写法,则可以表达出t可以是一个数组,可以是一个对象。那么到底它是个组数还是对象?我们没法从语法上得知。

像本例中,使用者很有可能会把print_v_b的第一元素当成一个对象指针(当然第二个参数透露出其应该是一个数组,但是假如没有第二个参数呢?),那么他怎么也不会想到,对derived_list调用print_v_b会出错。

这从一个侧面可以说明,对于可以灵活表达的C++语言,我们需要采用一些易于理解的方式去设计API。


以上所述就是小编给大家介绍的《bug诞生记——隐蔽的指针偏移计算导致的数据错乱》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

大数据供应链

大数据供应链

娜达·R·桑德斯 (Nada R. Sanders) / 丁晓松 / 中国人民大学出版社 / 2015-7-1 / CNY 55.00

第一本大数据供应链落地之道的权威著作,全球顶级供应链管理专家娜达·桑德斯博士聚焦传统供应链模式向大数据转型,助力工业4.0时代智能供应链构建。 在靠大数据驱动供应链处于领先地位的企业中,45% 是零售商,如沃尔玛、亚马逊,而22%是快消企业,如戴尔电脑。他们都前所未有地掌控了自己的供应链。在库存管理、订单履行率、原材料和产品交付上具有更为广阔的视野。利用具有预见性的大数据分析结果,可以使供需......一起来看看 《大数据供应链》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

随机密码生成器
随机密码生成器

多种字符组合密码

SHA 加密
SHA 加密

SHA 加密工具