散列函数之冲突处理之开地址法-CFANZ编程社区

开地址法

基本思想：当关键码key的哈希地址H0 = hash(key)出现冲突时，以H0为基础，产生另一个哈希地址H1 ，如果H1仍然冲突，再以H0

为基础，产生另一个哈希地址H2 ，…，直到找出一个不冲突的哈希地址Hi ，将相应元素存入其中。这种方法有一个通用的再散列函

数形式：

散列函数之冲突处理之开地址法_散列函数

其中H0 为hash(key) ，m为表长，di称为增量序列。增量序列的取值方式不同，相应的再散列方式也不同。主要有以下四种：

线性探测再散列

二次探测再散列

伪随机探测再散列

双散列法

（一）、线性探测再散列

散列函数之冲突处理之开地址法_散列函数_02

假设给出一组表项，它们的关键码为 Burke, Ekers, Broad, Blum, Attlee, Alton, Hecht, Ederly。采用的散列函数是：取其第一个字母在

字母表中的位置。

hash (x) = ord (x) - ord (‘A’)

这样，可得

hash (Burke) = 1hash (Ekers) = 4

hash (Broad) = 1hash (Blum) = 1

hash (Attlee) = 0hash (Hecht) = 7

hash (Alton) = 0hash (Ederly) = 4

又设散列表为HT[26]，m = 26。采用线性探查法处理溢出，则上述关键码在散列表中散列位置如图所示。红色括号内的数字表示找

到空桶时的探测次数。比如轮到放置Blum 的时候，探测位置1，被占据，接着向下探测位置2还是不行，最后放置在位置3，总的探

测次数是3。

散列函数之冲突处理之开地址法_散列表_03

堆积现象

散列地址不同的结点争夺同一个后继散列地址的现象称为堆积(Clustering)，比如ALton 本来位置是0，直到探测了6次才找到合适位

置5。这将造成不是同义词的结点也处在同一个探测序列中，从而增加了探测序列长度，即增加了查找时间。若散列函数不好、或装

填因子a 过大，都会使堆积现象加剧。

下面给出具体的实现代码，大体跟前面讲过的链地址法差异不大，只是利用的结构不同，如下：

散列函数之冲突处理之开地址法_散列函数_04

status 保存状态，有EMPTY, DELETED, ACTIVE，删除的时候只是逻辑删除，即将状态置为DELETED，当插入新的key 时，只要不

是ACTIVE 的位置都是可以放入，如果是DELETED位置，需要将原来元素先释放free掉，再插入。

二次探测再散列

为改善“堆积”问题，减少为完成搜索所需的平均探查次数，可使用二次探测法。

通过某一个散列函数对表项的关键码 x 进行计算，得到桶号，它是一个非负整数。

散列函数之冲突处理之开地址法_散列函数_05

若设表的长度为TableSize = 23，则在线性探测再散列举的例子中利用二次探查法所得到的散列结果如图所示。

散列函数之冲突处理之开地址法_散列函数_06

比如轮到放置Blum 的时候，本来应该是位置1，已经被Burke 占据，接着探测 H0 + 1 = 2,，发现被Broad 占据，接着探测 H0 - 1 =

0，发现空位于是放进去，探测次数为3。

下面来看具体代码实现，跟前面讲过的线性探测再散列差不多，只是探测的方法不同，但使用的数据结构也有点不一样，此外还实

现了开裂，如果装载因子 a > 1/2；则建立新表，将旧表内容拷贝过去，所以hash_t 结构体需要再保存一个size 成员，同样的原因，

为了将旧表内容拷贝过去，hash_node_t 结构体需要再保存 *key 和 *value 的size。

散列函数之冲突处理之开地址法_散列函数_07