二次再散列法

散列表

设所有可能出现的关键字集合记为U(简称全集)。实际发生(即实际存储)的关键字集合记为K（|K|比|U|小得多）。

散列方法是使用函式h将U映射到表T[0..m-1]的下标上（m=O(|U|)）。这样以U中关键字为自变数，以h为函式的运算结果就是相应结点的存储地址。从而达到在O(1)时间内就可完成查找。

其中：

① h：U→{0，1，2，…，m-1} ，通常称h为散列函式(Hash Function)。散列函式h的作用是压缩待处理的下标範围，使待处理的|U|个值减少到m个值，从而降低空间开销。

② T为散列表(Hash Table)。

③ h(Ki)(Ki∈U)是关键字为Ki结点存储地址(亦称散列值或散列地址)。

④ 将结点按其关键字的散列地址存储到散列表中的过程称为散列(Hashing)

两个不同的关键字，由于散列函式值相同，因而被映射到同一表位置上。该现象称为冲突(Collision)或碰撞。发生冲突的两个关键字称为该散列函式的同义词(Synonym)。

安全避免冲突的条件

最理想的解决冲突的方法是安全避免冲突。要做到这一点必须满足两个条件：

①其一是|U|≤m

②其二是选择合适的散列函式。

这只适用于|U|较小，且关键字均事先已知的情况，此时经过精心设计散列函式h有可能完全避免冲突。

冲突不可能完全避免

通常情况下，h是一个压缩映像。虽然|K|≤m，但|U|>m，故无论怎样设计h，也不可能完全避免冲突。因此，只能在设计h时儘可能使冲突最少。同时还需要确定解决冲突的方法，使发生冲突的同义词能够存储到表中。

影响冲突的因素

冲突的频繁程度除了与h相关外，还与表的填满程度相关。

设m和n分别表示表长和表中填人的结点数，则将α=n/m定义为散列表的装填因子(Load Factor)。α越大，表越满，冲突的机会也越大。通常取α≤1。对于大多数应用程式来说，装填因子为0.75是比较合理的。

散列函式的选择有两条标準：简单和均匀。

简单指散列函式的计算简单快速；

均匀指对于关键字集合中的任一关键字，散列函式能以等机率将其映射到表空间的任何一个位置上。也就是说，散列函式能将子集K随机均匀地分布在表的地址集{0，1，…，m-1}上，以使冲突最小化。

具体方法：先通过求关键字的平方值扩大相近数的差别，然后根据表长度取中间的几位数作为散列函式值。又因为一个乘积的中间几位数和乘数的每一位都相关，所以由此产生的散列地址较为均匀。