新闻资讯
看你所看,想你所想

独立性检验

独立性检验

独立性检验

独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。

由联表中的数据算出随机变数K^2的值(即K的平方),K^2的值越大,说明“X与Y有关係”成立的可能性越大。

基本介绍

  • 中文名:独立性检验
  • 外文名:test for independence
  • 类属:统计学的一种检验方式
  • 属于:X2检验
  • 意义:判断两类因子彼此相关或相互独立
  • 学科:数学

定义

独立性检验是统计学的一种检验方式。与适合性检验同属于X2检验(即卡方检验,英文名:chi square test)它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
假设有两个分类变数X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若要推断的论述为H1:“X与Y有关係”,可以利用独立性检验来考察两个变数是否有关係,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变数K^2的值(即K的平方)
K2 = n (ad - bc) 2 / [(a+b)(c+d)(a+c)(b+d)], 其中n=a+b+c+d为样本容量
K2的值越大,说明“X与Y有关係”成立的可能性越大。
当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关係”的可信程度:
P(K^2≥k)
0.50
0.40
0.25
0.15
0.10
k
0.455
0.708
1.323
2.072
2.706
P(K^2≥k)
0.05
0.025
0.010
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
例如,当“X与Y有关係”的K2变数的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关係”成立的机率为1-0.025=0.975,即97.5%。

与列表相关联的概念

分类变数

其不同“值”表示相应对象所属的不同类别的变数,分类变数的取值一定是离散的,而且不同的取值仅表示相应对象所属的类别,如性别变数只取男、女两个“值”,某商品的等级变数只取一级、二级、三级三个“值”,等等。分类变数的取“值”有时可用数字来表示,但这时的数字除了类别以外,没有其他的含义。如用“0”表示“男”,用“1”表示“女”。

列联表

分类变数的统计汇总表(频数表)在独立性检验中,一般只研究两个分类变数,且每个分类变数只有两个可取的值;这时得到的列联表称为2×2列联表,如后面的案例中的关于患肺癌与否与吸菸与否的列联表。

独立性检验的基本思想

独立性检验的必要性

独立性检验的学习目标:了解独立性检验的基本思想;
独立性检验的学习重点:会对两个分类变数进行独立性检验。
即为什幺不能只凭列联表中的数据和由其绘出的图形下结论,由列联表可以粗略地估计出两个变数(两类对象)是否有关(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体。关于这一点,在后面的案例中还要进一步说明。

独立性检验的原理及步骤

独立性检验是一种假设检验(先假设,再推翻假设),它的原理及步骤与反证法类似。
反证法假设检验
要证明结论A想说明假设H1(两个分类变数,即两类对象有关)成立。在A不成立的前提下进行推理,在H1不成立,即H0(两类对象无关,即相互独立)成立的条件下进行推理,推出矛盾,意味着结论A成立,推出小机率事件(机率不超过α,α一般为0.001,0.01,0.05或0.1)发生,意味着H1成立的可能性很大(可能性为1-α),没有找到矛盾,意味着不能确定A成立,没有推出小机率事件发生,意味着不能确定H1成立。

独立性检验的案例展示

案例 某医疗机构为了了解患肺癌与吸菸是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸菸者2148人,不吸菸者7817人,调查结果是:吸菸的2148人中49人患肺癌,2099人不患肺癌;不吸菸的7817人中42人患肺癌,7775人不患肺癌。
根据这些数据能否断定:患肺癌与吸菸有关?
【方法一】由样本数据,可得如下列联表和条形图:
烟 \ 癌症
不患肺癌
患肺癌
总计
不吸菸
7775
42
7817
吸菸
2099
49
2148
总计
9874
91
9965
在不吸菸者中,患肺癌的比重是0.54%;在吸菸者中,患肺癌的比重是 2.28% 。
说明吸菸者和不吸菸者患肺癌的可能性存在较大的差异,吸菸者患肺癌的可能性大。可初步判断:患肺癌与吸菸有关.
【方法二】以上通过对数据和图表的分析,得到的结论是:患肺癌与吸菸有关.
但这个结论在多大程度上适用于总体呢?要回答这个问题,就必须藉助于独立性检验的方法来分析.
独立性检验是检验两个分类变数是否有关(是否相互独立)的一种统计方法:
用字母表示题设数据(使之更有一般性),可得如下2×2列联表
烟 \ 癌症
不患肺癌
患肺癌
总计
不吸菸
a
b
a+b
吸菸
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
想说明假设H1“患肺癌与吸菸有关”成立.
假设H0:H1不成立,即患肺癌与吸菸没有关係。
在H0成立的条件下,吸菸者中不患肺癌的的比例应该与不吸菸者中相应的比例差不多,即a/(a+b)≈c/(c+d); a(c+d)≈c(a+b); ad-bc≈0。
因此|ad-bc|越小,则说明患肺癌与吸菸之间的关係越弱。
构造统计量
作为检验在多大程度上可认为“两个分类变数有关係”的标準。
若H0成立,则k2应该很小。实际上,统计学家们已经估算出如下机率:
P(K2>K)
0.50
0.40
.025
0.15
0.10
K
0.455
0.708
1.323
2.072
2.701
P(K2>K)
0.05
0.025
0.010
0.005
0.001
K
3.841
5.024
6.637
7.879
10.828
这就是独立性检验的临界值表。
回到本案例,把题设数据代入公式,可得
在H0成立的情况下,P(k2≥10.828)<0.001,
即k2的值大于10.828的机率非常小(只有0.1%).
但这个小机率事件竟然发生了。
因此,我们有99.9%以上的把握认为“患肺癌与吸菸有关”。
【总结】独立性检验的解题步骤如下:
第一步 提出假设H0:患肺癌与吸菸没有关係。(目标结论H1“患肺癌与吸菸有关係”的反面)
第二步 计算独立性检验的标準,即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值。(它越小,原假设H0成立的可能性越大;它越大,目标结论H1成立的可能性越大。)
第三步 由独立性检验的临界值表得出结论及其可信度(即在多大程度上适用)。

相关推荐

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com