新闻资讯
看你所看,想你所想

多元分析

多元分析

多元分析

多元分析是研究多个自变数与因变数相互关係的一组统计理论和方法。又称多变数分析。多元分析是单变数统计方法的发展和推广。

基本介绍

  • 中文名:多元分析
  • 外文名:multivariate analysis
  • 适用範围:数理科学

简介

统计学的一个重要分支,主要探究多维数据的内在规律性,如多维随机变数间的相互依赖关係、结构关係等。根据获得数据的类型不同,多元统计分析可分为连续型和离散型多元分析,前者包括多元常态分配的估计与检验、多因变数线性回归、判别分析、典型相关分析、主成分分析、因子分析、聚类分析等,后者包括列联表分析、对数线性模型、对数单位模型、逻辑斯谛回归模型、有序离散型多元变数的分析。

历史

首先涉足多元分析方法是F.高尔顿,他于1889年把双变数的常态分配方法运用于传统的统计学,创立了相关係数和线性回归。其后的几十年中,C.E.斯皮尔曼提出因素分析法(见因素分析),R.A.费希尔提出方差分析和判别分析,S.S.威尔克斯发展了多元方差分析,H.霍特林确定了主成分分析和典型相关。到20世纪前半叶,多元分析理论大多已经确立。60年代以后,随着计算机科学的发展,多元分析方法在心理学以及其他许多学科的研究中得到了越来越广泛的套用。

分析方法

包括3类:①多元方差分析、多元回归分析和协方差分析,称为线性模型方法,用以研究确定的自变数与因变数之间的关係;②判别函式分析和聚类分析,用以研究对事物的分类;③主成分分析、典型相关和因素分析,研究如何用较少的综合因素代替为数较多的原始变数。

多元方差

是把总变异按照其来源(或实验设计)分为多个部分,从而检验各个因素对因变数的影响以及各因素间互动作用的统计方法。例如,在分析2×2析因设计资料时,总变异可分为分属两个因素的两个组间变异、两因素间的互动作用及误差(即组内变异)等四部分,然后对组间变异和互动作用的显着性进行F检验。
优点:是可以在一次研究中同时检验具有多个水平的多个因素各自对因变数的影响以及各因素间的互动作用。其套用的限制条件是,各个因素每一水平的样本必须是独立的随机样本,其重複观测的数据服从常态分配,且各总体方差相等。

多元回归

用以评估和分析一个因变数与多个自变数之间线性函式关係的统计方法。
优点:是可以定量地描述某一现象和某些因素间的线性函式关係。将各变数的已知值代入回归方程便可求得因变数的估计值(预测值),从而可以有效地预测某种现象的发生和发展。它既可以用于连续变数,也可用于二分变数(0,1回归)。多元回归的套用有严格的限制。首先要用方差分析法检验因变数ym个自变数之间的线性回归关係有无显着性,其次,如果ym个自变数总的来说有线性关係,也并不意味着所有自变数都与因变数有线性关係,还需对每个自变数的偏回归係数进行t检验,以剔除在方程中不起作用的自变数。也可以用逐步回归的方法建立回归方程,逐步选取自变数,从而保证引入方程的自变数都是重要的。

协方差

把线性回归与方差分析结合起来检验多个修正均数间有无差别的统计方法。例如,一个实验包含两个多元自变数,一个是离散变数(具有多个水平),一个是连续变数,实验目的是分析离散变数的各个水平的优劣,此变数是方差变数;而连续变数是由于无法加以控制而进入实验的,称为协变数。在运用协方差分析时,可先求出该连续变数与因变数的线性回归函式,然后根据这个函式扣除该变数的影响,即求出该连续变数取等值情况时因变数的修正均数,最后用方差分析检验各修正均数间的差异显着性,即检验离散变数对因变数的影响。
优点:可以在考虑连续变数影响的条件下检验离散变数对因变数的影响,有助于排除非实验因素的干扰作用。其限制条件是,理论上要求各组资料(样本)都来自方差相同的正态总体,各组的总体直线回归係数相等且都不为0。因此套用协方差分析前应先进行方差齐性检验和回归係数的假设检验,若符合或经变换后符合上述条件,方可作协方差分析。

判别函式

判定个体所属类别的统计方法。其基本原理是:根据两个或多个已知类别的样本观测资料确定一个或几个线性判别函式和判别指标,然后用该判别函式依据判别指标来判定另一个个体属于哪一类。
判别分析不仅用于连续变数,而且藉助于数量化理论亦可用于定性资料。它有助于客观地确定归类标準。然而,判别分析仅可用于类别已确定的情况。当类别本身未定时,预用聚类分析先分出类别,然后再进行判别分析。

聚类

解决分类问题的一种统计方法。对观测对象进行聚类,称为Q型分析;若对变数进行聚类,称为R型分析。聚类的基本原则是,使同类的内部差别较小,而类别间的差别较大。最常用的聚类方案有两种。一种是系统聚类方法。例如,要将n个对象分为k类,先将n个对象各自分成一类,共n类。然后计算两两之间的某种“距离”,找出距离最近的两个类、合併为一个新类。然后逐步重複这一过程,直到并为k类为止。另一种为逐步聚类或称动态聚类方法。当样本数很大时,先将n个样本大致分为k类,然后按照某种最优原则逐步修改,直到分类比较合理为止。
聚类分析是依据个体或变数的数量关係来分类,客观性较强,但各种聚类方法都只能在某种条件下达到局部最优,聚类的最终结果是否成立,尚需专家的鉴定。必要时可以比较几种不同的方法,选择一种比较符合专业要求的分类结果。

主成分

把原来多个指标化为少数几个互不相关的综合指标的一种统计方法。例如,用p个指标观测样本,如果p个指标互不相关,则可把问题化为p个单指标来处理。但大多时候p个指标之间存在着相关。此时可运用主成分分析寻求这些指标的互不相关的线性函式,使原有的多个指标的变化能由这些线性函式的变化来解释。这些线性函式称为原有指标的主成分,或称主分量。
主成分分析有助于分辨出影响因变数的主要因素,也可套用于其他多元分析方法,例如在分辨出主成分之后再对这些主成分进行回归分析、判别分析和典型相关分析。主成分分析还可以作为因素分析的第一步,向前推进就是因素分析。其缺点是只涉及一组变数之间的相互依赖关係,若要讨论两组变数之间的相互关係则须运用典型相关。

典型相关

先将较多变数转化为少数几个典型变数,再通过其间的典型相关係数来综合描述两组多元随机变数之间关係的统计方法。设xp元随机变数,yq元随机变数,可逐一计算xp个分量和yq个分量之间的相关係数(p×q个), 但这样既繁琐又不能反映事物的本质。如果运用典型相关分析,其基本程式是,从两组变数各自的线性函式中各抽取一个组成一对,它们应是相关係数达到最大值的一对,称为第1对典型变数,类似地还可以求出第2对、第3对、…。这些成对变数之间互不相关,各对典型变数的相关係数称为典型相关係数。所得到的典型相关係数的数目不超过原两组变数中任何一组变数的数目。
典型相关分析有助于综合地描述两组变数之间的典型的相关关係。其条件是,两组变数都是连续变数,其资料都必须服从多元常态分配。
以上几种多元分析方法各有优点和局限性。每一种方法都有它特定的假设、条件和数据要求,例如正态性、线性和同方差等。因此在套用多元分析方法时,应在研究计画阶段确定理论框架,以决定收集何种数据、怎样收集和如何分析数据资料。

相关推荐

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com