2009-05-01

如何确定综合指数的构成权重?

Anonymous @ 2009-04-29:

祝老师,您好!我现在在写硕士毕业论文,想请教您几个小问题。
我让主管给下属的三种绩效(任务绩效、情境绩效和反生产绩效)做出评分,然后对员工的总体绩效(与前面相独立的量表)做出评分,然后用三种绩效的得分对总体绩效得分进行回归,这样得出三个回归系数。前两个系数显著,后一个不显著。这三种绩效的系数可以视为主管在评价员工总体绩效时更看重哪种绩效,即一种权重。我想考查哪种绩效在总体绩效评分中更受主管重视,我还需要进行两个系数的显著性差异的检验吗?如果要,如何做?

Anonymous @ 2009-04-29(也许是另一读者):

他的意思应该是这样说,已经有若干个观测变量,这些变量为了测量隐含变量(总体满意度)。但由于理论上不同的观测变量对总体变量的影响程度是不一样的,对隐含变量的贡献程度不一样,系数也就不一样,不能通过全体简单的平均得出结果。那么,得通过什么方法来确定每个观测量的权重,再配合每个观测变量的均值来求得最终的隐含变量呢?结构方程中的路径系数是否可以作为这个权重来理解呢?

我也想顺便问一下,相关系数R平方是否也可以作为权重?回归系数呢?有的文章是通过因子分析,用共同度来作为对总体的权重系数,这个处理方法合理吗?

庄主 @ 2009-05-02:

上述两个问题应该是不同的。匿名一(大家提问时能否留个名?当然假名虚名浪名都可以,以便区分)的问题是一组supervised数据,即总体绩效是一个观测到的变量,而匿名二的问题中因为总体绩效是没有观测的隐含因子、所以是一组unsupervised数据。两者之间当然后者更常见,但前者含有更多信息、因此可以研究更多问题。

一、先讨论匿名一的问题。他(她?)的模型应该是(见最后的注释)

Y = b0 + b1y1 + b2y2 + b3y3 + e                        (公式一)

用来检验y1 - y3各自对Y的影响(即其所说的“考查哪种绩效在总体绩效评分中更受主管重视”)。是否需要对b1与b2、b1与b3、b2-b3三对系数之间的差别做显著检验?当然要。如何做?请参见前贴“如何检验两个回归系数的差别?”。

二、匿名二提出的是一个含三个观测变量的测量模型(measurement model),即

y = Λyη + ε                                                       (公式二)

其中y = y1,y2,y3,η是隐含因子、Λy 是η对各y的影响(也即权重),ε是各y中不受η影响的独自变异(也即误差)。显然,公式一与公式二很不一样:总体绩效在公式一中是因变量(等号的左边)而在公式二中是自变量(等号的右边);公式一中的b1 - b3无论在理论上还是在数值上都与公式二中的Λ1 - Λ3是不同的。

三、现在分别讨论匿名二提到的四种确定y之权重的方法:

1、结构方程中的路径系数:英文为path coefficients of the structural model,但本案没有path coefficients、只有factor loadings of the measurement model(测量模型的因子负荷,即公式二的Λ1 - Λ3)。答案是肯定的,因子负荷就是被当做y1 - y3的权重的。

2、相关系数R平方:不清楚你指的是y1 - y3之间的两两相关系数之平方,还是公式二的R平方?前者与匿名一的研究问题无直接关系。后者就是Λ1 - Λ3的平方。

3、回归系数:同样不清楚你指哪个“回归模型”?如是公式一,你没有直接观测的Y,无法估计。如是公式二,就与你的方法1相同。

4、因子分析的共同度(commonality):这里指的应该是exploratory factor analysis,既然现在有理论导向的confirmatory factor analysis(即公式二),就不必再用数据导向的EFA了。

四、有心的读者也许会想到将匿名一的supervsied数据和匿名二的unsupervised数据(两者中的y1 - y3是相同的)合在一起考虑,就是说,先用公式二构建隐含因子η,然后再检验其与观测变量Y之间的相关关系。一般说来,η与Y是正相关的,但其相关程度不一定是很强烈的、甚至不一定是显著的(如果样本小的话)。其背后有两种可能性:一是方法上的问题:虽然η没有测量误差、但Y含有一定的测量误差(但无法估计),二是理论上的问题:η与Y不一定是一个概念(如η也许是一个多维的因子,其中某些维度与Y无关),即confirmatory validaity问题。如果数据中只有Y和y1 - y3四个变量,我们无法将这两种原因分开。如果有其它“第三者”变量(在理论上与Y或测量误差有关),则可以进一步解析下去(重大突破往往就在眼前了)。但是,即使只有这四个变量,据此而发现的η与Y的相关关系,已经提供了很多信息(如对η效度的独立验证)。

最后,讲一讲语言的精确性问题(应该是已讲过多次的老话了)。匿名一说“用三种绩效的得分对总体绩效得分进行回归”,这句话大概是说倒了的,而本意应该是“用总体绩效得分对三种绩效的得分进行回归”(即公式一)。而匿名二的本意才是“用三种绩效的得分对虚拟的总体绩效得分进行回归”(公式二),但他(她)提到的方法3又和公式一混起来了。思想的迷惑往往与语言的含混互为因果。如何避免?用公式和英文。在英文里描述回归模型的句型是

regress Y on X controlling for Z,或者Y is regressed on X with Z controlled

其中Y、X和Z分别指因变量、自变量和控制变量。这使我联想起前几天与一些学生聊天的情景,当时我建议他们学研究方法时不要看中文书,因为中文语言不够严密,不料遭到强烈质疑,要我举例证明。这里是又一例。如果依靠他们的中文描述,很难将匿名一和匿名二之区别弄清楚的。

11 comments:

所谓的匿名二 said...

老师您好,五一快乐~
感谢你在五一里能在帮大家解答!


我是你在文中提到的 2009-04-29(也许是另一读者):确实是另一读者^o^

本来我是对下面这个贴子的补充的.(http://zjz06.blogspot.com/2009/03/blog-post_21.html)
"pehcio @ 2008-12-17:

老师你好,想请教您一下关于关于满意度方面的问题:结构方程中的路径系数(载荷系数)是否可以作为权重来计算总体满意度? "


在这文中(如何确定综合指数的构成权重http://zjz06.blogspot.com/2009/05/blog-post_01.html),您将我的问题也作了回答.我会慢慢细研.遇到困难我再跟贴.
谢谢您!

所谓的匿名二 said...

看来我的问题应该属于公式一。
我的问题是有关满意度的研究。
一级指标是总体满意度;二级指标中比如有产品质量(A)、服务质量(B)、品牌形象(C);三级指标即具体的调查问项。我调查目的是二级指标对一级指标的重要程度,具体权重系数。这和所谓“匿名一‘如何确定综合指标的构成权重?’”的处理方法是一样的吗,即“用总体绩效得分对三种绩效的得分进行回归”。然后得出回归系数?
比如:A1,A2,A3问项用于测评产品质量A的满意情况;B1,B2,B3用于测评服务质量B的满意情况;C1,C2,C3用于测评品牌形象C的满意情况。另外设置了一个对产品的一个总体满意度Y问项。
那么如何通过A1、A2、A3求得A,即A=a1*A1+a2*A2+a3*A3;a1,a2,a3作为权重(是不是得用归一法使得a1+a2+a3=1?),得通过什么方法来确定呢?A在此时应该就是隐变量了吧,是不是得按公式二来测量?对应在SPSS中的是哪个方法呢?(真不好意思,我对原理不大懂;是不是就是因子分析?)


————————————————————
y = Λyη + ε (公式二)

其中y = y1,y2,y3,η是隐含因子、Λy 是η对各y的影响(也即权重),ε是各y中不受η影响的独自变异(也即误差)。显然,公式一与公式二很不一样:总体绩效在公式一中是因变量(等号的左边)而在公式二中是自变量(等号的右边);公式一中的b1 - b3无论在理论上还是在数值上都与公式二中的Λ1 - Λ3是不同的。

————————————————————


在确定a1,a2,a3;b1,b2,b3;c1,c2,c3;求出A,B,C的值,即各二级指标的满意度;然后可否如何再确定A,B,C对总体满意度Y的权重了?

我原处理方法是:(问卷设计分为重要度和满意度测量两部分,两部分题项都一样。)
1、将重要度量表进行因子分析,根据因子分析结果中的因子负荷矩阵的主成分内的负荷量进行归一化处理,求得百分比a1、a2、a3,以此作为满意度表里面A1,A2,A3等指标在二级指标A中的权重,同时它们也是重要度量表中对主成分的权重。
2、利用步骤1求出的权重乘于对应问项的均值求得重要度量表中A、B、C的重要度值,即:A的重要度值=a1*A1+a2*A2+a3*A3。
相应地求出A、B、C的重要度值,并进行归一化处理,求出A、B、C的百分比,作为顾客满意度表中二级指标的权重。
3、至此,以确定了问项的权重a1、a2、a3;b1、b2、b3;c1、c2、c3和二级指标产品质量(A)、服务质量(B)、品牌形象(C)的权重。通过利用“模糊综合评判”法及三级指标的权重,求出A、B、C这三个二级指标的顾客满意度值;利用二级指标的权重和三级指标的值求出总体满意度。
4、利用“重要性-绩效”分析图(象限图)对各指标的重要度及满意度进行定位,看位于哪个象限,从而得出相对重要性及满意,以此来说明哪个二级指标(或三级指标)是关键因素。

疑问:这样解决问题合理吗?有必要单独设置重要度量表吗,还是通过满意度量表同样可以运用测得重要性?(即根据因子分析结果中的因子负荷矩阵的主成分内的负荷量进行归一化处理,求得百分比a1、a2、a3,以此作为满意度表里面A1,A2,A3等指标在二级指标A中的权重?)
另外,我这样设置了一个总体满意度问项是不是就成了多余了?

庄主 said...

pehcio:

你的数据更适合用公式二、加上用观测变量Y来检验confirmatory validity。

首先,根据A1-A3、B1-B3、C1-C3建立一个含三个隐含因子(A、B、C)的测量模型。

接着,在上述模型上建立一个second-order的隐含因子(假定叫做SAT),A-C分别为其构成指标。A-C的负荷系数即是SAT的权重。(参见有关二阶因子分析的帖子。)

最后,通过SAT与Y之相关关系来检验SAT的confirmatory validity。(这是你数据中的最有价值的一部分,如果用公式一来做,就浪费了。)

当然,你的数据中还有其它有用信息可以利用。如,假定A1-C1、A2-C2、A3-C3是用类似的方法测量的,可以在上述两个测量模型中添加三个methods隐含变量,以改善模型的拟合度。这时,你的模型就接近MTMM模型了。(参见有关MTMM模型的帖子。)

你的“重要度”和“满意度”平行数据,也可以如此处理。

当然,上述检验都要求你有很扎实的SEM基础。否则,做完SAT与Y的相关分析也就够了。这是雪里送炭,后面的是锦上添花。

所谓匿名二 said...

谢谢老师的解答...我试着做做看...刚借了您的书《传播统计学》,翻到因子分析章节,发现抽取因子的图表中,只有前三个因子(P270)的特征值大于1,所以操作上应该是选定因子数目为5,那么如何解释特征值小于1的那两个因子呢?
平常我们老师教我们的因子分析法,就要求用SPSS13.0中的Factor Analyze,采用主成份分析方法,利用方差最大化正交旋转方式,并将并将特征值设置为大于1作为因子提取的标准结果.用这方法提取的因子和预期的编少.比如售前服务有四个问项,售后服务也有4个问项,理论上是想提取售前服务和售后服务;但结果是这8个问项全归在一类了...对这8个问项如果按指定因子数目进行因子分析,并指定因子数目为2,则刚好是分开的,但此时第二因子的特征值仍小于1.

对于这种结果应该怎么解释呢?

我的处理方法是通过特征值就提取一个因子(8问项在一起)并称为"服务",另外再通过对这8道指定因子数目为2进行因子分析,并对此进行说明:服务还是可以分解为售前服务和售后服务,只是第二个因子的特征值只有0.830,小于1,对主成分的解释力度比较小,即使KMO值是0.876,Bartlett球形检验卡方值760.065,P值为0.000,表明适合做因子分析.因此,本研究的模型采用服务这一单一因子。

所谓匿名二 said...

因为对统计方法一知半解,现在还有疑问,请老师见谅...^o^

"首先,根据A1-A3、B1-B3、C1-C3建立一个含三个隐含因子(A、B、C)的测量模型。

接着,在上述模型上建立一个second-order的隐含因子(假定叫做SAT),A-C分别为其构成指标。A-C的负荷系数即是SAT的权重。(参见有关二阶因子分析的帖子。)"
二阶因子分析是该放在AMOS里面直接生成,然后参考拟和度,还是如""如何计算两组变量之间的相关系数?"所说的,在SPSS中一步一步来呢?



"是否可做“二价因子分析”?"http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!410.entry

"二价因子分析的可行行vs.可取性"http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!417.entry

"如何计算两组变量之间的相关系数?"
http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!301.entry

所谓匿名二 said...

在"二价因子分析的可行行vs.可取性"http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!417.entry

中,为什么路径是从绿色椭圆指向黄色椭圆呢,是把黄色椭圆当成绿色椭圆的测量变量吗?
但有个疑问哦,测量绿色椭圆(比如总体满意度Y),不是得从黄色椭圆(如A、B、C)指向Y吗?这样得出的路径系数作为权重?

庄主 said...

pehcio:

你们学的和用的是Exploratory Factor Analysis(EFA),我帖子里介绍的是Confirmatory Factor Analysis (CFA),我记得曾写过两者的差别,可参考一下。

从你最新的两个帖子来看,你对CFA和SEM所知不多,难以理解和执行我建议的方案,还是按你现有的基础做吧。

抱歉给你泼冷水。实证研究方法是循序渐进的,难以一步到位。

所谓匿名二 said...

很谢谢你的指导了!
挺感动的.谢谢.
以后会多上来看看相关的帖子的.当然也会看看相关教材,学点基础.看这里的方案也才不会那么费力~

枫桥·夜 said...

依葫芦画瓢,做出了这么一个图...

"http://1.bp.blogspot.com/_7B6XXc0avyQ/Sf2OKdUMVXI/AAAAAAAAADQ/7Hs5zW1TM1Y/s1600/%E7%BB%93%E6%9E%84%E6%A8%A1%E5%9E%8B.JPG"

不过我应该还是得按原来求权重的计算的方法,不然近期想运用
Confirmatory Factor Analysis (CFA)还有难度.

用不了贴图语句..没法直接显示了-.-!

突然发现我Gmail帐号可以登录...呵呵

石水 said...

庄主好,看完解答我也有一个问题:在EFA中,如何计算潜变量的得分呢?譬如潜变量A,有三个指标a1、a2、a3,EFA中的因子负载分别为λ1、λ2、λ3,那潜变量A的得分如何计算呢?见过的一个计算是A=(λ1a1+λ2a2+λ3a3)/(λ1+λ2+λ3)。

庄主 said...

石水:

你的公式是计算factor score的常用方法之一。分母中将三个权重加起来是使得factor score的取值单位与观测变量的单位相同。

在SPSS的Factor程序中,可以要求直接产生factor score,具体有三种计算方法,与你的公式有所不同。如方法一是用以下回归公式(用你的符号系统):

A‘ = z1w1 + z2w2 + z3w3

其中z1-z3是a1-a3的z得分,w1-w3是component score coefficients、不是factor loadings。但是,A’与A之间是线性相关的,差别在于两者的均值与方差而已。