2010-02-16

如何理解SEM的八个参数矩阵与七种变量之间的对应关系?

s @ 2010-02-05:
 
曾看过你的帖子“LISREL的八个矩阵”,最近在学习用AMOS做SEM分析,不知两者有何关系?
 
庄主 @ 2010-02-15:
 
如我在上述帖子中说的,LISREL是用八个矩阵来设置SEM模型的。这些矩阵分别代表了SEM模型中七种变量的参数。在LISREL中,变量与参数之间的对应关系是比较明确、不易混淆的。如,大家知道,描述因子与其测量指标之间关系的参数叫做“因子负荷”,其中外生因子测量指标x的负荷矩阵是用Λ(x)来估算、内生因子测量指标y的负荷矩阵是用Λ(y)来估算的,两者不能放在一起(即外生因子无法与y相连而内生因子无法与x相连)。这种规定在大部分情况下是合理和必要的。(当然,少数情况下,研究者也许有特殊理由需要将x挂到内生因子上或y挂到外生因子上,就需要设定特殊的“All-y model”(全y模型)。这种额外步骤,虽然麻烦,但防止了初学者因不知情而乱点鸳鸯谱。)
 
AMOS是通过图像来设置模型的,用户不再需要与八个矩阵的希腊字母打交道,所设置的模型是“What you see is what you get”(WYSIWY),很容易上手、也避免了模型设置时的一些常见错误。但是,在这种“自由自在”的界面中,很容易犯一些LISRE里不会出现的错误。比如上面所说的,任意(或根据Modification Index的误导)将x挂到内生因子或将y挂到外生因子上去。这种模型或者无法identified、或者违反“误差项与自变量独立”的基本假定,因为AMOS以及其它SEM软件在估算模型的参数时,其实还是在背后使用上述矩阵。
 
为了帮助大家在用AMOS设置模型时避免设置不能或不该估算的参数,我在八大矩阵的基础上再做了一个表(见下),以显示八个参数矩阵与七种变量之间的关联与隔离:
 
8_Matrices_Table3
 
表三的7列和7行分别代表了SEM的七个变量(包括外生因子ξ、内生因子η、η的误差ζ、外生因子的测量指标x、内生因子的测量指标y、x的误差δ、y的误差ε),它们在列里担任的是自变量的角色、而在行里担任的是因变量的角色。
 
两种变量相交的格里如果出现一个希腊字母,就说明它们之间存在一个参数矩阵(在下图中用黑色线条来表示);而如果是个空格,就说明它们之间不能发生关系(在下图中用红线表示)。如第一列ξ与第一行ξ之间有个方差-协方差矩阵Φ(如下图中的φ12);第一列ξ与第二行η之间有个外生因子->内生因子的回归系数矩阵Γ(如下图中的γ11和γ22);第二列η与第一行ξ之间是空白(即图中η2到ξ1的错误红线),因为内生变量不能影响外生变量(AMOS是可以让你画这条线的,但这在逻辑上是错的);当然第二列η与第二列η之间是可以有一个内生因子->内生因子的回归系数矩阵Β(如图中的β12和β21);等等。
 
表中还有三个记为“I”的矩阵,它们不在八个矩阵之内,而是三个对角线为1、其余部分为0的Identity矩阵,用来定义三种误差项变量(ζ,δ和ε)系数的数学工具,而AMOS在处理误差项变量系数时则是很“智能”的,会在相应处自动为它们标出取值为"1”的回归系数(见下图)。
 
8_Matrices_Fig2_IllegalParameters

LISREL的八个矩阵

(原版2007年5月19日,略有修改重发)

传说中的“八大军区联络图”终于出笼了:

8_Matrices_1e

上图看起来挺吓人的。别紧张,先定义一下。图中每个圆圈代表一个隐含因子、每个方块代表一个观测变量、每条直线或曲线代表一个参数(parameter,也叫系数)、跟在每条半封闭直线后面的是一个因子或变量的残差(error)。所谓“八大矩阵”,就是八种参数的集合。分别列在表一:

8_Matrices_table1

如表所示,其中前四个矩阵用于测量模型部分、后四个矩阵用于结构模型部分;每模型一部分又分别分为外生(即图一的左边)和内生(图一的右边)两边;每一模型部分的每一边,再分别分为关系参数和残差参数。即一个2 X 2 X 2的设计,十分严密。

上面的图和表中,都用到了希腊字母、而且大小写并用,实在是三难(难认、难读、难记,读音参见表二)。其实经典统计学中也用到一点希腊字母,其规则是:变量名用罗马字母(即英文)、参数用希腊字母(如回归系数叫BETA);总体变量和参数用大写、样本变量和参数估计值用小写。LISREL大体上沿用了这些规则。然而,由于SEM中的变量有观测的和隐含的之分,LISREL的创始人Joreskog决定沿用罗马字母表示观测变量、但用希腊字母表示隐含因子。其用意可嘉、但结果使得参数和隐含因子分享同一套符号而产生了很多困扰。(如果该老友用禅经字母来表示隐含因子、那该多爽啊。)

八大矩阵是LISREL的核心思想,也是其与AMOS、EQS等其它软件的主要不同。其缺点如上所说,概念太多、名字难念、令人望而生畏。优点嘛,则见仁见智。我用了近20年,觉得其好处主要有两个::一是便于区分外生因子(exogenous factors)与内生因子(endogenous factors)之间、隐含因子与观测变量之间、以及因子/变量的各种相关系数之间的差别;二是便于用户之间交流(包括写学术报告)时有一套确定而又简便的符号系统。

当然,是否值得仅仅为了这些好处而去重学一种外语(希腊语),则又是见仁见智了。我的看法,如果你用LISREL,那只能学;如果你用其它软件、但有志成为SEM的pro,那也要学一下(不然如果与主流沟通?);如果你用其它软件而无意成为SEM方法专家,不学也罢,有所失必有所得。

8_Matrices_Table2