2011-09-17

如何分析只含一个指标的隐含因子模型?

jingjing @ 2011-09-16:

您好!真的很感谢您提供这么一个平台和机会,为我们这些在学习结构方程模型和相关软件有困惑的同学提供具体的解答,谢谢您~

我想请教您的问题是:我的毕业论文中,要研究x和y的关系,其中x只有一个指标,y有两个指标,还有控制变量c1/c2/c3/c4/c5,其中c1/c2是年度变量和行业变量,我想问您的是这种外生潜变量只有一个指标,内生潜变量有两个指标能不能用结构方程模型做?lisrel软件中又是怎么编程的?年度控制变量和行业控制变量又是如何设置的?是直接赋值为1、2.。。。吗?

我刚接触结构方程模型和lisrel软件,很多问题都没弄明白,特别是在软件的操作上,请您多指教~~

庄主 @ 2011-09-17:

一、你的控制变量写为“c1/c2/c3/c4/c5”是什么意思?是五个latent factors(隐含因子)还是五个observed indicators(测量指标)?如是后者,它们分属哪些隐含因子?“c1/c2”不会是指c1除以c2吧?请说明。定量研究中使用的语言一定要明确无疑义。

二、你的数据(X含一个测量指标、Y含两个测量指标)既可以用SEM分析,也可以用常规回归分析,结果相仿。与回归相比,SEM最直接的两个优势在于:a)含有多个测量指标的各因子之间的关系不受测量误差影响;b) 检验中介变量的间接影响。你的数据无法享受这两项优势,所以用不用SEM差别不大。(SEM还有其它优势,因与本文无关,所以略过。)

三、我在第一点中讲定量研究的语言要明确无疑,而在第二点中说本案中用SEM和回归“结果相仿”和“差别不大”,两者之间是否有矛盾?非也。根据目前知道的信息,只能得出后者的结论。如果有x, y1和y2的相关系数矩阵,加上样本数,就能进一步知道“相仿”或“差别”的程度,但现在可以确定的是这种程度并不大(以X和Y的相关关系来说,也许在0.01-0.02之间)。

一般而言,消除X和Y之关系中的测量误差,X和Y各自至少需要三个指标,也即有一个6乘6的相关系数矩阵(严格说来说6乘6的covariance矩阵),其中含有21个独立的known moments(已知参数)。你现在只有一个3乘3的矩阵,含6个已知参数,信息远远不够。后果是什么?你估算的模型中含有大量测量误差,与完全不顾测量误差的回归分析差别不大。

如果你X有两个指标,情况会好一些;如果X有三个指标,会更好一些(但模型中还会有因为Y只有两个指标的误差)。但如果X还是一个指标而Y有三个(或更多)指标,则与事无补。

四、如何编写LISREL程序是个难以通过博客帖子回答清楚的问题。最有效的方法是听一位操作型老师面授10来小时的基本指令。当然,我知道国内很少有这种课程。能教的老师还是有的,但能讲清LISREL操作指令的老师大多是科研高手,时间很紧,而且讲操作指令会被同行看低。国外有些大学的社会科学计算中心会有免费培训,实为功德无量。社会上有更正规的培训,如http://www.ssicentral.com/workshops/lisrelbegin.html,当然收费不薄。这里有两个基本教材,供自学:http://www.ssicentral.com/lisrel/techdocs/SIMPLISSyntax.pdfhttp://nd.edu/~rwilliam/stats2/l95.pdf

2011-09-12

如何检验名目变量的中介效应?

Zhang @ 2011-09-07:

祝老师,您好,我想用结构方程模型做路径分析,有个问题不清楚,想跟您请教一下。

先说样本量,我调查了100户,也就是我的的样本量是100,假设模型包含4个自变量,其中2个是连续变量,1个是类别变量,1个是计数变量,因变量只有1个,是连续的。

我的模型中有一个中介变量,这个中介变量就是上面提到的类别变量。我主要是想问参数估计方法的选择问题,对于我这样一个小样本量,里面又含有非连续的变量类型,参数估计的方法generalized least square(GLS)和ordinary or unweighted least square (OLS OR ULS)哪个更适合一点?

此外,您觉得我100个样本是否适合做这样一个结构方程模型的路径分析?我是刚开始学SEM,希望能得到您的指点,非常感谢关注,期待您的答复。

庄主 @ 2011-09-12:

你虽然是新手,但对数据和问题的叙述既简洁又清楚。这是做好科学研究(或定量分析)的第一步。推荐给其他提问者学习。

类别变量(categorical variable,或叫名目变量)可以做中介变量,但不能用SEM来分析。SEM确实有好几种估算方法,如你提到的GLS、OLS和ULS,以及更常见的Maximum Likelihood (ML)。但所有估算方法都要求除了grouping variable(分组变量)之外的所有自变量和因变量必须是连续或定距变量。你当然可以用那个类别变量做分组变量,但那检验的是moderation effects(调节或交互效应)而非mediation(中介效应)。

那么,不用SEM是否可以检验类别变量的中介效应呢?可以,但我得事先预警一下:有关的操作和解读都非常(或极其)繁琐。我假定你已经了解中介效应的一般原理(或用“中介变量”查询一下本站有关前贴),所以不再赘言,以下只介绍具体操作步骤。

一、以Y为因变量,X(在本案中是三个连续或计数变量,记为X1、X2和X3)为自变量,做一回归分析,得到的回归系数记为c。

Y = cX                                (Eq. 1)

可用常用的OLS回归,或用general linear model (GLM)回归,两者的结果相同,但后者在第二步中更为方便。

二、将M(类别变量)加入上述回归,得到的回归系数分别记为c'和b。

Y = c'X + bM                       (Eq. 2)

如你在第一步里用的是OLS回归,须先将M转换成k - 1个dummy variables(零一变量),其中k是M的类别个数;如第一步用的是GLM回归,则可以省去对M的转换而直接进入。注意:1. 这里的回归系数是c',不是第一步中的c;2. 如果M有3个以上的类别时(即k > 2),就会得到k - 1个b,可分别记为b1,b2,…,bk-1,多个b的出现是上面提到的“繁琐”原因之一。

三、以M为因变量、X(本案中X1 - X3)为自变量,做一回归分析,得到的回归系数记为a。

M' = aX                              (Eq. 3)

由于这里的因变量M是类别变量,所以不能用OLS或GLM回归,而要用Logistic Regression (LR,当k = 2) 或 Multinomial Logistic Regression (MLR,当k > 2)。如与第二步一样,当M的类别大于2时,会有k–1个a,可记为a1,a2,…,ak-1,这又是一个繁琐之处。

更重要的是公式3中的M'与公式2中的M之不同。前者是probability of odds ratio between category j and category 1-j (某一类别j发生与否的概率)而后者是difference in the mean between category j and the baseline category (类别j与基准类别之间平均数之差)。这是最容易引起困惑繁琐的地方,尤其是对于不熟悉类别变量分析的基本原理(如什么是类别发生概率等)。

四、这是另一个难点:如上所述,M在第一、二步的OLS(或等值的GLM)中和在第三步的LR或MLR中的scale(单位)不同,所以MLR系数a不能与OLS系数b等直接比较,而我们知道,检验中介效应的核心是检验ab (即X通过M对Y的间接影响)的显著性以及比较c'与ab的大小而实现的。因此,a必须与b等具有相同的单位。为此,我们需要将它们转换成各其的标准化系数。其公式分别为:

a' = a Sx / Sm'                   (Eq. 4a)

b' = b Sm / Sy                    (Eq. 4b)

c'' = c' Sx / Sy                    (Eq. 4c)

其中Sx和Sy分别是连续变量X和Y的标准差,可以用SPSS的Descriptive或其它软件的类似指令直接算出。公式4b中的Sm是零一变量M的标准差,也可以用上述指令直接算出。但是4a中的Sm'是公式3中的因变量M'的标准差,即一个“什么什么发生与否”的概率的标准差,没法直接算。对它的一种估算方法是:

clip_image002              (Eq. 5)

其中p是圆周率 (= 3.1416…),p2/3则是标准化的logistic分布函数的方差(这一项其实是一个常数,= 3.14162 / 3 = 3.29),因此公式5可以简化成

clip_image002[25]              (Eq. 5')

不知你是否还在看吗?看懂了多少?我知道第一、二步很容易,第三、四步并不难,但很繁琐,如没有做过LR或MLR的人确实难以消受这种思路的产品。如果你能坚持到这里,接下来就可以看到辛苦劳动的成果了:检验M的中介效应。

不管M是连续变量还是类别变量,检验其是否具有中介效应的原理是一样的,即:

一、公式1中的c必须显著;

二、公式2中的b和公式3中的a必须显著;

三、最后看公式2中的c'。这时有三种可能:

1. 如果c'不显著,那么M具有完全(或强烈)的中介效应(理想状态);

2. 如果c'显著、但其标准化系数c"(见公式4c)小于a和b的标准化系数之乘积a'b'(见公式4a和4b),那么M具有部分(或微弱)的中介效应(常见的中介效应大多如此);

3. 如果c'显著、而且c">a'b',即X对Y的直接影响大于通过M的间接影响,或者说,M的出现并没有改变X对Y有显著影响的基本格局。因此,我们必须承认M不具备中介效应。有些读者认为,只要a'b'是显著的,就说明M有中介效应。这种看法是错的。