2011-08-01

如何控制或考虑“控制变量”的影响?

Keykure @ 2011-07-31:

庄主,您好,我最近碰到一个问题,跟下面这个帖子的问题很像,但是没有这么复杂。http://zjz06.blogspot.com/2010/03/blog-post.html (庄主注:或zjz06.wordpress.com上相同标题)
我的问题描述如下:考察自变量X,因变量Y之间的相关关系,但是这两者XY都受到两个因素Age和Sex的影响,因此给怎么建立模型来控制Age和Sex的影响?具体我该采用什么方法(比如GLM)来进行统计分析呢?

庄主 @ 2011-08-01:

你的问题中Age和Sex对X和Y的“影响”,包括了三种形式:一、直接影响;二、通过X的间接影响;三、对X->Y影响的调节影响(即与X的交互影响)。由于你没有说清是那种形式,所以我分别介绍一下,但不一定是你想问的。

一、直接影响:

这种影响最简单,说明Age和Sex分别与X相关,即有竞争关系。如果要控制它们对X->Y关系的影响,只需将Age和Sex直接加入X->Y的分析模型中即可,如:

Y = b0 + b1X + b2Age + b3Sex                        (1)

二、间接影响:

这种影响是与直接影响相比较而言的,即除了模型1之外,再估计以下模型:

X = c0 + c1Age + c2Sex                                   (2)

然后比较Age的直接影响(b2)与间接影响(c1b1),如果前者小于后者,说明有必要考虑Age的间接影响;同理,比较Sex的直接影响(b3)与间接影响(c2b1),如果前者小于后者,说明有必要考虑Sex的间接影响。

注意,我这里用的是“考虑”而非你用的“控制”,两者的区别在于:“控制”用于去除由于自变量之间的相关关系而造成的各自对因变量的直接影响的错误估计;而“考虑”间接影响并不会改变所有自变量的直接影响,当然会改变总影响(=直接影响+间接影响)。

三、交互影响:

这种影响与上述的直接或间接影响均为关系,即不管Age或Sex对Y是否有直接或间接的影响,它们都可能与X存在着对Y的交互影响。检验的方法是在模型1中加入两项交互项:

Y = b0 + b1X + b2Age + b3Sex +b4XAge + b5XSex   (3)

其中b1, b2, b3是三个自变量的直接影响,而b4和b5则是Age和Sex分别与X的交互关系。详细解释可参见我的几个前贴。

最后简单回答如何在SPSS GLM中用Syntax实现上述三个模型(如果用菜单选项,三者的差别仅在自变量的box中输入不同而已):

直接影响:Y WITH X, AGE, SEX.

间接影响: X WITH AGE, SEX

交互影响: Y WITH X, AGE, SEX, X*AGE, X*SEX

2 comments:

Keykure said...

2011/08/01 @ 8:58 pm

非常感谢庄主的解答,我想我的问题应该是属于第三种情况,至少要先考虑交互影响。我还有一个非常简单的问题就是,在spss里输入自变量的时候怎么来区分fixed factors, random factors 和covariates,我经常搞混淆这三者。比如我的问题中X是连续变量,是不是就不能放到fixed factors中去,只能放到covariates中?
另外,因为涉及到的数据变量比较多,所以我主要用Matlab来做统计分析,我建立了如下模型(其中X为IQ),不知道和您解释的模型是否一致?
1) to detect main effect of Age, using sex and IQ as covariates:
Yi= mean(Y)+ a1i*Age + a2i*Sex + a3i*IQ + ei;
2) to detect main effect of Sex, using IQ and Age as covariates, as well including interactions (Age*Sex, Sex*IQ):
Yi= mean(Y)+ a1i*Age + a2i*Sex + a3i*IQ + a4i*(Age*Sex) + a5i*(Sex*IQ) + ei;
3) to detect main effect of IQ, using Age and Sex as covariates, as well including interactions (Age*IQ, Sex*IQ):
Yi= mean(Y)+ a1i*Age + a2i*Sex + a3i*IQ + a4i*(Age*IQ) + a5i*(Sex*IQ) + ei.
特别是第三个模型,就是我在帖子里咨询的问题,这样的模型再做线性回归,然后考察IQ的系数a3i以及其它交互影响的系数a4i,a5i的统计意义,是否就能达到我希望分析的目的(IQ对Y的影响)?


2011/08/02 @ 5:27 am

庄主您好,关于上面的三个模型,再补充问一个问题,关于模型1的:
模型1中没有包含任何交互影响,得到的结果是Age对Y有显著影响;
但是如果在模型1中加入Age*IQ的交互影响,Age的影响就变得没有显著意义了;
因此模型1(主要看Age对Y的影响)需不需要加入交互影响呢?
如果加入的话,显著性消失,是否就能说明Age对Y无显著影响呢?

庄主 said...

Keykure:

请见我写的续篇。

庄主