2009-04-11

分样本比总样本的回归分析更准确吗?

罗拉@2009-03-30:

祝老师,1.这个问题是上次“如何检验男女两组回归系数之间的差别?”的延续,性别是调节变量,影响了自变量和因变量关系的方向,生成性别和其他两个变量的交互项进行统计解释率为21%,但是分性别统计时,女生为20%,男生为33%,这时是不是分性别统计更准确呢?

2.自变量为两个分类变量(性别,年级),因变量为二分变量(稳定,不稳定),我现在用RC表统计的,但是如果要考虑性别和年级在因变量上的交互效应该如何做呢?

庄主@2009-04-11:

先叙述一下罗拉的问题1:他/她想检验的模型为

Yi = b0 + b1X1i + b2X2i + b3Zi + b4X1iZi + b5X2iZi (公式1,i = 1 ~ N)

其中Y是因变量、X1和X2是自变量、Z是作为调节变量的性别,用于某一样本(记为N),其回归方程的R平方(记为R21)为0.21。如果将样本N按男女分成两个分样本(N1和N2),分别用以下模型做回归

Yi= b0 + b1X1i + b2X2i (公式2, i = 1 ~ N1)

Yi= b0 + b1X1i + b2X2i (公式3, i = 1 ~ N2)

(注意:性别Z在两个子样本中都是一个常数,即在男性中=1、女性中=0,所以公式2中没有b3Z、b4X1Z和 b5X2Z三项。)其R平方(分别记为R22和R23)分别为0.20和0.33,前者略小于R21、但后者则明显大于R21

(罗拉及其他网友:如果下次你有疑问,能否将问题按类似的详尽程度叙述出来?这次我完全看懂罗拉的问题、但担心有些读者看不懂,所以详细写出来;但有时我也不大或完全看不懂问题。)

罗拉的结论“分性别统计更准确”涉及几个误解。第一,就R2而言,R22和R23合在一起与R21是等值的,这是因为R21是R22和R23加权平均数(weighted mean)。本例中R21非常接近女性组的R23而遥遥远离男性组的R22,这应该是女性人数明显多于男性人数而造成的。

注意:上述公式1和公式2+公式3是等值的;但是如果在公式1中拿掉与Z有关的b3-b5三项,即

Yi = b0 + b1X1i + b2X2i (公式4, i = 1 ~ N)

公式4与公式2+公式3是不等值的。公式1是一个含交互项变量的模型。公式2+公式3是公式1的分拆,所以是一组隐含交互项的模型。而公式4只含主影响,R24会小于R21或R22和R23的加权均值。大家不要将公式1与公式4混淆了。

第二、虽然分样本的R22和R23与总样本的R21等值,但是由于分样本的个案数(N1和N2)小于总样本数,所以总样本的回归结果要比两个分样本的结果更精确(即样本大则误差小)。

第三、虽然对两个分样本的b0、b1或b2作比较很直观,但是这种比较并不能告诉我们两者之间是否存在显著差别,而总样本(即公式1)中的b4和b5分别直接检验了Z与X1及Z与X2的交互影响(详细参见如何检验男女两组回归系数之间的差别?)。

罗拉的问题2,与问题1的唯一区别是因变量是dummy变量,自然不能用经典的OLS回归而应该用Logistic Regression等工具。但是对两个自变量(其实是一个自变量和一个调节变量)之间的交互影响的检验和展示,与问题1以及本庄有关交互影响的三、五个帖子完全一样,恕不赘言。

如何绘制调节效应的图形?

无名氏 @ 2009-04-09:

我是一名应届毕业生,人力资源管理专业,目前在做关于调节作用的毕业论文。向您请教一个问题,“如何绘制调节效应的图形”?谢谢您,祝开心!

庄主 @ 2009-04-10:

这个问题,其实就是如何用图形表示交互关系。而最常见的图形则是直线图(line chart,相信你多半见过),其中Y轴是因变量、X是自变量、图中至少有两条线,每条线代表调节变量(moderator variable)的一个组(更精确地说,是X与Y在该组数据中的关系)。这种图很容易画,可能的难点在于如何设定每条线的斜率,解决方法是先解析出每条线所对应的回归方程,余下的步骤就是小菜一碟了。以下举几个例子来说明。

一、调节变量是一个二分的定类变量(dichotomized nominal variable):

image

假定你的回归方程是 Y = b0 + b1X + b2Z + b3XZ,其中Z是调节变量、含有两个组别(如男女,分别取值1和0,当然也可取1和2或其它数值,但如下述,取1和0会简化结果的解读和制图)。再假定你的回归结果是b0 = 9.7, b1 = 0.3, b2 = 9.7, b3 = -9.1(这里的系数都是为了制图方便而编出来的),那么,男女两组的方程分布是 Y = 19.4 + 0.6X 和 Y = 9.7 + 0.3X(具体过程略过,但你应该逐步演算一遍,以确保理解男女分组方程的来历以及各自与总方程的异同、如女性组方程的b0和b1与总方程的b0和b1相同,女性b0与男性b0之间的差别就是总方程的b2,女性b1与男性b1之间的差别就是总方程的b3,等等)。有了这两个方程,就可以分别算出男女两组在X的最大和最小值时Y的预测值(这一步可以搬到Excel里做,比SPSS方便)。假定X在1-100之间变化,那么当X=1时,男性的Y = 19.4 + 0.6 x 1 = 20、女性的Y = 9.7 + 0.3 x 1 = 10;而当X=100时,男性的Y = 19.4 + 0.6 x 100 = 80、女性的Y = 9.7 + 0.3 x 100 = 40。根据这四组数据(1、20;100、80;1、10;100、40),就可以画出图1了。

二、调节变量是一个三分的定类变量(trichotomized nominal variable):

如果调节变量Z是一个含三个组的定类变量(或含三个层次的定序变量、但被当作定类变量处理;如果你想将其当作定距变量处理,见下例),需要先为Z构建两个取值分别为1和0的二分变量(见上例),分别记为Z1和Z2,而回归方程则为Y = b0 + b1X + b2Z1 + b3Z2 +b4XZ1 + b5XZ2。假定Z是职业,Z1是白领 = 1、其他 = 0;Z2是退休 = 1、其它 = 0;蓝领是基准组、在Z1和Z2上都取0。为了省事,我将图1中的男性数据改为白领、女性数据改为蓝领、只增加退休组的数据。而回归结果为 b0 = 9.7, b1 = 0.3, b2 = 9.7, b3 = 50.7, b4 = -9.1, b5 = -51.1。如上例一样,现在可以根据b1-b5的系数以及Z1和Z2的取值,求出三个职业组各自的方程:

image白领组(即Z1 = 1、Z2 = 0):Y = 19.4 + 0.6X

蓝领组(即Z1 = 0、Z2 = 0):Y = 9.7 + 0.3X

退休组(即Z0 = 1、Z2 = 1):Y = 60.4 -0.4X

最后用画图1的方法画出图2(具体步骤略过,但希望你自己演绎一遍)。其中前两组与图1相同(因为我就是用同一批数据构建的),而退休组因含有一个负值的b1所以呈现向下的趋势。

三、调节变量是一个定距变量:

定距变量往往有很多个值,不可能也不必要对每个值画一条线,一般是取两、三个“代表性”(representative或illustrative)的值各画一条线。如果是取两个值,一般取Z的平均数的正负一个标准差的值(即Z值上第16%位和第84%位的值);如果取三个值,则将平均数作为第三个值。假定这里的Z是年龄,其平均值 = 40,标准差 = 20,而回归系数b0 = 20, b1 = -0.067, b2 = 0.50, b3 = 0.008,我们取Z的均值(40)、大于均值一个标准差(60)和小于均值一个标准差(20),分别得到以下三个方程:

image60岁老年:Y = 50 + 0.39X

40岁中年:Y = 40 + 0.24X

20岁青年:Y = 30 + 0.08X

然后用与图1和图2相同的方法画出图3(具体略过)。

四、其它各种可能性:

如果Z是一个中心化(centralized,见)的值(这时,X也应该是一个中心化的值),那么需要在解析出上述公式后,再将Z(和X)的值减去其平均值而得到其“原始值”,并在图形中以原始值来设定X轴和Z的斜率。

如果有两个或更多的调节变量,分组方程的解析并不困难、但画图就有点复杂了,一般是用k个图来表示,其中k等于其中一个调节变量的组别数。假定一个调节变量是性别、另一个是年龄。可以用两个图来分别显示:一是 男性中年龄、二是自变量X的交互效应和女性中年龄与自变量X的交互效应。或者用三个图来分别显示年龄与自变量X在老年、中年和青年中的交互效应。究竟用性别还是用年龄作为第一层的分组指标(其实也就是调节变量的调节变量),取决于你的研究假设:你最终想比较的是什么?

最后,如果你用的是方差分析,上述原则同样全部适用。其实SPSS方差分析也可以产生回归系数的。