竹家庄: 分样本比总样本的回归分析更准确吗？

罗拉@2009-03-30:

祝老师，1.这个问题是上次“如何检验男女两组回归系数之间的差别？”的延续，性别是调节变量，影响了自变量和因变量关系的方向，生成性别和其他两个变量的交互项进行统计解释率为21%，但是分性别统计时，女生为20%，男生为33%，这时是不是分性别统计更准确呢？

2.自变量为两个分类变量（性别，年级），因变量为二分变量（稳定，不稳定），我现在用RC表统计的，但是如果要考虑性别和年级在因变量上的交互效应该如何做呢？

庄主@2009-04-11:

先叙述一下罗拉的问题1：他/她想检验的模型为

Y_i = b0 + b1X1_i + b2X2_i + b3Z_i + b4X1_iZ_i + b5X2_iZ_i （公式1，i = 1 ~ N）

其中Y是因变量、X1和X2是自变量、Z是作为调节变量的性别，用于某一样本（记为N），其回归方程的R平方（记为R²₁）为0.21。如果将样本N按男女分成两个分样本（N1和N2），分别用以下模型做回归

Y_i= b0 + b1X1_i + b2X2_i （公式2, i = 1 ~ N1）

Y_i= b0 + b1X1_i + b2X2_i （公式3, i = 1 ~ N2）

（注意：性别Z在两个子样本中都是一个常数，即在男性中=1、女性中=0，所以公式2中没有b3Z、b4X1Z和 b5X2Z三项。）其R平方（分别记为R²₂和R²₃）分别为0.20和0.33，前者略小于R²₁、但后者则明显大于R²₁。

（罗拉及其他网友：如果下次你有疑问，能否将问题按类似的详尽程度叙述出来？这次我完全看懂罗拉的问题、但担心有些读者看不懂，所以详细写出来；但有时我也不大或完全看不懂问题。）

罗拉的结论“分性别统计更准确”涉及几个误解。第一，就R²而言，R²₂和R²₃合在一起与R²₁是等值的，这是因为R²₁是R²₂和R²₃的加权平均数（weighted mean）。本例中R²₁非常接近女性组的R²₃而遥遥远离男性组的R²₂，这应该是女性人数明显多于男性人数而造成的。

注意：上述公式1和公式2+公式3是等值的；但是如果在公式1中拿掉与Z有关的b3-b5三项，即

Y_i = b0 + b1X1_i + b2X2_i （公式4, i = 1 ~ N）

公式4与公式2+公式3是不等值的。公式1是一个含交互项变量的模型。公式2+公式3是公式1的分拆，所以是一组隐含交互项的模型。而公式4只含主影响，R²₄会小于R²₁或R²₂和R²₃的加权均值。大家不要将公式1与公式4混淆了。

第二、虽然分样本的R²₂和R²₃与总样本的R²₁等值，但是由于分样本的个案数（N1和N2）小于总样本数，所以总样本的回归结果要比两个分样本的结果更精确（即样本大则误差小）。

第三、虽然对两个分样本的b0、b1或b2作比较很直观，但是这种比较并不能告诉我们两者之间是否存在显著差别，而总样本（即公式1）中的b4和b5分别直接检验了Z与X1及Z与X2的交互影响（详细参见如何检验男女两组回归系数之间的差别？）。

罗拉的问题2，与问题1的唯一区别是因变量是dummy变量，自然不能用经典的OLS回归而应该用Logistic Regression等工具。但是对两个自变量（其实是一个自变量和一个调节变量）之间的交互影响的检验和展示，与问题1以及本庄有关交互影响的三、五个帖子完全一样，恕不赘言。

2009-04-11