竹家庄: 5/30/10

Anonymous @ 2010-06-02:

老师：您好。我在做回归分析的时候遇到一个问题，想向您请教。假设我用一些自变量解释因变量y

y=a0+a1x1+a2x2+...+anxn (模型1)

最后得到的结果是x1(如非农收入比重)，x2(如政府补助)与y1显著相关(p<0.01)。我的指导老师希望我对样本进行分组，分为参与非农产业与未参与非常产业，然后对两个子样本分别进行回归分析。他想考察参与非农产业与不参与非农产业的情况下，x2对y的解释力是否有差异。得到两个模型：

参与非农产业的样本（样本2）：y*=a0*+a2*x2*+...+an*xn* （模型2）

不参与的样本（样本3）：y‘=a0’+a2‘x2’+...+an‘xn’ （模型3）

结果模型2里，x2与y之间显著相关，模型3里二者并不相关。我的指导老师就说这是因为，x2与y之间之所以显著，就是因为在样本2里二者有显著相关关系。对于不参与非农产业的样本，x2与y之间并无关系。因为我对统计知识一无所知，所以上来向老师求助。我的指导老师的说法对吗？出现这种结果还可能是什么原因？或者怎样理解这种现象？

期待您的回复，谢谢

庄主 @ 2010-06-05：

虽然你描述了很详细，但我还不敢肯定完全清楚你的数据（如Y是什么？）和以及你指导老师的意思（他的话“X2与Y之间之所以显著是因为两者有显著相关关系”好像是同义词重复？）。

我猜，你的核心问题是为什么X2在总样本和分样本1中对Y有显著影响，但在分样本2中没有显著影响？假定你是根据X1而将总样本一分为二的（因为X1没有出现在模型2或3中），那么X2只在分样本1中显著的原因有二：

一、X1与X2对Y有交互影响（interaction）。简单说来，X2对Y的影响不是一个常数，而是随着X1的值而变化，如当X1 > 0 (是吗？)时，X2对Y有显著影响；而当X1 = 0（是吗？），X2对Y并无显著影响。至于为什么会这样，则是需要用你们的专业知识来解释了。

二、由两个分样本的大小不同而造成。我们知道，相关系数或回归系数的显著性与样本大小直接有关。如果两个样本的大小不同，即使两者的相关系数或回归系数相同，其中大样本的系数可能显著而小样本的系数则可能不显著。这是一种方法上的artifact（即人为假象）。你需要检查一下两个分样本的大小是否相同。

事实上，如我在前贴（如“分样本比总样本的回归分析更准确吗？”）中指出，检查X1和X2的交互影响，不应该将样本按X1的值分成两个分样本来比较a2，而是应该在总样本（即你的模型1）中加入X1和X2的交互项（即X1和X2的乘积），用你的模型术语来表示，即为 Y = a0 + a1X1 + a2X2 + a3X1X2 + ... + anXn。其中a3的显著性直接检验了a2是否随着X1的变化而显著变化，并避免了因为将总样本分成分样本而造成的人为不显著假象。

2010-06-05

为何一个自变量在总样本和分样本中的显著性不同？

Blog Archive

博客分类

你从哪里来

2010-06-05

为何一个自变量在总样本和分样本中的显著性不同？

Blog Archive

博客分类

订阅竹家庄博客

你从哪里来