2009-07-19

为何回归系数这么小?

Anonymous @ 2009-07-15:

我在做一个简单的多因素回归,96个cases, 13 个自变量。 回归结果显示全部coefficients 小于0.005, 其中部分变量p值显著。为什么会这样?这个结果该如何改善或解释呢?急,多谢!

庄主 @ 2009-07-19:

这个问题的答案较简单。如果你说是非标准化回归系数,则反映出你的自变量取值很大或因变量取值很小;如果你说的是标准化回归系数,则反映出你的样本很大(但实际上你的n = 96)或自变量之间有共线性。这两种情况的本质不同,需要分别简述。

非标准化系数

其定义为 the exact amount of change in the dependent variable as the independent variable goes up by one unit when other independent variables are held constant(恕我不翻,我觉得任何中译都不够原文明了精确)。这里的"exact amount of change”的单位,是由自变量和因变量的测量单位决定。假定你的一个自变量自变量是年龄,而因变量是身高,样本为青少年(12-17岁),如果年龄以年为单位,身高以厘米为单位,非标准化系数 =  10,则说明在这段年龄中,每增加1岁,身高长10公分。但是如果年龄以天为单位,其非标准化系数则 = 0.027(=10/365)。相反,如果年龄以岁为单位,身高以毫米为单位,其系数 = 100 (=10x10),等等。你可以变换两者的各种取值单位,可以得到小到5-6位小数、大到5-6位整数的系数,但其相关程度永远是一样的。希望你能够因此而举一反三,得出如果解释你的结果之方法。

标准化系数

其定义为the exact amount of change in the standardized dependent variable as the independent variable goes up by one standardized unit when other independent variables are held constant(只是多了standardized一词)。这时,无论自变量或因变量取何单位,其系数的值不会变化。如果标准化系数 = 0.005,反映的则是一种很弱的相关关系。为什么还会显著?上面已提到,原因一为样本(巨)大,这时该关系虽然有统计显著意义、但缺乏实际(即理论)意义;原因二是(部分)自变量之间高度相关,导致(部分)系数的标准误差人为变小而达到统计显著,这种结果更有误导之效。你的数据是小样本而多变量,更容易发生第二种情况。一般说来,每个自变量需要有30左右的个案。你有13个自变量,需要400个案。如果只有96个案,则只能用3个左右变量(可以讲高度相关的自变量组成因子来减少自变量个数)。