2020-02-02

庄规

版权声明:一、本站庄主文章内容欢迎引用,但请注明出处。二、欲全文转载者,请在此留言,未获同意前不得转载。三、访客评论,版权归本站;如要保留版权者,请在评论中注明。

隐私声明:一、本站旨在推进知识分享,欢迎提问和答疑。二、访客在此提供的问题或答案,均被认为不含个人隐私、学术或商业机密。三、如通过email发给庄主的问题或答案,如有不宜公布的隐私或机密内容,请注明。否则将认为可以公开。

礼仪声明:一、本站提倡对话、讨论和磋商。二、欢迎不同意见、希望就事论是、反对人身攻击。三、如有与上述精神不合之评论,将部分删节或全部删除。

Message Board 留言板

大家可在此贴中提问和建议;如涉及某一特定贴子,请在该贴中发言。

由于各学科的传统、术语、符号等各不相同,请提问时交代一下你的学科,以帮助我理解问题的来龙去脉。

本站自2009年1月启用。2005-06年的帖子见http://zjz06.ycool.com/,2007年以后的帖子也同时发在http://zjz06.spaces.live.com/。如有问题,可先查一下上述网站的旧帖。

2009-12-05

如何提高间接影响模型的效应?

hz @ 2009-11-30:

我提出了一个理论模型(见下图),假设A通过B和C对D有间接影响。实证数据表明,A->B、B– C、C–>D的影响都显著,但是三者的乘积(即A–>D的间接影响)却不显著。另外,A–>D的直接影响也显著。不知有无方法提高间接影响?是否可以将显著水平从0.05放宽到0.10?

image

庄主 @ 2009-12-04:

你的理解对了一部分,即A–>D的间接影响包括A–>B–>C–>D的所有回归系数之连续乘积 (= 0.30 x 0.20 x 0.10 = 0.006)。但在你的模型中,A->D之间其实有三条间接路径:一是你说的A–>B–>C–>D;二是A–>B->D;三是A–>C–>D(见下图)。

image

如果你的理论规定A–>D的间接影响只能有A->B->C->D一条路径,是否可以?当然可以。但你须要预期到如此假设更难被证实。如果你的理论容许,那么加上A->B->D和A->C->D的间接影响之后会如何?一切取决于A->C和B->D的系数强度。你可以代入一些可能发生的数值来计算A->D的总间接影响。如,

  1. A->B = 0.20和B->D=0.20,总间接影响=0.086,可能不显著,同时也小于A->D的直接影响;
  2. A->B = 0.30和B->D=0.30,总间接影响=0.126,虽然仍小于A->D的直接影响,但可能显著,属于“弱间接影响”(参见前贴“如何检验两个中介变量的效应? ”http://zjz06.blogspot.com/2009/04/blog-post_25.htmlhttp://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1159.entry);
  3. A->B = 0.40和B->D=0.40,总间接影响=0.166,可能显著,并大于A->D的直接影响,属于“强间接影响”。

当然,基于你现有的回归系数均在0.10到0.30之间,我怀疑即使将后两条间接路径等间接影响(假定两个未知的系数也在0.10到0.30之间)加进去,总间接影响还可能不显著。总之,间接影响模型在理论上很诱人、但在实证上要求很高,尤其是多阶段间接影响模型,一般都很难证明。

最后,你问是否可以将显著水平条件放宽到0.10?答案是否定的。一、统计决策的显著水平(α)是在检验之前就要设置的,而不能在检验之后、因实证显著水平p大于α而将α提高。二、α一般设为0.05,代表犯Type I 错误的概念有5%,如果提高到0.10,则将Type I 错误提高到10%,除了初步的探索性研究之外,这种错误率太高。三、结构方程模型中的回归系数已经修正了测量误差,所以一般不应该再放宽其显著水平。

2009-11-15

如何确定名目变量交互项的参照组是什么?

台灣吳同學 @ 2009-11-13:

老師您好,我是台灣的學生,對您的統計解釋相當有興趣。最近我遇到了一個問題,我嘗試把他說清楚,希望您可以幫我解惑。

在我的logit model裡頭,有兩個類別變數,分別為性別與教育程度。其中,性別是男女二分變數(男=1,女=0),而教育程度則分為低,中,高三類(中=0).我的依變數是收入,分為低與高兩種(低=0).假設,我想探討性別與教育程度的交互作用(性別X教育程度),我的交互作用項只能把1.男X低教育和2.男X高教育放入模型中,請問我的交互作用項在這時候的參照類是什麼?是1.男X中教育? 還是2.女X中教育?

另外,也想知道要如何解讀交互作用項B和EXP(B)的意義。希望您能看得懂我的問題,謝謝!

庄主 @ 2009-11-15:

吴同学,从统计上来说你的问题并不难,但要解释清楚却简短不了,而且有点绕弯弯(所以提醒读者随手做些推算验证,以免绕不出来)。我把这类问题叫做technically simple but practical not trivial (技术上很容易但操作上不简单),往往会被人疏忽或轻视,所以不容易找到答案。如你问的,实质上是一个“如何解读回归分析中交互项的系数?”的问题,对此我已写过好几个帖子(如“如何在回归分析中检验和解读交互影响?”)。但是,你由于下面谈到的若干误解而对这个问题产生困惑,也许已问过其他人或查过其它参考文献,但却不得而知。

我觉得你的困惑可能有三个来源混合而成:第一,你的因变量(dependent variable)不是收入本身、而是高收入与低收入之比例的对数,但无论你根据什么理由来如此构建因变量,你的问题与因变量性质无关,也就是说交互项的对照组问题在包括OLS、GLS、Logit、Probit、Logistic等等所有回归分析中是一样的。所以有关如何解读回归分析交互影响的文献(包括我自己的有关帖子)都是直接相关的。

第二,你的两个自变量都是nominal scale (名目变量) 而不是更常见的interval scale (等距变量),而且你用了dummy coding(哑变量编码)方法,但你对这种编码的原理了解不够(很多人都有同样问题),所以无法将如何解读定距变量交互影响的文献转换成你的答案。

第三,也许是最重要的,是你将交互影响等同于main effects(主效应)影响了。此话怎讲?你知道一个名目自变量转换成哑变量之后,其回归系数描述的是该哑变量取值为1的“研究组”与取值为0的“对照组”之间在因变量Y的平均值上的差别。这种理解完全正确。但是,你将其推广到对交互项系数的理解上去了,所以会问该系数是跟哪个对照组在比较?

为了有助其他读者理解你的问题,我用以下公式来表述你的回归模型:

Y = b0 + b1M + b2H + b3L + b4MH + b5ML                         (1)

其中,Y是因变量的平均值(注意:为了写作方便,本文没有按惯例在Y上加一横杆来代表平均值),M是性别(因为Male=1,所以命名为M),H是高教育程度(High),L是低教育程度(Low),MH是你说的“男X高教育”的交互项,ML是“男X低教育”的交互项。b0是在性别和教育两个变量中同时担任对照组(即同时取值为0)的FM(女性中等教育)组的均值,b1是男女差别(即性别的主效应,注意:这句话在有交互影响条件下有问题的,见后面的简单讨论)、b2是高教育与中教育的差别(高教育主效应,注意:这句话在有交互影响条件下也是有问题的,见后面的简单讨论)、b3是低教育与中教育的差别(低教育主效应)、b4是性别与高教育的交互影响、b5是性别与低教育的交互影响。

上面这段话中,大都分都是常识,唯一需要加以讨论的是什么叫做“性别与高(或低)教育的交互影响”。以b4为例,它反映的是“性别对高等-中等教育程度之间差别的影响”、或倒过来说,是“高教育对男女之间差别的影响”(这两种说法是等价的)。也就是说,b4描述的是高和中教育组之间的差别大小、在男性和女性之间是否相同;或者,男女之差的差别大小在高和中两组之间是否相同。这个意思,中文里说确实有点绕弯弯,用英文表述则相当清楚: b4 indicates whether the difference between the highly-educated and moderately educated groups is constant (uniform, equivalent, invariant, etc.) for men and women, respectively; or whether the difference between men and women is constant (…) for highly educated and moderately educated people, respectively. 

这是问题的核心:主效应系数(b1-b3)反映的是组间差别,所以有研究组和对照组;但是交互项系数(b4-b5)反映的是组间差别的差别(difference between diffrences between groups, or difference between group-differences),所以没有主效应系数意义上的对照组。也就是说,b4或b5反映的不是两个组之间是否有差别,而是两个组间差别之间是否有差别,所以不需要有、也不可能只有一个对照组。

问题解决了吗?应该还没有。我希望大家能够记住两句话:一、交互项系数反映的是交互影响而不是组间差别(即“交互影响不等于组间差别”);二、组间差别又是与(显著的)交互影响直接有关的。为了说明第二句话,我们来看看在交互项显著的条件下组间差别是如何计算的。我们可以根据模型1,写出计算你的六个组(= 2个性别组 x 3个教育组)的平均值Y的公式:(请大家拿出纸和笔来,将0和1值分别代入模型1,以复核实下述公式。光看不练,也许越看越迷糊。)

男高(MH): YMH=b0 + b1x1 + b2x1 + b3x0 + b4x1x1 + b5x1x0 = b0 + b1 + b2 + b4 (2)
男中(MM): YMM=b0 + b1x1 + b2x0 + b3x0 + b4x1x0 + b5x1x0 = b0 + b1 (3)
男低(ML): YML=b0 + b1x1 + b2x0 + b3x1 + b4x1x0 + b5x1x1 = b0 + b1 + b3 + b5 (4)
女高(FH): YFH=b0 + b1x0 + b2x1 + b3x0 + b4x0x1 + b5x0x0 = b0 + b2 (5)
女中(FM): YFM=b0 + b1x0 + b2x0 + b3x0 + b4x0x0 + b5x0x0 = b0 (6)
女低(FL): YFL=b0 + b1x0 + b2x0 + b3x1 + b4x0x0 + b5x0x1 = b0 + b3 (7)

模型2-7告诉我们如何计算六个组的平均值。为了便于计算它们之间的差别(更重要的是洞察它们之间的结构性关系),我们将模型2-7按以下方式重新安排一下:

表一、性别与教育程度交叉组的回归系数比较

 

M(男性)

F(女性)

H(高教育)

b0 + b1 + b2 + b4   (2)

b0 + b2       (5)

M(中教育)

b0 + b1                 (3)

b0              (6)

L(低教育)

b0 + b1 + b3 + b5   (4)

b0 + b3       (7)

根据表一,我们可以很轻松地(目测)算出各组的差别。基于共有六组,共有 6 x 5 / 2 = 15对组组比较,我们用以下的矩阵形式来表示,以省些空间:

表二、组间差别之计算方法

 

MH

MM

ML

FH

FM

MM

b2+b4

ML

b2+b4–b3-b5

-b3-b5

FH

b1+b4

b1–b2

b1+b3+b5-b2

FM

b1+b2+b4

b1

b1+b3+b5

b2

FL

b1+b2+b4-b3

b1-b3

b1+b5

b2-b3

-b3

注:所有组间差别均由column group – row group(列标题中的组减去行标题中的组)构成。如MH-MM = b2+b4。如果想求行组减列组,只需将表二中所有系数的符号相反即可。

由表二可知,只有三对组间差别是直接由回归系数告知的 (MM - FM = b1, FH – FM = b2, FM – FL = –b3;注意,这里的b1只反映中等教育程度上男女之间的差别、而不是所有教育程度上的男女差别;b2和b3只反映女性中不同教育程度的差别、而不是所有人中不同教育程度的差别,这就是我前面提到的对主效应系数的一般解释“在有交互影响条件下有问题的”的原因),而且三者均只涉及主效应系数。另有两对组间差别是由两个主效应系数的组合而成 (MM – FL = b1 – b3, FH – FL = b2 – b3)。其它10对组间差别均涉及主效应和交互项系数的组合。其中尤其是MH - MM的差别,需要同时用到b4和b5两个交互项系数。

这个练习说明什么?既说明交互项系数不等于组间差别、又说明(大部分)组间差别与交互项系数有关系。具体说来,这种“关系”,是附加在主效应系数的基础上产生的,也就是说交互项系数是对一对主效应关系的adjustment(调整)。其调整程度(微调或巨调)则有b4或b5取值决定。

现在,问题解决了吗?也许有些读者还是有点迷糊,觉得名目变量交互分析好麻烦。对的,这就是我一开始说的“技术上容易操作上难”的道理。推而广之,凡涉及名目变量的多元分析(如loglinear modeling、multinomial logistic regression、等等),没有一样不是技术上容易操作上难的。大家要有充分的心理准备。

在本例中,将问题变得相对简单(或容易?)一些的一种方法是不用哑变量编码、而用effects coding(效应编码?)或 contrast coding(配对编码?)。前者用+1定义研究组、-1定义对照组;后者则按一定的限定条件(恕不赘言)来设定任意两组或两集合组(如本例中高教育对中低教育)的比较。由两个效应编码变量构成的交互项反映了在该两个变量上取值为+1的研究组与所有组的(未加权)均值(虽然不一定等于样本均值、但接近“平均”的意思)之差别(如在本例中,可以是男性高教程度与样本“平均”的差别);由两个配对编码变量构成的交互项则反映了被特定配对的两组或两集合组之间的差别(在这种条件下,交互项系数可以等于组间差别了)。当然,这两种编码(尤其是后者)比哑变量编码在操作上复杂很多、但好处是解读时简单。如果有意学习(或者经常要做)名目变量多元分析的读者,应该花时间分别学一下。(当然,必须说明,不够使用哪种编码方法,交互项的显著性结果是完全一样的。它们的差别只存在于SPSS或其它统计程序输出结果中的系数值,而不同的系数值都是可以互相换算的。)

结束前,为完整起见,需要说明,这里虽然只讨论两个名目变量之间的交互项,其原则可以直接推广到三个或更多个名目变量之间的交互项。

最后,你问如何解读“交互作用項B和EXP(B)”,上面已经讨论了b4-b5的解读。Exp(b)的解读与其相仿,唯一区别在于后者的临界点为1而前者为0,如Exp(b4) > 1或Exp(b5) > 1 反映教育程度的差别在男性中大于女性;相反,如Exp(b4) < 1或Exp(b5) < 1则反映教育程度的差别在男性中小于女性。

2009-10-31

如何判断统计显著的差别是否具有实际意义?

丁丁 @ 2009-10-02:

老师,您好!我想问一个关于样本量的基础问题。通常我们有公式可以计算理论最小样本量。但我想问有没有最大样本量,不得因为如果样本量足够大,我可以证明任何没有实际意义的差别是不是statistically significant。比如说,3.75和3.50,SD 都为1.00,如果样本量个为100,不显著。如果是200,就显著了。同理,3.50和3.55,如各有10000,也显著了。但是没有实际意义。我看到很多研究就用这种方法,研究出了很多correlation significant的结果,或两者显著不同的结论。我觉得不对,却没有理论去说它不对。难道真如某人所说, 统计学家可以证明任何事吗?

庄主 @ 2009-10-31:

抱歉,拖了将近一个月才回复你的问题。最近较忙,忙的原因之一是做有关博客写作的可持续性研究(好像就是在研究我自己为什么不能持续写博客)。

你的问题涉及了样本量和统计显著性两个概念,为了理解两者之间的关系,还需要引入其它三个概念:errors in inferential decision(推断决策中的错误)、power of analysis (检验效能)、strength of relationship 或effect size(关系强度或效应规模,注1)。

我们从统计显著性开始,因为大家在看一个统计分析(如相关、回归、方差等)的结果时,总是首先看其显著性(即p值是否小于预设的α值,如 0.05),然后据此而做出相应的推断决策。如p<α则拒绝零假设、p>α则接受零假设。大家知道,尽管有上述p值做依据,这种决策还可能含有误差。如当p<α时,也许零假设还是对的,这时就有犯概率为p的Type I error(型一或“拒真”错误)。相反,如当p>α时,也许零假设却是错的,这时就有犯概率为1 - p的Type II error(型二或“纳伪”错误)。相信大家都看过这些老套的话,但也许不知道这些老土道理是解决很多困惑(包括丁丁的问题)的基本原理。

丁丁关心的是在大样本条件下犯型一错误的可能性。我们先看一下他(她)的例子:有两个均值,分别为3.7和3.5,各自的标准差均为1.0,由于不同样本量而出现了以下两种情况:

一、当N = 100时,两个均值的联合标准误差 =clip_image002 = 0.14(注2),检验两个均值之差的t = (3.7-3.5)/0.14 = 1.41,其相应的p = 0.160(注3)。

二、当N = 200时,两个均值的联合标准误差 =clip_image002[4] = 0.10,检验两个均值之差的t = (3.7-3.5)/0.10 = 2.00,其相应的p = 0.047。

可见,随着样本的增大,原来不显著的差别现在显著了,这合理吗?就型一错误而言,完全合理。当N = 100时,如果我们拒绝零假设(即3.7 = 3.5),拒真(“真”= 零假设)的风险由16.0%,太大了,不能容忍;而当N = 200时,拒真的风险降为4.7%,在可以容忍的范围内,所以是合理的。

那么,统计上显著的就一定是实际上重要或有意义的吗?自然不是。问题是我们如何判断一个统计显著的结果是重要或有意义?丁丁想知道的大概就是这种判断根据。这种根据,就是我们说的关系之强度或效应之规模(而不是样本最大量问题)。

判断关系强度或效应规模的一个直观(即非正式)准则是两个均值之差要大于均值的十分之一(注4)。如在本例中,均值之差为0.2、远小于均值的十分之一(0.35或0.37,取决于我们以那个均值为比较基准),显然,即使当N = 200时0.2的差别是统计显著的,但其差别还比较小(相对于均值的取值),没有特别的意义。

判断关系强度或效应规模,还有很多更正式的准则,如Pearson’s r(用于关系强度)或Cohen’s d(用于均值之差,注5),两者还可以互相转换(注6)。在本例中,Cohen’s d = 0.2(注7)。按照Cohen的说法,如果d值小于0.3,效应规模为small(小效应)、如果d值在0.5附近,效应规模为medium(中效应),而如果d值在0.8以上效应规模则为large(大效应)。

我们也可以将d转换成Pearson’s r = 0.1。一般说来,r = 0.1 也是一个弱相关。

下图是对以上讨论的一个小结(包括丁丁问题的反面,即如果统计分析的结果不显著时,大样本有什么好处或坏处)。

image 

上图也间接回答了丁丁最后引用的问题“统计学家可以证明任何事吗?”。是的,统计学家可以通过提高样本来拒绝零假设,但是,统计学家无法控制关系的强度或效应的规模。如何提高关系的强度或效应的规模?这既是一个理论问题、也是一个(数据收集)方法问题。本庄以前曾有涉及、日后有机会还会讨论,这里就不扯开去了。

注释:

注1:两者同义。关系强度多半用于相关或回归分析而效应规模多半用于方差分析。

注2:丁丁没有交代是两个独立样本还是两个非独立样本,我们假定是前者。

注3:双尾检验。p值可以根据给定的t值和自由度数,用Excel里的TDIST函数求出。

注4:所以一般说来,做社会科学研究的学生最好分别修一门专讲数据收集方法课和一(至数)门统计课。

注5:image, 此外还有其它很多与Cohen’s d大同小异的计算均值之差的效应规模的公式。

注6: image

注7:算了老半天,d等于均值之差,这是因为两个组的样本量相等,否则会有所不同或很不相同。

如何判断统计显著的差别是否具有实际意义?

丁丁 @ 2009-10-02:

老师,您好!我想问一个关于样本量的基础问题。通常我们有公式可以计算理论最小样本量。但我想问有没有最大样本量,不得因为如果样本量足够大,我可以证明任何没有实际意义的差别是不是statistically significant。比如说,3.75和3.50,SD 都为1.00,如果样本量个为100,不显著。如果是200,就显著了。同理,3.50和3.55,如各有10000,也显著了。但是没有实际意义。我看到很多研究就用这种方法,研究出了很多correlation significant的结果,或两者显著不同的结论。我觉得不对,却没有理论去说它不对。难道真如某人所说, 统计学家可以证明任何事吗?

庄主 @ 2009-10-31:

抱歉,拖了将近一个月才回复你的问题。最近较忙,忙的原因之一是做有关博客写作的可持续性研究(好像就是在研究我自己为什么不能持续写博客)。

你的问题涉及了样本量和统计显著性两个概念,为了理解两者之间的关系,还需要引入其它三个概念:errors in inferential decision(推断决策中的错误)、power of analysis (检验效能)、strength of relationship 或effect size(关系强度或效应规模,注1)。

我们从统计显著性开始,因为大家在看一个统计分析(如相关、回归、方差等)的结果时,总是首先看其显著性(即p值是否小于预设的α值,如 0.05),然后据此而做出相应的推断决策。如p<α则拒绝零假设、p>α则接受零假设。大家知道,尽管有上述p值做依据,这种决策还可能含有误差。如当p<α时,也许零假设还是对的,这时就有犯概率为p的Type I error(型一或“拒真”错误)。相反,如当p>α时,也许零假设却是错的,这时就有犯概率为1 - p的Type II error(型二或“纳伪”错误)。相信大家都看过这些老套的话,但也许不知道这些老土道理是解决很多困惑(包括丁丁的问题)的基本原理。

丁丁关心的是在大样本条件下犯型一错误的可能性。我们先看一下他(她)的例子:有两个均值,分别为3.7和3.5,各自的标准差均为1.0,由于不同样本量而出现了以下两种情况:

一、当N = 100时,两个均值的联合标准误差 =clip_image002 = 0.14(注2),检验两个均值之差的t = (3.7-3.5)/0.14 = 1.41,其相应的p = 0.160(注3)。

二、当N = 200时,两个均值的联合标准误差 =clip_image002[4] = 0.10,检验两个均值之差的t = (3.7-3.5)/0.10 = 2.00,其相应的p = 0.047。

可见,随着样本的增大,原来不显著的差别现在显著了,这合理吗?就型一错误而言,完全合理。当N = 100时,如果我们拒绝零假设(即3.7 = 3.5),拒真(“真”= 零假设)的风险由16.0%,太大了,不能容忍;而当N = 200时,拒真的风险降为4.7%,在可以容忍的范围内,所以是合理的。

那么,统计上显著的就一定是实际上重要或有意义的吗?自然不是。问题是我们如何判断一个统计显著的结果是重要或有意义?丁丁想知道的大概就是这种判断根据。这种根据,就是我们说的关系之强度或效应之规模(而不是样本最大量问题)。

判断关系强度或效应规模的一个直观(即非正式)准则是两个均值之差要大于均值的十分之一(注4)。如在本例中,均值之差为0.2、远小于均值的十分之一(0.35或0.37,取决于我们以那个均值为比较基准),显然,即使当N = 200时0.2的差别是统计显著的,但其差别还比较小(相对于均值的取值),没有特别的意义。

判断关系强度或效应规模,还有很多更正式的准则,如Pearson’s r(用于关系强度)或Cohen’s d(用于均值之差,注5),两者还可以互相转换(注6)。在本例中,Cohen’s d = 0.2(注7)。按照Cohen的说法,如果d值小于0.3,效应规模为small(小效应)、如果d值在0.5附近,效应规模为medium(中效应),而如果d值在0.8以上效应规模则为large(大效应)。

我们也可以将d转换成Pearson’s r = 0.1。一般说来,r = 0.1 也是一个弱相关。

下图是对以上讨论的一个小结(包括丁丁问题的反面,即如果统计分析的结果不显著时,大样本有什么好处或坏处)。

image 

上图也间接回答了丁丁最后引用的问题“统计学家可以证明任何事吗?”。是的,统计学家可以通过提高样本来拒绝零假设,但是,统计学家无法控制关系的强度或效应的规模。如何提高关系的强度或效应的规模?这既是一个理论问题、也是一个(数据收集)方法问题。本庄以前曾有涉及、日后有机会还会讨论,这里就不扯开去了。

注释:

注1:两者同义。关系强度多半用于相关或回归分析而效应规模多半用于方差分析。

注2:丁丁没有交代是两个独立样本还是两个非独立样本,我们假定是前者。

注3:双尾检验。p值可以根据给定的t值和自由度数,用Excel里的TDIST函数求出。

注4:所以一般说来,做社会科学研究的学生最好分别修一门专讲数据收集方法课和一(至数)门统计课。

注5:image, 此外还有其它很多与Cohen’s d大同小异的计算均值之差的效应规模的公式。

注6: image

注7:算了老半天,d等于均值之差,这是因为两个组的样本量相等,否则会有所不同或很不相同。

2009-09-20

为何两个模型的中介变量系数一样?

tan @ 2009-09-14:

祝老师,您好!这个星期的提问我看您都回答了,除了我提的问题。不知是您没注意到还是问题太初级而不值得回答。由于学识粗浅并确实想知道问题的解答,特此再次提问,烦请老师您或其他有识之人给予解惑。

问题是有关用SEM检验中介效应的:变量W和Z为自变量(且W与Z之间没有显著的相关),Y为因变量,X为设想中的中介变量。首先是模型1,只涉及三条路经:W--X;Z--X;X--Y。所有路经系数都显著,模型的拟合度也可接受;接着是模型2,涉及五条路:W--X;Z--X;X--Y;W--Y;Z--Y,即模型2比模型1多了两条路经(W--Y;Z--Y),结果也是所有路经系数都显著,模型的拟合度也可接受。我不可理解的问题是:在模型1和2中,自变量(W和Z)与中介变量(X)的路经系数竟然一样,怎么会这样?但模型1中X--Y的路经系数要大于模型2中X--Y的路经系数。

在此,我想请教的问题是:(1)上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?我担心在那个地方做错了。(2)根据您的几个帖子以及其它相关资料,中介效应并不是比较上述我所表述的两个模型的,但在我所学习的Marketing领域,有文献(作者还有一定的名气)却又是这样做的,特别提到:模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?再次感谢!

庄主 @ 2009-09-20:

上周有好几人提了问题,但我没有时间回答所有人的问题,只能按我对问题价值的判断而选择回答部分。我初看你的问题,觉得与8月31日匿名者提的问题相同(见为何不同模型的路径系数和拟合度相同?)。我现在还是这么认为(即,即使不是同一人问的,道理一样)。考虑到读者中也许还有同样的问题,所以再说几句。

为了便于讨论,我将你的两个模型画了出来(建议:很多时候一图胜千字、但这里的提问处不让上传图像,请大家讲图贴在自己的博客或其它公共空间上,然后在你的问题中做个链接):

image

问题一、“上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?”是否指λxw = λ'xw和λxz = λ'xz?如是,答案是肯定的。一个回归方程的系数当且仅当方程增减自变量时才可能变化。以本案为例,模型a涉及以下两个方程:

X = λxwW + λxzZ                           (a1)

Y = βyxX                                      (a2)

而模型b也涉及两个方程:

X = λ'xwW + λ'xzZ                         (b1)

Y = β'yxX + β'ywW + β'yzZ              (b2)

如果比较方程a1与b1,可见两者含有同样的自变量(W和Z),所以λxw一定等于λ‘xw,λxz也一定等于λxz。(注:这是回归分析的基本原理,同样适用于SEM。)

问题二、“模型1中X--Y的路经系数要大于模型2中X--Y的路经系数”。比较方程a2和b2,可见b2比a2多了两个自变量(W和Z),因此βyx可能不等于β’yx,条件是(1)W或Z与Y相关(即β'yw ≠ 0或β'yz ≠ 0)和 (2) W或和Z与X相关(即λ‘xw ≠ 0或λ‘xz ≠ 0)同时成立。既然现在βyx > β’yx,说明W或Z两者之中至少一个与X和Y同时相关。(注:这也是回归分析的基本原理。)

问题三、“模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?”模型b的拟合度一定比模型a好,但是由于损失了2个自由度,所以要做统计检验以证明模型b与模型a之间有显著差别。如是,说明模型b更可取。但是,仅比较模型a和模型b而不比较模型b与只含W->Y和Z->的“直接影响模型”(参见如何检验两个中介变量的效应?),确实不是检验中介效应的充要条件 (necessary and sufficient conditions)。为何你们marketing中有“一定名气”的作者这么做?我无法回答,我只知道科学面前人人平等。包括我在内的很多人都相信David Kenny的检验中介变量方法,不是因为他名气大,而是觉得他说的有道理。

为何两个模型的中介变量系数一样?

tan @ 2009-09-14:

祝老师,您好!这个星期的提问我看您都回答了,除了我提的问题。不知是您没注意到还是问题太初级而不值得回答。由于学识粗浅并确实想知道问题的解答,特此再次提问,烦请老师您或其他有识之人给予解惑。

问题是有关用SEM检验中介效应的:变量W和Z为自变量(且W与Z之间没有显著的相关),Y为因变量,X为设想中的中介变量。首先是模型1,只涉及三条路经:W--X;Z--X;X--Y。所有路经系数都显著,模型的拟合度也可接受;接着是模型2,涉及五条路:W--X;Z--X;X--Y;W--Y;Z--Y,即模型2比模型1多了两条路经(W--Y;Z--Y),结果也是所有路经系数都显著,模型的拟合度也可接受。我不可理解的问题是:在模型1和2中,自变量(W和Z)与中介变量(X)的路经系数竟然一样,怎么会这样?但模型1中X--Y的路经系数要大于模型2中X--Y的路经系数。

在此,我想请教的问题是:(1)上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?我担心在那个地方做错了。(2)根据您的几个帖子以及其它相关资料,中介效应并不是比较上述我所表述的两个模型的,但在我所学习的Marketing领域,有文献(作者还有一定的名气)却又是这样做的,特别提到:模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?再次感谢!

庄主 @ 2009-09-20:

上周有好几人提了问题,但我没有时间回答所有人的问题,只能按我对问题价值的判断而选择回答部分。

为了便于讨论,我将你的两个模型画了出来(建议:很多时候一图胜千字、但这里的提问处不让上传图像,请大家讲图贴在自己的博客或其它公共空间上,然后在你的问题中做个链接):

image

问题一、“上述模型(1和2)中,W和Z与X的路经系数有没有可能一模一样?在理论上成立吗?”是否指λxw = λ'xw和λxz = λ'xz?如是,答案是肯定的。一个回归方程的系数当且仅当方程增减自变量时才可能变化。以本案为例,模型a涉及以下两个方程:

X = λxwW + λxzZ                           (a1)

Y = βyxX                                      (a2)

而模型b也涉及两个方程:

X = λ'xwW + λ'xzZ                         (b1)

Y = β'yxX + β'ywW + β'yzZ              (b2)

如果比较方程a1与b1,可见两者含有同样的自变量(W和Z),所以λxw一定等于λ‘xw,λxz也一定等于λxz。(注:这是回归分析的基本原理,同样适用于SEM。)

问题二、“模型1中X--Y的路经系数要大于模型2中X--Y的路经系数”。比较方程a2和b2,可见b2比a2多了两个自变量(W和Z),因此βyx可能不等于β’yx,条件是(1)W或Z与Y相关(即β'yw ≠ 0或β'yz ≠ 0)和 (2) W或和Z与X相关(即λ‘xw ≠ 0或λ‘xz ≠ 0)同时成立。既然现在βyx > β’yx,说明W或Z两者之中至少一个与X和Y同时相关。(注:这也是回归分析的基本原理。)

问题三、“模型2拟合度可接受,所有路经关系都显著,故部分中介效应显著。这样做可以吗?”模型b的拟合度一定比模型a好,但是由于损失了2个自由度,所以要做统计检验以证明模型b与模型a之间有显著差别。如是,说明模型b更可取。但是,仅比较模型a和模型b而不比较模型b与只含W->Y和Z->的“直接影响模型”(参见如何检验两个中介变量的效应?),确实不是检验中介效应的充要条件 (necessary and sufficient conditions)。为何你们marketing中有“一定名气”的作者这么做?我无法回答,我只知道科学面前人人平等。包括我在内的很多人都相信David Kenny的检验中介变量方法,不是因为他名气大,而是觉得他说的有道理。

2009-09-13

如何分析固定样本数据?

H @ 20009-09-08:

我在分析一个固定样本 (panel sample) 的数据,其中每个人被调查了两次,因变量是定距变量、自变量既有定距也有定类变量。我是第一次做Panel,参考了你在《传播统计学》第15章中“固定样本分析的主要步骤”一节,其中建议当因变量为定距变量、自变量即有定距也有定类变量、数据时点为2时,最简便的是使用回归分析、或者使用协方差分析,其结果应该是完全相同的(第405页)。我尝试了SPSS中GLM模型中的Univariate和Repeated Measures两种方法,以下是我用的指令 (其中Y1和Y2是因变量、X是定距自变量、Z是定类自变量),

UNIANOVA y2 BY z WITH y1 x/Design.

GLM y1 y2 BY z WITH x/WSFACTOR = y 2 Polynomial/WSDESIGN = y/DESIGN.

发现它们的结果并不相同,不知问题出在哪里?

庄主 @ 2009-09-12:

一、你用的UNIANOVA, 正式名字叫做 ANOVA with lagged dependent variable as a covariate(“含有因变量过去值的协方差分析”,简称ANCOVA,也就是我们书上说的协方差分析)。这种方法,与书上公式15-6的OLS regression with lagged department variable as an independent variable(“含有因变量过去值的经典回归分析”),在数学上完全一样,其结果当然也完全一样(参见前文回归与GLM的分析结果真的不同吗?)。

两者相比,协方差分析在操作上有一个好处:可以直接输入定类自变量,而在做回归分析前,则必须先将定类自变量转换成dummy variables (哑变量)。

不管用协方差还是回归分析,最重要的是要明确被检验的零假设是什么?以本例来说,被检验的是以下的零假设:

1. Y1对Y2没有显著影响;

2. X对Y2没有显著影响;

3. Z对Y2没有显著影响。

注意,因为你用的“DESIGN”指令中没有任何自变量,说明你只想检验Y1、X和Z对Y2的main effects(主影响)而不建议三者之间的交互影响,也许这是你的理论问题所需,当然没有问题,而且也简化了这里的讨论。

从这三个假设来看,假设1只是技术性需要(控制Y1与Y2之间的自相关),虽然绝大多数情形下两者会高度相关,但没有什么理论价值,所以不必介意。假设2和3是核心,分别显示在控制了Y1对Y2的影响之后,X和Z各自对Y2有无显著影响(请记住这句话)。

二、你用的GLM,正式名字是Repeated Measures ANCOVA with two dependent variables (“含有因变量前后测量值的协方差分析”,简称RM-ANCOVA)。这种方法与上述的协方差或回归的不同之处在于其将Y1和Y2同时当做因变量,你将其取名为“Y”(注意,这里的Y是只存在于这个协方差分析之中的一个虚拟变量;并注意这个Y与我们书中405页上公式15-5中的因变量ΔY (= Y2 - Y1) 不是一回事,而是与multilevel(多层分析)第一层分析的思路是一致的)。

我们也来看看这里检验的是哪些零假设:

1. Y1与Y2之间没有显著差别 (即一种Test of Within-subjects Effects);

2. Y1与Y2之间的差别与X没有显著关系(即Y和X对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

3. Y1与Y2之间的差别与Z没有显著关系(即Y和Z对从Y1到Y2变化的交互影响,也是一种Test of Within-subjects Effects);

4. X对Y(即Y1和Y2的均值)没有显著影响(这是一种Test of Between-subjects Effects);

5. Z对Y(即Y1和Y2的均值)没有显著影响(也是一种Test of Between-subjects Effects)。

上述零假设中,1与ANCOVA或回归分析的1相仿,检验自相关而已;4和5的意义不大(因为求Y1和Y2的均值没什么理论意义);假设2和3也是核心,分别检验了X或Z对从Y1到Y2的变化的影响,与ANCOVA的假设2和3分别检验Y2有所不同:前者是一种Within-subjects Effects (前后变化),而后者是一种Between-subjects Effects(横向比较)。当然,由于两个模型鉴于同样的数据,所以如果X或Z对Y的前后变化没有显著影响时,其对Y2也不会有显著影响。反之亦然。

两者之间,究竟选用那种模型或报告那种结果,取决于你的研究问题。我个人觉得RM-ANCOVA提供的信息更丰富或更接近一般研究问题,但是其结果的解读更复杂,所以需要有对GLM模型比较深入的理解,否则还是以回归分析或ANCOVA为准。

2009-09-05

为何不同模型的路径系数和拟合度相同?

Anonymous @ 2009-08-31:

老师您好! 我也刚开始尝试使用SEM做中介效应分析,看了您的几个相关帖子,受益匪浅。恕我愚钝,还有几个问题不明白,还望进一步指教。

1). 您在"如何检验两个中介变量的效应"的帖子中提到:中介效应需要满足三个或者四个条件,其中包括:X或Z(自变量)对Y(因变量)的间接影响大于其直接影响(即 γAX × βYA > βYX 或 γBZ × βYB > βYZ )。我不明白为什么一定要满足这个条件?如果是这样,是否意味着中介模型中间接效应都大于直接效应,或者说中介效应的比例大于50%。可我经常看到一些文献说,某某变量的中介效应比例为多少多少(低于50%),难道这是错误?

2). 最近我也做了一个中介效应的模型,概念模型类似于6月30日“如何在模型拟合度和模型合理性之间选择?”帖子中的模型。首先用软件跑了模型1,所有系数都显著,模型的拟合度也可接受;接着跑了模型2,结果是所有路径系数也都显著,模型也可接受。我不理解的问题是:a.两个模型不一样,为什么拟合度都可接受;b.两个模型种,W和Z到X的路径系数尽然完全一样,模型都不一样了,怎么路径系数还会相同?其中,X到Y的系数,模型2要比模型1小?C.模型2中,数据显示 βwx * βxy < βwy ,请问这还存在中介效应吗?

不好意思,一下子问了好多问题,也许许多问题还非常初级,见笑了。不慎感激!

庄主 @ 2009-09-05:

1). 为了理解你的问题,我重读了一项原文,发现其中的直接影响符号写错了(现已改正),应该是γYX和γYZ或而不应该是βYX和βYZ(图中的符号是对的)。也就是说,你问题中提到的为何“γAX × βYA > βYX 或 γBZ × βYB > βYZ” 应该是“γAX × βYA > γYX 或 γBZ × βYB > γYZ"。(当然,你对原文的理解没有错。)

我在原文中说过,严格的中介效应模型要求直接影响(即γYX 或 γYZ)彻底消失。这时,间接影响(γAX × βYA或 γBZ × βYB)自然大于直接影响。如果直接影响不等于0但小于间接影响,那么可以认为这是一种让步或妥协的微弱版(weak version)。如果再推一步,直接影响不但不等于0而且大于间接影响,那么直接影响是主流或中心路径(central route)、间接影响只是支流或边缘路径(peripheral route),那么中介效应的原始意义就大大打折扣了。这是一个理论问题、不是纯粹的统计问题(意思是,间接影响还存在,但没有必要强调其涉及的“mediation process”了)。

我还没看到过你提到的"中介效应的比例大于50%",是指间接影响的值至少为直接影响的值的一半吗?如果这样,那是对上述微弱版的进一步弱化。

2a). 你的两个模型不同(模型2多了四个系数、少了四个自由度)、但拟合度都可以接受的现象很正常和普遍,因为各自检验的零假设相同,都是模型与数据之间没有显著差别。但是,你还要检验一个零假设,就是两个模型的拟合度之间没有显著差别:如果两者确无差别(即由于增加了间接影响而提高的误拟合度被损失了的自由度所抵消了),则说明间接影响(即中介效应)并不显著;反之则说明存在显著的间接影响(中介效应)。

2b). 你问“两个模型中,W和Z到X的路径系数尽然完全一样,模型都不一样了,怎么路径系数还会相同?”其中的W从何而来?估计你将我另一帖了的符号(其中也许W和Z是自变量、X是中介变量)混着用了。但是如果是这样的话,X不应出现在模型1.而你却说“X到Y的系数,模型2要比模型1小”相矛盾。难以理解。最简单的方法是提供两个表格,一是模型1的变量及其系数、二是模型2的变量及其系数。

2c). 你问的就是:当一个间接影响小于直接影响时,是否还有必要和价值讨论中介效应?我上面已经讨论过。按经典的定义和学术界的主流看法,至少是意义不大。

如何理解“中介性模型是一个因果模型"?

z @ 2009-08-31:

我的研究假设包含一个中介变量而我的数据来自一次性调查(one-shot survey),我用SEM分析,结果拟合的很好。但审稿人批评说,虽然模型拟合了,但并没有证明该模型的因果关系,如自变量先于中介变量、中介变量又先于因变量。

我在“中介关系之父”David Kenny的网上(http://davidakenny.net/cm/mediate.htm)读到一句话“a moderational model is a causal model”(“中介性模型是一个因果模型”)。是否可以用来为自己辩护?

庄主 @ 2009-09-05:

恕我直言,你对Kenny的理解,可以说是典型的断章取义。以下是他原话的完整段落:

“Note that a mediational model is a causal model. For example, the mediator is presumed to cause the outcome and not vice versa.  If the presumed model is not correct, the results from the mediational analysis are of little value.  Mediation is not defined statistically; rather statistics can be used to evaluate a presumed mediational model.  The reader should consult the section below on  Specification Error.” (“中介性模型是一个因果模型。例如,假定中介变量影响因变量而不是反过来。如果这种前提假定并不成立,那么中介分析的结果就是毫无价值的。中介影响不能通过统计分析来证明,统计分析只能用来检验以中介性为前提的模型。读者应该参考以下有关模型设定中的错误。”)

相信你一定学过因果关系的三项条件:自变量和因变量之间具有相关性;两者的产生又有先后之别;不存在导致这种因果关系的其它变量。在中介性模型中,这三项条件需要扩展一下:自变量(X)和中介变量(M)之间、中介变量和因变量(Y)之间各有相关性;三者之间的产生又各有先后之别(X->M和M->Y);不存在导致这种因果链(X->M->Y)关系的其它变量。

Kenny的话指的是在上述条件二存在的前提下,SEM或其它统计分析方法可以检验条件一(甚至条件三,如果你的模型中包括了“一切可能的第三者”)的合理性。如果条件二不存在(如一次性调查数据)的话,拟合得再好的SEM也只证明了X和M之间以及M和Y之间的相关、并没有证明X->M->Y的先后次序。也就是说,哪怕X和M以及M和Y各自高度相关,三者之间的因果链还有X->Y->M、M->X->Y、M->Y->X、Y->M->X、Y->X->M等五种其它可能性!

如果你继续读一下Kenny有关“模型设定中的错误”一节的话,就会知道他在那段的开始还在强调上述(我演绎)的思想:

“Mediation is a hypothesis about a causal network.  …  The conclusions from a mediation analysis are valid only if the causal assumptions are valid.”(“中介影响是一种有关因果网络的假设。 … 中介分析的结论只有在有关因果条件存在之下才能是正确的。”)

还是那句老话,变量之间的因果次序是由数据的采集过程来决定的、而不是由统计分析(包括SEM)来决定的。

2009-08-30

如何在EViews或Stata里计算Finsher转化值?

旭 @ 2009-07-23:

祝老师您好!我是一个学经济学的学生,目前正在做毕业论文,是关于跨国GDP与消费之间相互关系的研究。看了您的“如何检验两个相关系数的差别?”一文,感觉受益匪浅,帮助很大。因为这就是我要做的东西:把各国之间GDP与消费增长率的相关系数算出来,然后把对应的GDP与消费增长率的相关系数(如中美之间GDP增长率的相关系数和中美之间消费增长率的相关系数)做费雪转化,求出Z值看他们之间的区别显不显著。在文章里您给出来算费雪Z值的一个EXCEL公式,可以算出结果。但是我的导师说EXCEL不是一个ACCEPTABLE统计软件,让我用EVIEWS或者STATA软件做这个结果,想请教下您,能不能在这两个软件里做上述分析结果呢?如果可以,该怎么做呢?

庄主 @ 2009-08-30:

任何软件只要其公式一样,结果应该是一样的,不存在高贵低贱之分。我曾说过,SPSS是傻瓜机而Excel是智能机,因为前者一般只报告计算结果而不显示计算步骤,而Excel是让你自己一步一步算出结果。就这意义上说,其它统计软件(包括EViews、Stata、SAS等)也是傻瓜机。当然,就本案的如何计算Fisher z-transformation而言,我在原文中教大家的是直接套用Excel提供的函数FISHER(),那也是一个傻瓜工具。但你也可以根据我原文中的公式

 

写出如下的Excel计算公式:=0.5*LN((1+A2)/(1-A2))

注,其中“A2”是你的相关系所在格。你也可以先用函数求、再用手工来验证。难道这样的结果还不acceptable?

如果一定要用高贵的EViews、Stata或其它软件来计算,道理一样。首先,你要建一个新文件,将你的相关系数作为一个变量放到一个column里,然后写一句类似上述Excel公式的指令,如

F = 0.5*LN((1+R)/(1-R))

其中F是转换后的值,R是原始相关系数。我手头没有EViews和Stata的手册,不知它们是有LN还是其它符号来代表自然对数函数。

再次呼吁:同学们大家起来,不要做统计软件的奴隶!

如何解读一个交互影响显著而简单斜率不显著的回归模型?

Anonymous @ 2009-07-30:

Hi, Dr ZHU, I may want introduce myself first, I am a Phd Candidate from your university majoring in xxx (EDITED BY 庄主). I find your forum by accident and I have read some reviews on it, I really feel it is a good place to know more statistics knowledge.

I want to ask one question about the interaction effects of two independent variables (or we may also can say the moderating effect of one independent variable and one moderator, I may name them "A" and "B") on one dependent variable (I may name it "C"). I first use the traditional method, OLS- multiple linear regression in SPSS to run the produced term A*B's effect on C, I got a significant result, the T value is around 2.2 thus the P<0.05.

Then I further explore the internal mechanism of the interaction effect by using Cohen and Cohen (1983), Aiken and West (1991) and Dawson and Richter’s (2006) Simple Slopes Test [this method is designed for interpretation of the interaction effects of two continuous predictor variables, by this way one could interpret the significance level of the causal relationships between independent variable and dependent variable under high or low level of the moderator. To illustrate and test the significant interaction effects, separate regression lines were computed, plotted, and tested with one standard deviation below the mean on the moderating variables as well as one standard deviation above the mean of them.], this time I find the causal relationship between A and C is insignificant both under high B and low B level, in fact the coefficients take the opposite direction. Under high B level the coefficient between A and C is negative but insignificant, under low B level the coefficient between A and C is positive but insignificant.

I originally explain the significant moderating effect is: although under both high and low B level the causal relationship between A and C is insignificant, but because of the opposite coefficient, thus the moderating effect (A*B) may still be significant. But current one famous professor rejected my explanation; he told me that the results were inconsistent: 1. from one side, the moderating effect is insignificant. 2. form the other side, both under high and low B level, the causal relationship between A and C is insignificant thus can be treated as no relationship. How can you say them taking moderating effect first and later told us the effects were equal (A and C have no relationship) under both conditions (high and low B level)? Thus I am a little confused, as you know, in many cases, run the linear regression will meet such question as I described, so commonly how can we explain this phenomenon to cope with the journal reviewers' critique on this issue?

Many thanks!

庄主 @ 2009-08-29:

Thanks for the detailed explanations of your question.  It’s satisfying to know that someone of my own institution also reads this blog. Sorry for the delayed response as I’ve been traveling in the summer. To benefit other readers who might not be efficient in English, please allow me to reply in Chinese.

先简单回顾一下你的问题。你有模型1

C = b0 + b1A + b2B + b3AB                       (1)

其中A、B和C都是定距变量。你用OLS回归检验,发现b3(还是b1或b2?)的t值 = 2.2 (p < 0.05),即AB对C有显著的交互影响。为了进一步理解这种交互关系的“内在机制”,你采用了Cohen & Cohen等推荐的“简单斜率检验法”(test of simple regression slope),即根据模型1的结果,将B的均值±1个标准差的值(分别记为BH和BL)代人模型1,来算出以下两个简单回归模型的斜率:

C = b0 + b1A + b2BL+ b3ABL = (b0 + b2BL) + (b1+ b3BL)A             (2)

C = b0 + b1A + b2BH+ b3ABH = (b0 + b2BH) + (b1+ b3BH)A           (3)

说明:因为BH和BL均是一个常数(而原来的B是一个变量),所以它们代入模型1后而得到的模型2和3,经过整理以后,都成为只含自变量A的一元(或简单)回归模型,而模型2中的b1+ b3BL和模型3中的b1+ b3BH就是你说的的简单斜率(就是我用蓝色标明的部分)。这时,你发现模型2的简单斜率b1+ b3BL成了负值而模型3的简单斜率b1+ b3BH仍是正值。你进一步对这两个斜率作了显著检验,发现两者均不显著。你的结论是“虽然A在调节变量B的不同条件下对C都没有显著影响,但是A和B的显著交互影响仍然存在”。但是,一位著名教授不同意你的说法,理由是:一、你的交互影响不显著(我不理解这句话,因为它与你说的模型1中的t = 2.2有矛盾);二、A在B的不同条件下对C的影响都不显著。(不知我的上述理解是否有误?)

好了,现在谈谈我的看法。

首先,我有两处不清楚:一、如我已在上面问过,模型1中显著的是b3还是其它系数?二、你还没有提到,模型1中的A、B和AB是否为各自的centered values(“取中值”,以避免或降低AB与A、AB与C之间的相关程度)?鉴于你已读过Cohen & Cohen, Aiken & West等经典文献,应该熟悉检验交互影响的基本步骤,所以我的回答是基于以下假定的:一、你说的模型1中t = 2.2的显著系数是b3;二、模型1中AB与A、AB与C之间并不相关(这点很重要,不然、假定一是没有意义的)。

如果上述两个条件成立,那么你的A和B在样本中对C就是确实具有显著的交互影响。当然,因为你的t值接近临界值(1.96或更大),AB的交互影响应该是marginal(相当勉强)的,所以要审慎对待,至少要检查一下A的数据中是否存在异常值;如有异常值,则需要剔除后再次检验模型1,看看AB的影响是否继续保持显著,已确保该模型的robustness(“鲁棒性”)。

你的主要困惑(也是你教授理由之二)在于:为什么在模型1的b3显著的前提之下,模型2和3的斜率不显著?这里存在一个许多教科书上没有明确解释、但初学者往往容易误解的事实,即AB之间的显著交互关系只是说明自变量(A)对因变量(C)的主影响(main effects)将随着调节变量(B)的取值而变化,但并不保证在B的不同取值上A的所有主影响都是显著的(但至少有一个取值上A的主影响是显著的,否则AB不可能显著)。用英语说,A significant interaction effect ensures not only the main effect of an independent variable on a dependent variable varies across different levels of a moderator variable, but also at least one of the main effects is significantly different from zero. However, the significant interaction doesn’t guarantee all main effects of the independent variable on the dependent variable to differ significantly from zero. 我们很容易用以下的图示来说明这个道理。

image

左图是我随手画的,其中有五条回归线,但都是根据同一模型(如你的模型1)而取B的最大值(Max)、最小值(Min)、均值(Mean)、均值减一个标准差(你的模型2)、均值加一个标准差(你的模型3)而画出的。虽然没有实际数据,但可以大致猜出五条回归线所依据的模型1的b1和b3的取值范围,即b1(即A的总斜率)应该等于0,b3(即AB的交互影响)则明显大于0(因为A对C的影响是放射的、即随着B的增加而增加)。当然,我们并不知道(也无必要知道)b0和b2的取值范围,因为它们与本案毫无关系。

图中B=均值的回归线显然是一条水平线,所以是不显著的(即斜率等于0)。而B=均值加/减标准差的两条线,虽然并非水平线,但也很接近,考虑到各自的抽样误差(注意,不要与标准差相混淆了)而其斜率与0没有显著差别(也许你的数据就是这种情况)。但是,B=极大值/极小值的两条线的斜率显然不等于0。如果我们再添加B=均值+/-2个标准差的两条线,可以想象它们的斜率也会不等于0。结论:当A和B对C有显著影响时,A对C的影响随着在B的取值而变化,有些显著而有些可能不显著。

以上是直观的解释。我们还需要略正规一点地总结一下。回到模型2和3,注意其中的蓝色部分(即各自的斜率)。它们是否=0,是由下述公式来检验的:

image

 

 

image

其中Varb1和Varb2分别是b12的方差、Covb1b3是b12的协方差。我们略过如何计算系数的方差和协方差的技术细节,而来看一下如何使得tL和tH达到显著水平(即大于2)。不言而喻的是分子要大而分母要小。就分子而言,从表面上看b1、b3和BH或BL三者均要越大越好,但更重要的是要三者取同样方向,否则会互相抵消(这不容易做到,尤其是当数据经过中心化处理之后,BL一定是负的,而b1或b3的方向也会因A或B的中心化而与原始数据的方向相反)。而且,调节变量的取值(BL或BH)也不是越大越好,因为同时也会扩大分母。结论:tL和tH的取值受到很多正反因素的影响,很难做到永远显著。但是,这与b1是否显著没有一一对应关系。

最后,你问如何使得期刊的reviewers接受你的解释。是的,有些(如果我用“很多”的话,大家可能会觉得我太狂妄,但是事实上“有些”不是一个小数目)reviewers也会将交互影响等同于主影响,所以你不仅要自己弄得很清楚,而且要说得很明白易懂,这时,公式和图表就是必要的辅助工具了。如何写好交互影响的报告,确是一个挑战。多读几遍Cohen & Cohen吧(他们的第三版就邀Aiken和West加盟合写了)。

2009-08-22

给SSCI期刊投稿应该先投后改还是先改后投?

P @ 2009-08-20:

您怎么看下面两位SCI/SSCI期刊审稿人的对话?有人也建议过我先送出去审,拿到意见再修改。

甲:投稿又撤稿,特别是给出修改建议之后再撤稿,有点不厚道。我遇到很多次,写的审稿意见不比文章短,从字词到如何布局,那些内容如何做,都写到审稿意见里。善意地给了revise & resubmit的意见。实际上,按照标准,reject一句话就是了。可是,过几个月后发现发表在另外一个杂志上。这种做法可以理解,但是不厚道,至少应该想办法感谢审稿人。

乙:我审稿也通常善意地给revise & resubmit的意见,很累,有些投稿者把审稿人当成论文加工把关人,不厚道。于是也慢慢的拒绝审一些稿件,或者直接reject。

庄主 @ 2009-08-22:

我看了之后的第一个感觉就是我们有些同胞真聪明,知道如何玩这个游戏!但是事实上,将草草急就章的文章投出去,往往拿不到什么真正有价值的反馈。上面乙某说的就是一例。我亦是如此。刚开始做审稿人时,不分良莠,每篇文章都写较详尽的修改意见。记得最多一次密密麻麻用单行写了5页,应该有3000字吧(但跟别人相比,还不算很长,下面引述的研究中最长的意见有6000多字呢)。但后来慢慢地就变得区别对待了,仍然愿意给“好”文章(不仅理论和方法好,而且写得通顺)提建设性意见、而对“差”文章(或者理论/方法差,或者写作差、包括完全不顾APA style规则的,),则草草几句“锯”了。

Seven Sins

前不久读了Russell Neuman等人在JOC上发表的“传播研究中的七宗罪”一文,得知上述乙某和我的做法确实是大部分审稿人的习惯。Newman等分析了JOC的审稿人给100余篇投稿(包括采纳和拒绝的)写的具体意见,其中表四(见左)的数据展现的是审稿人对每篇来稿定的“罪名”数目。粗粗一看,被拒绝的稿件(白条)的罪名数少于被发表的稿件(黑条),如被发表的文章每篇平均有16条“表述不清”的罪名而被拒绝的文章每篇则有7条此类罪名。但是,这并不说明被拒的文章写得更好。恰恰相反,那些文字是too bad to be rescued(朽木不可雕),审稿人懒得多费心思。

Neuman等还做了一个多元回归分析,发现审稿人给每篇投稿写的意见长短是预测该文是否被采纳的重要指标之一。具体而言,意见每多1000字,有关文章的发表率就提高9%!所以,当你收到投稿的反馈时,如果是数十的批评,应该暗暗庆幸,该文很有希望。

以下是Neuman等的原文(下划线是我加的):

“We find a dramatically larger number of negative comments on average for accepted papers, especially on the dimensions of clarity, methodology, and completeness. On closer examination, it turns out to make sense in terms of the psychology of the hard-working volunteers called upon to provide the reviews. If the overall importance and theoretical integration of a submission is weak, the reviewers simply do not bother to spend a lot of time with constructive but negative comments on such things as clarifying an argument and strengthening the methodological presentation. On papers likely to be published, reviewers may go to greater length to indicate how the authors might be more complete and clear in their presentation.” (p. 229)

“This appears to be the academic journal review equivalent to the hoped-for thick envelope from a favored college to which one has applied—the more the reviewers say, positive and negative, the more interest in the submitted paper. So we examined the cross-tabulation of the total number of reviewer words and the likelihood of publication and ran a rudimentary linear least squares and determined that roughly for every additional 1,000 words of reviewer comments (including all dimensions), one’s chance of acceptance increases approximately 9%.” (p. 229).

Reference

Neuman, W. R., Davidson, W., Joo, S. H., Park, Y. J., & Williams, A. E. (2008). The seven deadly sins of communication research. Journal of Communication, 58, 220–237.

2009-08-20

如何解读这个调查报告?

ANY @ 2009-08-19:

今年XX单位做了一个YY方面的调查,报告出炉后争议很大。我呢,虽没参与争议之中,因专业之故,很是关注。就我个人意见,我非常不理研究者组使用RDD法抽取了647人来代表全体北京人口,给各媒体排名。我极其质疑它使用的抽样技术。我认为非概率抽样中的配额抽样可能更适合做这个调查。

庄主 @ 2009-08-20 答: 我没看到那个报告。请进一步说明清楚,你质疑的是样本量太小、还是RDD(随机电话号码抽样)原则、或者其它问题?

你建议用配额抽样,我可以肯定地说配额抽样一定不适合。

ANY问:

我首先质疑的是调查组的抽样方法。我和研究者联系,希望得到更多细节,比如是随机拨号法,还是集群拨号法,但无法得到。 刚巧收到了回复,说:“抽样方法采用的是RDD,先通过不等概抽样(pps)确定前面四位局号,后面四位是随机选号(北京电话号码是8位),抽样是座机。”在此之前的争议中,有人怀疑的是647个样本来代表2000多万北京人的代表性。

庄主答:

你的怀疑和批判精神值得提倡。当然,如果对抽样基本原理有比较清楚的理解,则可以避免在怀疑和批判时犯常识性错误。

第一、样本大小涉及的是调查结果的精确度问题、而与代表性无关。样本越大、结果越精确,反之亦然。精确度有公式可以计算,即抽样误差。当N = 647而可信度 = 95%时,抽样误差 = ±3.8%。这个精确度是否足够?答案取决于具体的研究问题。如果被排序的两个媒体之间相差8%或更大,那么它们的高低是可靠的;反之则不然。

第二、抽样误差与总体大小无关。所以无论北京人口是2千万还是2亿,样本为647的抽样误差大小是不变的。

第三、样本的代表性取决于抽样是否随机、而与样本大小无关。如果一个非随机样本N=10000,虽然其抽样误差 < ±1.0%,但仍然没有代表性。一个没有代表性的大样本比一个精确度低的小样本更无价值。

ANY问:如果是抽取座机号码的话,我现在也高度怀疑样本的代表性。因为有很多在北京的人,终其一生不用座机。据经验推测的话,许多有北京户口的人也不见得使用座机。而上一次人口普查是把大量北漂计入了北京人口的。把大量无座机电话的人排除在总体之外,这意味着什么呢?而这是为什么我觉得配额抽样更好的缘故。

庄主答:

同意。如果上述调查的RDD是严格执行的话,那么其代表的是北京有座机的家庭人口。也就是说,该调查的Study Population(研究总体)是北京有座机的家庭人口、而不是北京所有家庭人口。研究者在报告时应该说明这一点。当然,研究总体限于“北京有座机的家庭人口”的一个调查是否有价值,即取决于其与北京所有家庭人口之比(你知道到底有多少人被排除之外的吗?)、也取决于研究目的。如果有关媒体(或广告商)更关心有座机家庭人口,那么也是无可非议的。商业调查毕竟不是民意测量。

配额抽样不是随机抽样,调查结果毫无价值。现在考考你:为什么配额不是随机抽样?

ANY问:

研究者用盖洛普1932年用1000个样本代表美国人预测了总统选举来证明其647人样本有代表性。我觉得这是个外行的支持。

庄主答:

你觉得我上面的回答是否已经解决了这个问题?如无,我再啰嗦几句。

ANY问:

问卷是看不到的。我个人看法,即使是RDD法,考虑分众化和个人媒介使用的多样性,问卷设计应当是一套很复杂的问卷。

庄主答:

抽样、问卷设计和调查(即问答过程)代表了每项调查的三个主要误差来源:抽样误差、工具误差和测量误差。每一项都要小心处理,并应在报告(或技术附件中)详细透露。如抽样方法、问卷原文、调查过程(尤其是最后一步的个人是如何被抽取的),以便读者对其研究结果的质量作出自己的判断。

ANY问:

我的问题纯出于专业上的兴趣。我非常想弄清楚这个问题。再次感谢您!

庄主答:

我是出于同样的原因而回答你的问题。

2009-08-02

如何在SPSS里删除重复ID的个案?

L @ 2009-08-01:

如果在SPSS数据库里有一个变量是对case的编号,现在有可能某些case 是重复出现的,我想要将重复出现的case只保留一个,其余重复则删除掉,怎么完成这个任务?(除了手动的以外。)

庄主 @ 2009-08-02:

SPSS13版或之后的Data菜单下有一个“Identifying Duplicate Cases”的程序,应该可以解决你的问题。但我没有用过那个程序,而是用下述的syntax写一个程序来做,自己写的程序放心一点,不会错杀无辜的个案。(注:以下syntax其中的“ROW”和“ROW2”是两个临时变量,事后可以删去。如果你case的编号变量名不叫“ID”,请修改ID。)

sort cases by ID.
compute ROW=$casenum.
aggregate outfile 'c:\temp.sav'/break ID/ROW2=first(ROW).
match files file */table 'c:\temp.sav'/by ID.
select if ROW=ROW2.
delete variable ROW ROW2.
exe.

强烈建议你运行前,请先用下述模拟数据试一下,以检验上述程序是否对(即没有放过任何需要删的个案、也没有错删任何需要保留的个案)。

input program.
loop #i=1 to 10.
loop #j=1 to 3.
compute ID=#i.
end case.
end loop.
end loop.
end file.
end input program.
sort cases by ID.
compute ROW=$casenum.
aggregate outfile 'c:\temp.sav'/break ID/ROW2=first(ROW).
match files file */table 'c:\temp.sav'/by ID.
select if ROW=ROW2.
delete variable ROW ROW2.
exe.

数据a 数据b 数据c 数据d
image image image image

上述syntax的第1-11句生成一个含有两个变量(ID和ROW)、30个个案(其中仅10个独立个案,但每个个案重复3次)的数据(见下图数据a)。第12句将数据a中每三个重复个案中的第一条记录的ID和行序号ROW抽出来保存到临时文件temp.sav中(见数据b)。第13句将数据a和数据b合并成数据c。第14句将数据c中的ROW(即数据a中的行序号)与ROW2(即数据b中的每个个案第一行的行序号)相等者选出;也就是说,将ROW和ROW2不相等者(即每个个案的重复行)删除。最后,第15句将临时变量ROW和ROW2删除,结果就是你想要的数据d。

2009-07-19

为何回归系数这么小?

Anonymous @ 2009-07-15:

我在做一个简单的多因素回归,96个cases, 13 个自变量。 回归结果显示全部coefficients 小于0.005, 其中部分变量p值显著。为什么会这样?这个结果该如何改善或解释呢?急,多谢!

庄主 @ 2009-07-19:

这个问题的答案较简单。如果你说是非标准化回归系数,则反映出你的自变量取值很大或因变量取值很小;如果你说的是标准化回归系数,则反映出你的样本很大(但实际上你的n = 96)或自变量之间有共线性。这两种情况的本质不同,需要分别简述。

非标准化系数

其定义为 the exact amount of change in the dependent variable as the independent variable goes up by one unit when other independent variables are held constant(恕我不翻,我觉得任何中译都不够原文明了精确)。这里的"exact amount of change”的单位,是由自变量和因变量的测量单位决定。假定你的一个自变量自变量是年龄,而因变量是身高,样本为青少年(12-17岁),如果年龄以年为单位,身高以厘米为单位,非标准化系数 =  10,则说明在这段年龄中,每增加1岁,身高长10公分。但是如果年龄以天为单位,其非标准化系数则 = 0.027(=10/365)。相反,如果年龄以岁为单位,身高以毫米为单位,其系数 = 100 (=10x10),等等。你可以变换两者的各种取值单位,可以得到小到5-6位小数、大到5-6位整数的系数,但其相关程度永远是一样的。希望你能够因此而举一反三,得出如果解释你的结果之方法。

标准化系数

其定义为the exact amount of change in the standardized dependent variable as the independent variable goes up by one standardized unit when other independent variables are held constant(只是多了standardized一词)。这时,无论自变量或因变量取何单位,其系数的值不会变化。如果标准化系数 = 0.005,反映的则是一种很弱的相关关系。为什么还会显著?上面已提到,原因一为样本(巨)大,这时该关系虽然有统计显著意义、但缺乏实际(即理论)意义;原因二是(部分)自变量之间高度相关,导致(部分)系数的标准误差人为变小而达到统计显著,这种结果更有误导之效。你的数据是小样本而多变量,更容易发生第二种情况。一般说来,每个自变量需要有30左右的个案。你有13个自变量,需要400个案。如果只有96个案,则只能用3个左右变量(可以讲高度相关的自变量组成因子来减少自变量个数)。

2009-06-30

如何在模型拟合度和模型合理性之间选择?

hz @ 2009-06-25: 我对四个变量之间的关系做了SEM检验,从拟合指数看第一个模型略优于第二个模型;两个模型路径系数显著性如图所示,实线代表通过显著检验,虚线代表没有。你觉得四个变量之间的关系应该如何解释比较好?

image

庄主 @ 2009-06-30:

从逻辑上说,模型2是合理的、而模型1是有问题的,因为模型1没有检验W和Z对YL的直接影响,而只是假定X是前两者的中介变量。

从实证结果(比较模型1和模型2)来看,Z对Y有直接影响、而X即不是一个中介变量、甚至也不是一个对Y有影响的自变量。这些发现,说明模型1中的X -> Y的显著影响其实是一个由于遗落了Z这个“第三者”而造成的 spurious(虚假)关系。

你提到,模型2的拟合度不如模型1。这是因为模型2比模型1多用了2个自由度。如果去掉W –> Y 和X –>Y这两对不显著的关系之后,两个模型的拟合度应该相似。但是,其实没有必要节省这2个自由度。如果少了2个自由度而使得原先可以拟合(即p > 0.05)的模型变成不可拟合(p < 0.05),说明你的样本太小,原先可以拟合的模型也是在边缘线上挣扎。

我们检验模型拟合度的目的是看该理论模型与实证数据之间的差别是否小到可以接受的程度、而不是追求模型的最佳拟合度。其实后者很容易通过其它不值得提倡的方法来做到(参见我前些日子的有关帖子)。

2009-06-27

如何在SEM中处理dummy变量和显示R平方?

月出 @ 2009-06-09:

祝老师,您好!您的伯克真的很好,blogspot我一直登不上。我初学LISREL,有几个问题想请教您:

1、虚拟变量在SEM中一样用0、1处理吗?我在原先运行得出的模型里加入了性别变量,但就显示

W_A_R_N_I_N_G: PHI is not positive definite
W_A_R_N_I_N_G: PSI is not positive definite
W_A_R_N_I_N_G: The solution was found non-admissible after  50 iterations. The following solution is preliminary and is provided only for the purpose of tracing the source of the problem. Setting AD> 50 or AD=OFF may solve the problem. 这是怎么回事?

2、子模型原先得出的变量之间的关系为什么进入母模型后显著性发生变化?路径系数的正负也反了?正常吗?怎么解释?比方说总风险和各类风险之间本来是这么个关系,加入信任置于总风险前,总风险和各类风险之间的关系就变化了。可能有什么问题存在吗?

3、我怎么在LISREL中显示可决系数R平方阿?

庄主 @ 2009-06-27:

1、SEM中可以包括虚拟变量(dummy variables)。一般是先用LISREL中的PRELIS工具将含虚拟变量的相关系数矩阵转化成tetrachoric correlation矩阵(参见http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm),然后再进行分析。

你得到的出错信息由很多种原因造成,可能是你模型的设置有问题(如性别要factor loading = 1、factory error = 0)、也许是性别与某些其它观测变量之间的高度相关、等等,很难一下子知道是什么原因。如果用了上述转化矩阵,仍有类似问题,那么更有可能是模型设置的问题。

2、子模型的关系进入母模型之后显著性出现变化是常见的、但是如果系数方向也反了,说明母模型中含有一个disorter的第三者变量(具体参见我前些日子的有关帖子)。你也可以将先后两个模型的系数用表格的形式贴出来给大家看看。

3、LISREL将R平方叫做 Sqaured Multiple Correlations (SMC)。如果你是用SIMPLIS,需要加一句“LISREL OUTPUT EF“ 来显示。需要尤其注意的是,LISRE同时给出计算Structural Form 和 Reduced Form两种结果,前者中的SMC是错的,要看后者。(具体参见Joreskog的文章 What is the interpretation of R2?)

2009-06-20

如何处理Power-law(幂率)分布的数据?

Anonymous @ 2009-06-11:

祝老师:您好!看了您关于“如何在SPSS中做数据正态转化”的帖子受益匪浅。 我做的研究是关于web 2.0 的,所以数据来源都是secondary source,有很多变量的分布都是power law的形式,其中有的自变量数据有点类似count variable(0值有意义,非missing value)占了很大的比例。想就数据转化继续请教您两个问题:

1。比如两个自变量IV1和IV2都是高度偏态,在对其进行对数变换后转化为正态。但是IV1和IV2可能对因变量DV存在交互影响, 那么在检测交互影响的时候interaction term是应该用lnIV1*lnIV2么?因为这里有个疑问是lnIV1+lnIV2=ln(IV1*IV2),如果lnIV1和lnIV2进入后R Squared Change显著的话是不是就代表已经存在交互影响了么?还需要继续进入lnIV1*lnIV2么?对这个问题我感觉有点钻到牛角尖里了,想了很久都不太清楚?

2。另外是关于前面0值太多的自变量 (单峰非正态),有点类似于medical research里面的account variable,0代表没发生,但他们是自变量,而不是因变量, 所以感觉不能用Logistic回归。 我试着用了log之类的转换, 很难变成正态分布,目前我将其转换成了dummy variable 0 和1做了一个model,然后再选择所有不为0的obsevation做了一个model,但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢?

庄主 @ 2009-06-20:

问题一较简单:交互影响模型中的自变量是否可以取对数?答案是肯定的。因为在你的模型 Y = b0 + b1ln(IV1) + b2ln(IV2) + b3ln(IV1)ln(IV2) 中的右边前两项,即IV1和IV2各有一个回归系数b1和b2,所以它们不会被约简为另一个b3ln(IV1)ln(IV2) 。

同理,模型右边第三项 b3ln(IV1)ln(IV2) 简约后成为 b3 (IV1 + IV2),也不等同于前两项 b1ln(IV1) + b2ln(IV2)。当然,第三项的变量 (IV1 + IV2 中的联合分布比IV1和IV2原先的独立分布更加不对称,即更加偏离正态分布。但是,据我的理解,当你将 ln(IV1)ln(IV2) 输入OLS回归时,计算程序是将 ln(IV1)ln(IV2) 当做一个值处理而不会将它分析成IV1 + IV2的。

问题二很复杂:如何处理服从power-law(幂律)分布的数据?这种分布特征的数据,具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸(left-censored),而全部堆积在一起。也有人称其为 "floor effects” (“地板效应”)数据(如下图a)。初看,这些最小值(本例是1)堆起来不像是地板效应、而像 “ceiling effects”(“天花板”效应)。但如果将图a作90度旋转,就可以理解“地板”的意思。当然,这种分布的反面,即一组数据中有很多个无法更大的最大值(right-censored values),就是“天花板”了。

image

以上图a中的X,按三个不同的幂律值(1、2、4)而形成三种不同的“地板”分布(即P(X)=X-1、P(X)=X-2、和P(X)=X-4。具体说来,当幂律=-1时,X的最小值占了总体的19%;当幂律=-2时,X的最小值占了总体的61%;而当当幂律=-3时,X的最小值占了总体的92%!在经典的“正态分布世界”(the world of normal distribution) 里,我们都是用log来转换服从幂律分布的数据。以下图b就是对图a中的三组X用log转换以后的分布形状:

image

与图a相比,图b中的三种分布的形状不那么“地板”了,但是还远远不是正态分布的。如果将X的频数(即P(X))也作log转换,即得到一个单调递减的线性分布(图c):

image

图c也不是正态分布。但在“正态世界”里,线性分布是我们对付幂律数据的(相对)最好方法了;就是说,幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗?有,那就要离开正态世界而进入“变态世界”(the world of abnormality)、做一个研究“变态行为”的“变态学者”。“变态”这个字太刺眼。做“变态研究”的绝大多数是拘谨的物理学家,当然无法承受世俗的歧视,所以将变态世界叫做“复杂系统”(complex system)。我一开始说“这个问题很复杂”,意思就是“这是一个复杂世界的问题”。当然,复杂系统也不能点石为金,将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见A. Clauset, C.R. Shalizi, and M.E.J. Newman, "Power-law distributions in empirical data" SIAM Review, 2009)。

好了,别再继续问我变态世界的事,我刚刚开始接触他们的那些事,可能受正态世界的毒害太深,无论理智上或感情上都还没有入门。

回到你的实际问题,你可以试试以下几种方法:一、对X取log之后、再取log(当然,如果log(X)有非正值、需要先对其做线性转换成正值);二、将X转换成0-1值的dummy variable后直接进入模型(而不是用来分拆成两个模型);三、将X与其他相关的自变量合成新的变量;等等。注意,上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。