<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-37181493</id><updated>2011-12-16T18:31:37.822+08:00</updated><category term='SPSS Syntax'/><category term='抽样'/><category term='统计-固定样本'/><category term='统计-交互影响'/><category term='调查方法'/><category term='统计-中介变量'/><category term='统计-名目变量'/><category term='统计-时间序列'/><category term='杂项'/><category term='统计-多层分析'/><category term='统计-定序变量'/><category term='统计-协方差分析'/><category term='统计-SEM'/><category term='生存分析'/><category term='统计-Fisher转换'/><category term='传播理论：复杂系统'/><category term='传播理论'/><category term='统计-GLM'/><category term='研究生学习'/><category term='统计-显著性检验'/><category term='统计分析-回归'/><category term='统计-信度'/><category term='统计-ICC组内相关系数'/><category term='统计-软件比较'/><category term='统计-Logistic回归'/><category term='研究报告写作'/><category term='统计-测量指标'/><category term='数据整理：Power-law'/><category term='统计-被调节的中介关系'/><category term='统计-因子权重'/><category term='数据整理'/><category term='统计-测量误差'/><category term='统计-Excel'/><title type='text'>竹家庄</title><subtitle type='html'></subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>71</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-37181493.post-2201352489180231407</id><published>2020-02-02T02:02:00.000+08:00</published><updated>2009-02-28T11:53:35.949+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='杂项'/><title type='text'>庄规</title><content type='html'>&lt;p&gt;版权声明：一、本站庄主文章内容欢迎引用，但请注明出处。二、欲全文转载者，请在此留言，未获同意前不得转载。三、访客评论，版权归本站；如要保留版权者，请在评论中注明。&lt;/p&gt;&lt;p&gt;隐私声明：一、本站旨在推进知识分享，欢迎提问和答疑。二、访客在此提供的问题或答案，均被认为不含个人隐私、学术或商业机密。三、如通过email发给庄主的问题或答案，如有不宜公布的隐私或机密内容，请注明。否则将认为可以公开。&lt;/p&gt;&lt;p&gt;礼仪声明：一、本站提倡对话、讨论和磋商。二、欢迎不同意见、希望就事论是、反对人身攻击。三、如有与上述精神不合之评论，将部分删节或全部删除。&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-2201352489180231407?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/2201352489180231407/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=2201352489180231407' title='16 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2201352489180231407'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2201352489180231407'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/02/blog-post_8954.html' title='庄规'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>16</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5878608861965288094</id><published>2020-02-02T02:01:00.003+08:00</published><updated>2009-03-22T10:58:18.367+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='杂项'/><title type='text'>Message Board 留言板</title><content type='html'>&lt;p&gt;大家可在此贴中提问和建议；如涉及某一特定贴子，请在该贴中发言。&lt;/p&gt;&lt;p&gt;由于各学科的传统、术语、符号等各不相同，请提问时交代一下你的学科，以帮助我理解问题的来龙去脉。&lt;/p&gt;&lt;p&gt;本站自2009年1月启用。2005-06年的帖子见&lt;a href="http://zjz06.ycool.com/"&gt;http://zjz06.ycool.com/&lt;/a&gt;，2007年以后的帖子也同时发在&lt;a href="http://zjz06.spaces.live.com/"&gt;http://zjz06.spaces.live.com/&lt;/a&gt;。如有问题，可先查一下上述网站的旧帖。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5878608861965288094?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5878608861965288094/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5878608861965288094' title='74 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5878608861965288094'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5878608861965288094'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/02/message-board.html' title='Message Board 留言板'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>74</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-491453615267573780</id><published>2011-10-01T20:40:00.001+08:00</published><updated>2011-10-01T20:40:06.419+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='生存分析'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-名目变量'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-Logistic回归'/><title type='text'>是否应该使用生存分析？</title><content type='html'>&lt;p&gt;tylechu @ 2011-09-23:&lt;/p&gt;  &lt;p&gt;我目前正利用SPSS研究某种元器件的使用寿命(Y)，考察X1-X5对Y的影响规律。为此，我搜集了共1050组数据。初步考察可知，Y不服从正态分布，频数分布图显示其更接近指数分布，但由于在Y=9这一点频数明显高于左右时段，指数分布不成立。&lt;/p&gt;  &lt;p&gt;自变量的情况是：X1,X3,X5是定类变量，均为2水平；X4是定序变量，3水平；X2是连续变量，其分布也不满足正态分布，也可以选择将其处理成定序变量，4水平。&lt;/p&gt;  &lt;p&gt;我有这样一些问题请您帮忙解答：&lt;/p&gt;  &lt;p&gt;1．所有数据是准确无误的，除一个观察的X1缺失外均完整。请问在这种情况下是否需要剔除异常值以排除干扰，使分析结果能够反应绝大部分数据的分布规律呢？比如对于X2，分布范围是16-40，但38-40之间只有少于5个观察，是否应予剔除？&lt;/p&gt;  &lt;p&gt;2．自变量各个水平间的样品数很不均匀，例如对于X1，两个水平间的样品量大约是1:9，这种情况可以将X1引入分析模型吗？还是需要将所有数据分成两组讨论？&lt;/p&gt;  &lt;p&gt;3．在考察期结束时，仍有部分元件正常使用。这样的案例是否必须使用生存分析的方法来研究？由于该元件的寿命是否超过1年对我的研究意义重大，而考察期结束时仍存活的元件已经超过1年，我是否可以为这部分元件统一指定一个时间（例如考察结束后一个月）为其失效时间，据此计算Y值，从而采用SPSS中的Regression/Binary Logistic过程或者Regression/Ordinal过程？&lt;/p&gt;  &lt;p&gt;4．我考虑选择的另外一种处理方法就是将所有变量都处理成分类变量，从而将全体数据视为列联表，采用Loglinear/Logit过程分析。但由于前面提到的自变量各个水平上样品数分布不均匀的问题，将会出现期望频数不满足要求的问题。这是否要求我必须将某些变量舍弃掉，还是在分析过程中采用为每个格子的频数增加一个小常量的方法即可？&lt;/p&gt;  &lt;p&gt;5．最后，能否再帮我明确一下对于Regression/Binary Logistic过程和Loglinear/Logit过程分析的前提是怎样的，对于自变量和因变量的要求是什么？很多书都没有提到这个问题，提到的也不是很明确甚至相互矛盾。&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-09-25:&lt;/p&gt;  &lt;p&gt;五个问题中，3最为重要，涉及到研究设计，我会答得详细一点；1、2和4有关数据预处理，而5则只是对一些概念的理解，请容我回答的简单一些。顺序上还是按你问题先后。&lt;/p&gt;  &lt;p&gt;1. 是否剔除outliers（异常值）？如果你确定所有观测值都“准确无误”，则应该全部保留。如你所说，X2不是正态分布。应该先对其做正态转换（如取log或根号等），然后看转换后的观测值是否都落在均值的正负3个标准差之内。&lt;/p&gt;  &lt;p&gt;2. 是否分拆成两个样本？X1不是binormal分布，说明该变量信息不多、价值不高。但如果因此将样本分拆成二，则等于认为该变量毫无信息。两害取其轻，还是保持原状（即分别取值为0和1的dummy variable）。&lt;/p&gt;  &lt;p&gt;3. 是否可以用Survival Analysis(生存分析)？是的，可以而且应该。本案中其实有两个不同的因变量：一是元器件的状态（合格与报废），是一个二项类别变量；二是元器件从启用到报废的时间长度，是一个定距变量。如果用回归分析，只涉及时长的因变量，而且对尚且合格产品的报废时间的估计也是有问题的。而如果用Logistic回归或下面提到的Loglinear或Logit分析，只涉及状态的因变量，而且假定了合格产品永远不会报废。两者都有缺陷。&lt;/p&gt;  &lt;p&gt;生存分析就是专门用来解决这类问题的。其因变量同时含有状态和时长。当然讲到底因变量还是时长，而状态的信息则被用来估算尚合格产品可能报废的时长，比起人为地假定一个报废时长要合适得多。你提到Y（即时长）基本符合指数分布，更进一步说明适合用生存分析。Y = 9时的偏差只会对模型的拟合度有些影响，但不会导致模型的misspecification（错误设置）。&lt;/p&gt;  &lt;p&gt;4. 是否可以用Loglinear或Logit分析？你说道，5个自变量的各组之间分布不均，会造成有些交叉组的个案数不足甚至缺失。这确是一个问题。对Loglinear分析说来，你的自变量（5个）太多。即使每个自变量的数据分布均匀，你共有2 x 2 x 3 x 2 x 2 x 2 = 96个交叉组，也即每个组的期望值为10。当然这还是理想状态。光从X1的1:9分布上就可以推测很多交叉组会出现0个案的。如要用Loglinear, 至少要将X1去掉。更重要的是，Loglinear无法将因变量的时间因素考虑进去，所以在本案中远不如生存分析有用。 &lt;/p&gt;  &lt;p&gt;5. Logistic回归、Loglinear分析、Logit分析的前提要求？三者的因变量都是类别或名目变量，更确切地说，它们的因变量描述的是出现或不出现某些事件的次数(counts)。其中&lt;/p&gt;  &lt;p&gt;经典的Binary Logistic回归只能处理二项类别的因变量，而Multinomial Logistic回归、Loglinear和Logit都可以处理任意个类别的因变量。理论上，它们对因变量各类别的分布并没有要求。但实际上，各类别之间的分布越均匀，信息越多，模型的拟合度越可能好；反之亦然。Loglinear与Logit的区别仅在于对因变量的定义：前者是logged frequency(发生频数的对数值)而后者是logged odds-ratio(发生与不发生频数之比率的对数值)。&lt;/p&gt;  &lt;p&gt;Logistic回归对自变量的要求与OLS回归分析相同。Loglinear只接受类别或名目变量作为自变量。同样，它对自变量各类别的分布没有要求，但实际上是分布越均匀越好。其实，Loglinear就是多维的卡方分析，所以卡方分析中的每交叉组至少需要5个观测个案的要求也同样适用。对于社会科学家来说，经常面临所有自变量和因变量均为类别变量的数据，Loglinear往往是唯一的选择。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-491453615267573780?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/491453615267573780/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=491453615267573780' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/491453615267573780'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/491453615267573780'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/10/blog-post.html' title='是否应该使用生存分析？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-2423926070182139816</id><published>2011-09-25T18:14:00.001+08:00</published><updated>2011-09-25T18:14:19.498+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-协方差分析'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-GLM'/><title type='text'>如何区分协方差分析与半偏差相关分析的差别？</title><content type='html'>&lt;p&gt;zshtom007 @ 2011-08-22:&lt;/p&gt;  &lt;p&gt;庄主你好，想请教下协方差分析（ANCOVA）和半偏相关分析（semi-partial correlation）的差异，谢谢！&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-08-23:&lt;/p&gt;  &lt;p&gt;ANCOVA是一种检验多个自变量（分别为定类水平和定距水平）对一个因变量（定距水平）影响的方法、其结果体现为一系列的F-值以及相应的df值、p-值；semi-partial correlation是在扣除了其他（定距水平）自变量的影响之后、一个自变量与一个因变量（均为定距水平）之间的相关系数（即一个统计量）。因此，两者不是直接可比的。请进一步说明你的变量或模型，以便我理解你到底想问什么？&lt;/p&gt;  &lt;p&gt;zshtom007 @ 2011-09-12:&lt;/p&gt;  &lt;p&gt;谢谢庄主回答。我想问的是，ANCOVA的思想是控制掉covariate对因变量的影响后，考察其它自变量对因变量的影响。可以有方差解释百分比的指标。而semi-partial correlation的思想也是控制掉某一自变量对因变量的影响后，求另外一个因变量和自变量的相关系数，也可有与以上方差解释百分比对应的r-square指标。&lt;/p&gt;  &lt;p&gt;我是想问着这种控制covariate的思想之间有什么差别？&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-09-24:&lt;/p&gt;  &lt;p&gt;终于明白你的问题。你问的其实就是ANOVA(Analysis of Variance，方差分析)与回归分析的异同。我曾在几个前贴里提到过，方差分析是心理学、教育学的主打武器，而后者则是社会学、政治学等学科的基本工具，但是两者的数学基础相同、估算结果也一样。&lt;/p&gt;  &lt;p&gt;不错，你问的是ANCOVA(Analysis of Covariance，协方差)，但它只是方差分析从只含定类水平的自变量到也容许定距水平的自变量（习惯上被叫为covariate或协变量）的扩展而已。经典的回归分析只含定距水平的自变量，但通过将定类变量转换成dummy或哑变量，回归分析也可以同时包含定距和定类的自变量。因此，协方差分析和回归分析所能解决的分析问题及其结构完全一样：检验一组定距或定类的自变量对一个定距水平的因变量的联合和独立影响。&lt;/p&gt;  &lt;p&gt;先说多个自变量对一个因变量的联合影响。这种影响在方差（或协方差）分析中是通过分解Sum of Squares（离差总和）的来源而实现的，即将离差总和分解成由自变量造成（组间离差）和由误差造成（组内离差）两部分，前者除以离差总和即为自变量的联合影响（即你说的“方差解释百分比”）。而在回归分析里，自变量的联合影响是直接通过回归模型的R&lt;sup&gt;2&lt;/sup&gt;来反映的，但事实上R&lt;sup&gt;2&lt;/sup&gt;也是通过计算被解释的离差除以总离差而得知的。所以，尽管方差分析与回归分析使用的术语不同，两者检验自变量的联合影响的方法及其结果是完全一样的。&lt;/p&gt;  &lt;p&gt;再说各个自变量对一个因变量的独立影响。你肯定知道，如果各个自变量之间没有任何相关关系（如控制实验的数据一般如此），那么它们对因变量的影响一定是独立的；而这些独立影响之和，就是上面讲的联合影响。但是，观测而得的自变量（包括实验中的协变量）之间通常是有相关关系的，所以就产生了在自变量之间存在相关关系的条件下，如何计算各自的独立影响的问题。可以说，这是数据分析中最常见也是最容易令人迷惑的问题之一。其纠结之处在于以如何扣除（即“控制”）其它自变量的干扰影响？方差分析和回归分析两个阵营内，各有好几种看法，区别都在于把哪些离差放进计算公式到分子里、哪些离差放进分母。我无意在此一一叙述，否则只会将大家弄得更加迷惑，而只讨论一下你提到的回归分析中的semipartial correlation（半偏差相关系数）。这是我知道的各种计算独立影响指标中最“干净”或最保守的指标。简单说来，它的平方值描述了因变量的离差中纯粹来自某自变量的部分（即既独立于该自变量与其它自变量的相关关系、也独立于该因变量与其它自变量的相关关系），因此，它的值小于任何其它相似指标（如partial correlation）。&lt;/p&gt;  &lt;p&gt;协方差分析一般会报告partial eta squared，它的根号值与回归中partial correlation相等，但与semipartial correlation有所不同。如果你需要知道后者，可以根据协方差分析的结果手工计算，当然更省事的方法是放到回归分析里去计算。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-2423926070182139816?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/2423926070182139816/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=2423926070182139816' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2423926070182139816'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2423926070182139816'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/09/blog-post_25.html' title='如何区分协方差分析与半偏差相关分析的差别？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3126391268192125145</id><published>2011-09-18T00:30:00.001+08:00</published><updated>2011-09-18T00:30:42.969+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-多层分析'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-固定样本'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何分析两个时点的固定样本数据？</title><content type='html'>&lt;p&gt;David M @ 2011-08-23:&lt;/p&gt;  &lt;p&gt;您好，我是XX大学管理学博士研究生，这次给您写信，主要是我在研究中遇到了一下问题和疑惑。先简单描述一下我的研究：样本是187个企业，在2004年和2008年分别收集了问卷数据；另外还从商业数据库中找到了上述企业中50个企业2004年-2009年的客观绩效数据。也就是说，对于问卷主观数据，我们只有两个时间点的数据；而对于客观绩效数据，我们则有6个时间点的数据，但是样本量只有50个左右（且每年的企业不完全一样，即个别年份有缺失值）。&lt;/p&gt;  &lt;p&gt;我的问题如下：&lt;/p&gt;  &lt;p&gt;1、如果我仅用问卷的主观数据，可以使用什么方法来检验自变量在两个时间点上的差异，以及两个时间点上自变量对因变量的影响的差异？（根据潜变量成长曲线分析的要求，要至少有3个时间点或以上；我几乎没有看到有处理两个时间点数据的有关文献，您可以推荐一些经典文献或案例吗？）&lt;/p&gt;  &lt;p&gt;2、如果我在自变量上使用两个时间点，而在因变量上使用6个时间点，可以使用潜变量成长曲线来分析吗？如果可以，应该怎么处理数据？如果不行，有什么好的建议吗？&lt;/p&gt;  &lt;p&gt;由于我刚接触纵向数据的处理，只是个初学者，而目前国内相关的研究还比较少，盼望您的回复！再次表示衷心的感谢！&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-09-18:&lt;/p&gt;  &lt;p&gt;1、你的问卷数据，是一个含两次测量的Panel Sample（固定样本）数据。柯惠新、祝建华、孙江华的《传播统计学》第15章“纵向关系研究”中的第4节专门介绍了固定样本数据分析的基本方法和相关案例。但该书现已脱销，不知贵校图书馆是否能够找到？&lt;/p&gt;  &lt;p&gt;在该节的15.4.2表中，我按因变量的测量水平和观测次数，分成三次情况讨论。这里只简单叙述一下第一种情况（我假定你的数据就是这种情况），即因变量为interval scale（定距变量）、观测次数为2，这时可以用方差分析（更确切地讲是ANCOVA、协方差分析）或回归分析（两者完全相等）。以回归为例，&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y&lt;sub&gt;i2&lt;/sub&gt; = a + bX&lt;sub&gt;i1&lt;/sub&gt; + c&lt;sub&gt;&lt;/sub&gt;Y&lt;sub&gt;i1&lt;/sub&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中下标里的&lt;em&gt;i&lt;/em&gt;是第&lt;em&gt;i&lt;/em&gt;个企业，1和2分别是第一次和第二次的观测值。注意：因变量Y的过去值Y&lt;sub&gt;i1&lt;/sub&gt;出现在公式的右边，即是自变量之一或是一个控制变量，它与自变量X&lt;sub&gt;i1&lt;/sub&gt;同时进入回归模型。由于因变量的过去值成了一个自变量或控制变量，而它与因变量的当前值之间往往高度相关，所以b值可能很小、甚至不显著。这是符合现实生活的，不要为此沮丧。&lt;/p&gt;  &lt;p&gt;公式1是一个“历史长期影响”模型。如果有某理论认为，被研究的因变量更受自变量当前值的影响，也即“当前短期影响”模型，那么你需要用X&lt;sub&gt;i2&lt;/sub&gt;来代替公式中的X&lt;sub&gt;i1&lt;/sub&gt;。但是，不要将X&lt;sub&gt;i1&lt;/sub&gt;和X&lt;sub&gt;i2&lt;/sub&gt;同时放入模型之中，因为这两者高度相关，会造成共线性问题。&lt;/p&gt;  &lt;p&gt;也许还有某种理论认为，因变量更受自变量的变化值（&lt;font face="Symbol"&gt;D&lt;/font&gt;&lt;font face="Verdana"&gt;X）的影响，这时可以先求出&lt;font face="Symbol"&gt;D&lt;/font&gt;&lt;font face="Verdana"&gt;X = X&lt;sub&gt;i2 &lt;/sub&gt;- X&lt;sub&gt;i1&lt;/sub&gt;，再将&lt;font face="Symbol"&gt;D&lt;/font&gt;&lt;font face="Verdana"&gt;X代替公式中的X&lt;sub&gt;i1&lt;/sub&gt;。&lt;/font&gt;&lt;/font&gt;&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;你当然可以分别试一下这三种模型。但是，如果没有相关理论，在选择和解读其结果时会是一个难题。&lt;/p&gt;  &lt;p&gt;2、你是否可以用潜变量成长曲线(latent growth curve)来分析只含两个时间点的自变量、但含六个时间点的因变量的数据？可以，但意义不大。成长曲线模型的目的是分别估算出自变量和因变量各自随时间而变化的函数（即Y = f(Y&lt;sub&gt;t&lt;/sub&gt;)和X = g(X&lt;sub&gt;t&lt;/sub&gt;)），然后估算两个时间函数（f与g）之间的关系。在本案中，因变量有六个时间点的观测值，所以有足够的信息来估算f函数（或更确切地说，检验多种时间函数模型的可能性，如S-曲线、指数曲线、U型曲线等）；但是自变量只有两个时间点，g函数一定是线性的。如此，除非f也是线性的，否则f与g之间的关系一定是被低估的。而如f是线性的话，只需两个时点就可以估算出来了。&lt;/p&gt;  &lt;p&gt;那么，还有其它方法吗？可以用multilevel longitudinal model (MLM，多层纵向模型)。但是其技术难度更大一些。如果你熟悉一般的multilevel model（多层模型）的，那么比较容易理解MLM。否则，需要从多层模型开始补起，是一个较长时间的学习过程。这里我只对MLM做些最简单的介绍。&lt;/p&gt;  &lt;p&gt;在理念上，本案的MLM涉及两个层面；但在实际估算中，两层是合在一起的（但我们这里暂不讨论估算的操作问题）。&lt;/p&gt;  &lt;p&gt;Level 1（底层）是对每个企业的因变量分别估算一条时间曲线：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y&lt;sub&gt;it&lt;/sub&gt; = b&lt;sub&gt;0i&lt;/sub&gt; + b&lt;sub&gt;1i&lt;/sub&gt;(t) + b&lt;sub&gt;2i&lt;/sub&gt;(t&lt;sup&gt;2&lt;/sup&gt;) + b&lt;sub&gt;3i&lt;/sub&gt;(t&lt;sup&gt;3&lt;/sup&gt;) + …&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 2) &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中i如同公式1中一样，为第i个企业，但这里i = 1 至58，t是观测年份(t = 1 至 6，其中1为2004年，2为2005年，…。该公式与一般的回归模型相比，有以下两个明显不同：&lt;/p&gt;  &lt;p&gt;第一、公式右边的各自变量t，t&lt;sup&gt;2&lt;/sup&gt;，t&lt;sup&gt;3&lt;/sup&gt;，等等，其实只是同一个变量（时间t）的polynomials（多项式）。一般说来，用1至3项式足够，最多不能超过5 (= t – 1)项式。&lt;/p&gt;  &lt;p&gt;第二、公式右边的各回归系数b&lt;sub&gt;0i&lt;/sub&gt;，b&lt;sub&gt;1i &lt;/sub&gt;，b&lt;sub&gt;2i&lt;/sub&gt;，等等的下标中不但含有一个常见的常数（0，1，2，等等），而且还含有一个罕见的变量i（因为i随着公式左边的企业的变化而变化），也就是说需要对每一个企业分别估算一条时间曲线。&lt;/p&gt;  &lt;p&gt;Level 2（上层）是将公式2的回归系数（b&lt;sub&gt;0i&lt;/sub&gt;，b&lt;sub&gt;1i &lt;/sub&gt;，b&lt;sub&gt;2i&lt;/sub&gt;等等）当作因变量、问卷数据测得的X为自变量，估算以下回归模型：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;b&lt;sub&gt;0i &lt;/sub&gt;= g&lt;sub&gt;00&lt;/sub&gt; + g&lt;sub&gt;01&lt;/sub&gt;X&lt;sub&gt;1&lt;/sub&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 3.0)&lt;/p&gt;    &lt;p&gt;b&lt;sub&gt;1i &lt;/sub&gt;= g&lt;sub&gt;10&lt;/sub&gt; + g&lt;sub&gt;11&lt;/sub&gt;X&lt;sub&gt;1&lt;/sub&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 3.1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;blockquote&gt;   &lt;p&gt;b&lt;sub&gt;2i &lt;/sub&gt;= g&lt;sub&gt;20&lt;/sub&gt; + g&lt;sub&gt;21&lt;/sub&gt;X&lt;sub&gt;1&lt;/sub&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 3.2)&lt;/p&gt;    &lt;p&gt;b&lt;sub&gt;3i &lt;/sub&gt;= g&lt;sub&gt;30&lt;/sub&gt; + g&lt;sub&gt;31&lt;/sub&gt;X&lt;sub&gt;1&lt;/sub&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 3.3)&lt;/p&gt;    &lt;p&gt;…&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;如公式1一样，如果有特定的理论依据，上述公式中的X&lt;sub&gt;1&lt;/sub&gt;可以被X&lt;sub&gt;2&lt;/sub&gt;或&lt;font face="Symbol"&gt;D&lt;/font&gt;&lt;font face="Verdana"&gt;X代替，但一般不用同时将X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;同时放入（除非两者之间为弱相关）。注意，因为i = 1 至 58，上述的每个回归模型所涉及到的样本量为58。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font face="Verdana"&gt;这组公式背后的假设是企业因变量的时间曲线之间差别是受到X的过去值（或当前值、或变化值）的影响的。也许用英文写更能看懂：The difference among the firms in their growth curves of Y is affected, at least in part, by the past (current or change) value of X.&lt;/font&gt;&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3126391268192125145?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3126391268192125145/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3126391268192125145' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3126391268192125145'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3126391268192125145'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/09/blog-post_18.html' title='如何分析两个时点的固定样本数据？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-6624734712509151598</id><published>2011-09-17T13:21:00.001+08:00</published><updated>2011-09-17T13:21:57.269+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-测量误差'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-测量指标'/><title type='text'>如何分析只含一个指标的隐含因子模型？</title><content type='html'>&lt;p&gt;jingjing @ 2011-09-16:&lt;/p&gt;  &lt;p&gt;您好！真的很感谢您提供这么一个平台和机会，为我们这些在学习结构方程模型和相关软件有困惑的同学提供具体的解答，谢谢您～&lt;/p&gt;  &lt;p&gt;我想请教您的问题是：我的毕业论文中，要研究x和y的关系，其中x只有一个指标，y有两个指标，还有控制变量c1/c2/c3/c4/c5,其中c1/c2是年度变量和行业变量，我想问您的是这种外生潜变量只有一个指标，内生潜变量有两个指标能不能用结构方程模型做？lisrel软件中又是怎么编程的？年度控制变量和行业控制变量又是如何设置的？是直接赋值为1、2.。。。吗？&lt;/p&gt;  &lt;p&gt;我刚接触结构方程模型和lisrel软件，很多问题都没弄明白，特别是在软件的操作上，请您多指教～～&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-09-17:&lt;/p&gt;  &lt;p&gt;一、你的控制变量写为“c1/c2/c3/c4/c5”是什么意思？是五个latent factors(隐含因子)还是五个observed indicators(测量指标)？如是后者，它们分属哪些隐含因子？“c1/c2”不会是指c1除以c2吧？请说明。定量研究中使用的语言一定要明确无疑义。&lt;/p&gt;  &lt;p&gt;二、你的数据(X含一个测量指标、Y含两个测量指标)既可以用SEM分析，也可以用常规回归分析，结果相仿。与回归相比，SEM最直接的两个优势在于：a)含有多个测量指标的各因子之间的关系不受测量误差影响；b) 检验中介变量的间接影响。你的数据无法享受这两项优势，所以用不用SEM差别不大。（SEM还有其它优势，因与本文无关，所以略过。）&lt;/p&gt;  &lt;p&gt;三、我在第一点中讲定量研究的语言要明确无疑，而在第二点中说本案中用SEM和回归“结果相仿”和“差别不大”，两者之间是否有矛盾？非也。根据目前知道的信息，只能得出后者的结论。如果有x, y1和y2的相关系数矩阵，加上样本数，就能进一步知道“相仿”或“差别”的程度，但现在可以确定的是这种程度并不大（以X和Y的相关关系来说，也许在0.01-0.02之间）。&lt;/p&gt;  &lt;p&gt;一般而言，消除X和Y之关系中的测量误差，X和Y各自至少需要三个指标，也即有一个6乘6的相关系数矩阵（严格说来说6乘6的covariance矩阵），其中含有21个独立的known moments(已知参数)。你现在只有一个3乘3的矩阵，含6个已知参数，信息远远不够。后果是什么？你估算的模型中含有大量测量误差，与完全不顾测量误差的回归分析差别不大。&lt;/p&gt;  &lt;p&gt;如果你X有两个指标，情况会好一些；如果X有三个指标，会更好一些（但模型中还会有因为Y只有两个指标的误差）。但如果X还是一个指标而Y有三个（或更多）指标，则与事无补。&lt;/p&gt;  &lt;p&gt;四、如何编写LISREL程序是个难以通过博客帖子回答清楚的问题。最有效的方法是听一位操作型老师面授10来小时的基本指令。当然，我知道国内很少有这种课程。能教的老师还是有的，但能讲清LISREL操作指令的老师大多是科研高手，时间很紧，而且讲操作指令会被同行看低。国外有些大学的社会科学计算中心会有免费培训，实为功德无量。社会上有更正规的培训，如&lt;a href="http://www.ssicentral.com/workshops/lisrelbegin.html"&gt;http://www.ssicentral.com/workshops/lisrelbegin.html&lt;/a&gt;，当然收费不薄。这里有两个基本教材，供自学：&lt;a href="http://www.ssicentral.com/lisrel/techdocs/SIMPLISSyntax.pdf"&gt;http://www.ssicentral.com/lisrel/techdocs/SIMPLISSyntax.pdf&lt;/a&gt;；&lt;a href="http://nd.edu/~rwilliam/stats2/l95.pdf"&gt;http://nd.edu/~rwilliam/stats2/l95.pdf&lt;/a&gt;。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-6624734712509151598?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/6624734712509151598/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=6624734712509151598' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6624734712509151598'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6624734712509151598'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/09/blog-post_17.html' title='如何分析只含一个指标的隐含因子模型？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-1987824542922193117</id><published>2011-09-12T01:18:00.001+08:00</published><updated>2011-09-12T01:20:51.873+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-名目变量'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-GLM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-Logistic回归'/><title type='text'>如何检验名目变量的中介效应？</title><content type='html'>&lt;p&gt;Zhang @ 2011-09-07:&lt;/p&gt;  &lt;p&gt;祝老师，您好，我想用结构方程模型做路径分析，有个问题不清楚，想跟您请教一下。&lt;/p&gt;  &lt;p&gt;先说样本量，我调查了100户，也就是我的的样本量是100，假设模型包含4个自变量，其中2个是连续变量，1个是类别变量，1个是计数变量，因变量只有1个，是连续的。&lt;/p&gt;  &lt;p&gt;我的模型中有一个中介变量，这个中介变量就是上面提到的类别变量。我主要是想问参数估计方法的选择问题，对于我这样一个小样本量，里面又含有非连续的变量类型，参数估计的方法generalized least square（GLS）和ordinary or unweighted least square (OLS OR ULS)哪个更适合一点？&lt;/p&gt;  &lt;p&gt;此外，您觉得我100个样本是否适合做这样一个结构方程模型的路径分析？我是刚开始学SEM，希望能得到您的指点，非常感谢关注，期待您的答复。&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-09-12:&lt;/p&gt;  &lt;p&gt;你虽然是新手，但对数据和问题的叙述既简洁又清楚。这是做好科学研究（或定量分析）的第一步。推荐给其他提问者学习。&lt;/p&gt;  &lt;p&gt;类别变量(categorical variable，或叫名目变量）可以做中介变量，但不能用SEM来分析。SEM确实有好几种估算方法，如你提到的GLS、OLS和ULS，以及更常见的Maximum Likelihood (ML)。但所有估算方法都要求除了grouping variable(分组变量)之外的所有自变量和因变量必须是连续或定距变量。你当然可以用那个类别变量做分组变量，但那检验的是moderation effects(调节或交互效应)而非mediation(中介效应)。&lt;/p&gt;  &lt;p&gt;那么，不用SEM是否可以检验类别变量的中介效应呢？可以，但我得事先预警一下：有关的操作和解读都非常（或极其）繁琐。我假定你已经了解中介效应的一般原理（或用“&lt;a href="http://zjz06.wordpress.com/tag/%E4%B8%AD%E4%BB%8B%E5%8F%98%E9%87%8F/" target="_blank"&gt;中介变量&lt;/a&gt;”查询一下本站有关前贴），所以不再赘言，以下只介绍具体操作步骤。&lt;/p&gt;  &lt;p&gt;一、以Y为因变量，X（在本案中是三个连续或计数变量，记为X1、X2和X3）为自变量，做一回归分析，得到的回归系数记为c。&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = cX&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;可用常用的OLS回归，或用general linear model (GLM)回归，两者的结果相同，但后者在第二步中更为方便。&lt;/p&gt;  &lt;p&gt;二、将M（类别变量）加入上述回归，得到的回归系数分别记为c'和b。&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = c'X + bM&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 2)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;如你在第一步里用的是OLS回归，须先将M转换成k - 1个dummy variables（零一变量），其中k是M的类别个数；如第一步用的是GLM回归，则可以省去对M的转换而直接进入。注意：1. 这里的回归系数是c'，不是第一步中的c；2. 如果M有3个以上的类别时（即k &amp;gt; 2）,就会得到k - 1个b，可分别记为b&lt;sub&gt;1&lt;/sub&gt;，b&lt;sub&gt;2&lt;/sub&gt;，…，b&lt;sub&gt;k-1&lt;/sub&gt;，多个b的出现是上面提到的“繁琐”原因之一。&lt;/p&gt;  &lt;p&gt;三、以M为因变量、X（本案中X1 - X3）为自变量，做一回归分析，得到的回归系数记为a。&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;M' = aX&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 3)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;由于这里的因变量M是类别变量，所以不能用OLS或GLM回归，而要用Logistic Regression (LR，当k = 2) 或 Multinomial Logistic Regression (MLR，当k &amp;gt; 2)。如与第二步一样，当M的类别大于2时，会有k–1个a，可记为a&lt;sub&gt;1&lt;/sub&gt;，a&lt;sub&gt;2&lt;/sub&gt;，…，a&lt;sub&gt;k-1&lt;/sub&gt;，这又是一个繁琐之处。&lt;/p&gt;  &lt;p&gt;更重要的是公式3中的M'与公式2中的M之不同。前者是probability of odds ratio between category j and category 1-j (某一类别j发生与否的概率)而后者是difference in the mean between category j and the baseline category (类别j与基准类别之间平均数之差)。这是最容易引起困惑繁琐的地方，尤其是对于不熟悉类别变量分析的基本原理（如什么是类别发生概率等）。&lt;/p&gt;  &lt;p&gt;四、这是另一个难点：如上所述，M在第一、二步的OLS(或等值的GLM)中和在第三步的LR或MLR中的scale(单位)不同，所以MLR系数a不能与OLS系数b等直接比较，而我们知道，检验中介效应的核心是检验ab (即X通过M对Y的间接影响)的显著性以及比较c'与ab的大小而实现的。因此，a必须与b等具有相同的单位。为此，我们需要将它们转换成各其的标准化系数。其公式分别为：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;a' = a S&lt;sub&gt;x &lt;/sub&gt;/ S&lt;font face="Symbol"&gt;&lt;sub&gt;&lt;font face="Verdana"&gt;m'&lt;/font&gt;&lt;/sub&gt;&lt;/font&gt;&lt;font face="Verdana"&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 4a) &lt;/font&gt;&lt;/p&gt;    &lt;p&gt;b' = b S&lt;sub&gt;m &lt;/sub&gt;/ S&lt;font face="Symbol"&gt;&lt;sub&gt;&lt;font face="Verdana"&gt;y&lt;/font&gt;&lt;/sub&gt; &lt;/font&gt;&lt;font face="Verdana"&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 4b) &lt;/font&gt;&lt;/p&gt;    &lt;p&gt;c'' = c' S&lt;sub&gt;x &lt;/sub&gt;/ S&lt;font face="Symbol"&gt;&lt;sub&gt;&lt;font face="Verdana"&gt;y&lt;/font&gt;&lt;/sub&gt; &lt;/font&gt;&lt;font face="Verdana"&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 4c) &lt;/font&gt;&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中S&lt;sub&gt;x&lt;/sub&gt;和S&lt;sub&gt;y&lt;/sub&gt;分别是连续变量X和Y的标准差，可以用SPSS的Descriptive或其它软件的类似指令直接算出。公式4b中的S&lt;sub&gt;m&lt;/sub&gt;是零一变量M的标准差，也可以用上述指令直接算出。但是4a中的S&lt;font face="Symbol"&gt;&lt;sub&gt;&lt;font face="Verdana"&gt;m'&lt;/font&gt;&lt;/sub&gt;&lt;/font&gt;&lt;font face="Verdana"&gt;是公式3中的因变量M'的标准差，即一个“什么什么发生与否”的概率的标准差，没法直接算。对它的一种估算方法是：&lt;/font&gt;&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh5.ggpht.com/-218nx_pbmKE/TmztZnJmh3I/AAAAAAAAAOs/cIl5ShcG-F8/s1600-h/clip_image002%25255B24%25255D.png"&gt;&lt;img style="background-image: none; border-right-width: 0px; padding-left: 0px; padding-right: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px; padding-top: 0px" title="clip_image002" border="0" alt="clip_image002" src="http://lh4.ggpht.com/-K9ZpvTjLs-I/TmztZ4q8yJI/AAAAAAAAAOw/NtUFx_U8n5k/clip_image002_thumb%25255B21%25255D.png?imgmax=800" width="240" height="70" /&gt;&lt;/a&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 5)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中&lt;font face="Symbol"&gt;p&lt;font face="Verdana"&gt;是圆周率 (= 3.1416…)，&lt;font face="Symbol"&gt;p&lt;/font&gt;&lt;font face="Verdana"&gt;&lt;sup&gt;2&lt;/sup&gt;/3则是标准化的logistic分布函数的方差（这一项其实是一个常数，= 3.1416&lt;sup&gt;2&lt;/sup&gt; / 3 = 3.29)，因此公式5可以简化成&lt;/font&gt;&lt;/font&gt;&lt;/font&gt;&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh6.ggpht.com/-iH3nbD9yAWg/TmztaeVEt3I/AAAAAAAAAO0/i_k5hH8SmXo/s1600-h/clip_image002%25255B25%25255D%25255B4%25255D.png"&gt;&lt;img style="background-image: none; border-right-width: 0px; padding-left: 0px; padding-right: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px; padding-top: 0px" title="clip_image002[25]" border="0" alt="clip_image002[25]" src="http://lh5.ggpht.com/-Szcv5WUfu3s/TmztaiWi2UI/AAAAAAAAAO4/NK3cz-G4d_c/clip_image002%25255B25%25255D_thumb%25255B2%25255D.png?imgmax=800" width="240" height="72" /&gt;&lt;/a&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (Eq. 5')&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&lt;font face="Symbol"&gt;&lt;font face="Verdana"&gt;&lt;/font&gt;&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font face="Verdana"&gt;不知你是否还在看吗？看懂了多少？我知道第一、二步很容易，第三、四步并不难，但很繁琐，如没有做过LR或MLR的人确实难以消受这种思路的产品。&lt;/font&gt;&lt;font face="Verdana"&gt;如果你能坚持到这里，接下来就可以看到辛苦劳动的成果了：检验M的中介效应。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font face="Verdana"&gt;不管M是连续变量还是类别变量，检验其是否具有中介效应的原理是一样的，即：&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font face="Verdana"&gt;一、公式1中的c必须显著；&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;二、公式2中的b和公式3中的a必须显著；&lt;/p&gt;  &lt;p&gt;三、最后看公式2中的c'。这时有三种可能：&lt;/p&gt;  &lt;p&gt;1. 如果c'不显著，那么M具有完全（或强烈）的中介效应（理想状态）；&lt;/p&gt;  &lt;p&gt;2. 如果c'显著、但其标准化系数c&amp;quot;（见公式4c）小于a和b的标准化系数之乘积a'b'（见公式4a和4b），那么M具有部分（或微弱）的中介效应（常见的中介效应大多如此）；&lt;/p&gt;  &lt;p&gt;3. 如果c'显著、而且c&amp;quot;&amp;gt;a'b'，即X对Y的直接影响大于通过M的间接影响，或者说，M的出现并没有改变X对Y有显著影响的基本格局。因此，我们必须承认M不具备中介效应。有些读者认为，只要a'b'是显著的，就说明M有中介效应。这种看法是错的。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-1987824542922193117?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/1987824542922193117/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=1987824542922193117' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/1987824542922193117'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/1987824542922193117'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/09/blog-post.html' title='如何检验名目变量的中介效应？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/-K9ZpvTjLs-I/TmztZ4q8yJI/AAAAAAAAAOw/NtUFx_U8n5k/s72-c/clip_image002_thumb%25255B21%25255D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-7869267095542125630</id><published>2011-08-21T23:17:00.001+08:00</published><updated>2011-08-21T23:17:24.801+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='抽样'/><title type='text'>如何从社会化媒体中抽取随机样本? How to draw random sampling from social media sites?</title><content type='html'>&lt;p&gt;How to draw random samples from blogs, social networks, microbloggings and other social media sites? In an article just published in Social Science Computer Review, we presented a method,&amp;#160; called &amp;quot;Random Digit Search&amp;quot; (RDS), to sample users on a probability basis from one of the largest blog sites in China. The method, which is adapted from &amp;quot;Random Digit Dialing&amp;quot; (RDD) in telephone survey sampling, is generally applicable to other social media sites that assign all users with a numeric ID number.&amp;#160; &lt;/p&gt;  &lt;p&gt;Zhu, J. J. H. et al. (2011). &lt;a href="http://ssc.sagepub.com/content/early/2010/09/16/0894439310382512.abstract" target="_blank"&gt;A Random Digit Search (RDS) Method for Sampling of Blogs and Other User-Generated Content&lt;/a&gt;. Social Science Computer Review, 29 (3), 327-339.&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-7869267095542125630?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/7869267095542125630/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=7869267095542125630' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7869267095542125630'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7869267095542125630'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/08/how-to-draw-random-sampling-from-social.html' title='如何从社会化媒体中抽取随机样本? How to draw random sampling from social media sites?'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8924328670637644525</id><published>2011-08-06T11:59:00.001+08:00</published><updated>2011-08-06T11:59:39.288+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-多层分析'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-协方差分析'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-GLM'/><title type='text'>如何区别fixed factors(固定变量)、random factors(随机变量)和covariates(协变量)?</title><content type='html'>&lt;p&gt;Keykure @ 2011-08-02:&lt;/p&gt;  &lt;p&gt;我有一个非常简单的问题就是，在SPSS里输入自变量的时候怎么来区分fixed factors, random factors 和covariates，我经常搞混淆这三者。比如我的问题中X是连续变量，是不是就不能放到fixed factors中去，只能放到covariates中？&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-08-06:&lt;/p&gt;  &lt;p&gt;你的问题涉及两对概念之区别：一是factors(因子)与covariates(协变量)；二是fixed与random。前者易懂、后者较难，经常有人问我。&lt;/p&gt;  &lt;p&gt;其实并不简单，涉及到两方面的基本知识：一是心理学实验的术语体系（你好像就是读心理学的？）；二是数据的unit of analysis（分析单元）和格式问题。因此，经常有人感到困惑。&lt;/p&gt;  &lt;p&gt;一、因子与协变量之区别：&lt;/p&gt;  &lt;p&gt;首先，两者都是自变量。区别在于测量水平：前者是名目或定类变量（只含两至数个类别，每个类别中至少要有30个案例），后者是连续或定距变量（可以含成千上百个类别，每个类别中只含一至数个案例）。当你通过这种区别、将每个自变量的测量水平告知SPSS或其它统计软件之后，软件就知道如何计算了。作为普通用户，知道这些就够了。&lt;/p&gt;  &lt;p&gt;那么，为何SPSS不直接了当地将有关输入区标为“名目自变量”和“连续自变量”？这应该是历史遗留问题。“因子”和“协变量”是实验研究的基本概念，而实验数据传统上用ANOVA(方差分析，只含名目变量的因子)或ANCOVA(协方差，同时含名目因子和连续变量的协变量)来分析。GLM(general linear model)是ANCOVA的扩展，其中的术语也沿用了实验研究体系。这对于习惯“自变量”、“因变量”、“控制变量”等术语的回归分析用户来说，是个挑战。SPSS中很多统计子程序都有这种历史阴影。&lt;/p&gt;  &lt;p&gt;提醒大家一下：上述是在测量层面(operationalization)上讨论“因子”和“协变量”之间的区别，它们在理论(conceptualization)上的含义很不同，不要混淆：因子可以是自变量（如外生因子）、也可以说因变量（如内生因子），两者即可以是名目变量、也可以是连续变量；协变量则被用来指“控制变量”（也是对因变量有影响的自变量、但不是理论上所关心的，所以引入以过滤其影响），可以是连续变量（如年龄）、也可以是名目变量（如性别）。&lt;/p&gt;  &lt;p&gt;二、固定变量与随机变量之区别：&lt;/p&gt;  &lt;p&gt;如上所述，这里的“变量”可以是因子、也可以是协变量。一个变量到底是固定还是随机的？大部分统计教科书并不详细解释，即使有讨论也较费解。以下让我用“非正式”的语言（即只讲结论不讲理由）说一下其中的关键问题。&lt;/p&gt;  &lt;p&gt;在GLM范畴内，所谓“固定”和“随机”变量，表面上是指自变量，其实是涉及数据结构。什么意思？一、你的因变量有几个？二、你的自变量之间是“同级并列”（如个人特征）还是“上下主从”（如个人特征在下、机构或社区特征在上）？这两个维度相交，形成了下表中的四种情况。&lt;/p&gt;  &lt;p&gt;   &lt;table border="1" cellspacing="0" cellpadding="2" width="600" align="center"&gt;&lt;tbody&gt;       &lt;tr&gt;         &lt;td valign="top" width="200"&gt;&amp;#160;&lt;/td&gt;          &lt;td valign="top" width="400" colspan="2"&gt;           &lt;p align="center"&gt;自变量之间关系&lt;/p&gt;         &lt;/td&gt;       &lt;/tr&gt;        &lt;tr&gt;         &lt;td valign="top" width="200"&gt;因变量个数&lt;/td&gt;          &lt;td valign="top" width="200"&gt;           &lt;p align="center"&gt;同级并列&lt;/p&gt;         &lt;/td&gt;          &lt;td valign="top" width="200"&gt;           &lt;p align="center"&gt;上下主从&lt;/p&gt;         &lt;/td&gt;       &lt;/tr&gt;        &lt;tr&gt;         &lt;td valign="top" width="200"&gt;&amp;#160; 单个&lt;/td&gt;          &lt;td valign="top" width="200"&gt;           &lt;p align="center"&gt;I. 固定&lt;/p&gt;         &lt;/td&gt;          &lt;td valign="top" width="200"&gt;           &lt;p align="center"&gt;II. 随机&lt;/p&gt;         &lt;/td&gt;       &lt;/tr&gt;        &lt;tr&gt;         &lt;td valign="top" width="200"&gt;&amp;#160; 多个&lt;/td&gt;          &lt;td valign="top" width="200"&gt;           &lt;p align="center"&gt;III. 随机&lt;/p&gt;         &lt;/td&gt;          &lt;td valign="top" width="200"&gt;           &lt;p align="center"&gt;IV. 随机&lt;/p&gt;         &lt;/td&gt;       &lt;/tr&gt;     &lt;/tbody&gt;&lt;/table&gt; &lt;/p&gt;  &lt;p&gt;I. 单个因变量和并列自变量：这是最常见（但也是最有局限）的数据，自变量必定是固定的。&lt;/p&gt;  &lt;p&gt;II. 单个因变量和主从自变量：由于自变量之间有从属关系，所以形成了multilevel(多层)结构。为了与III和IV相区别，我将这种多层结构叫做“variances between-subjects”（BS差异或人际差异）。下层的自变量为随机而上层的自变量为固定。如果有3+层的话，最高一层为固定、以下各层均为随机。&lt;/p&gt;  &lt;p&gt;III. 多个因变量和并列自变量：这时，虽然自变量之间是并列的，但因变量之间存在着明显（如同一概念时间先后的测量）或隐含（同一大概念下面的众多子概念）的关系，所以形成了与BS差异不同的另一种多层结构，我称之为variances within-subjects（WS差异或自身差异）。这种结构中，多个因变量的序号构成了下层自变量的值；而其上层自变量并不存在，需要在GLM或类似程序中构建相应的虚拟变量（我知道，这句话对没有实际操作经验者来说是很难懂的，如不理解就暂且跳过吧）。但是，WS差异结构与BS差异结构相同的是，最高层的自变量总是固定的，而以下各层的自变量均是随机的。&lt;/p&gt;  &lt;p&gt;IV. 多个因变量和主从自变量：这种结构同时兼有BS差异和WS差异（即BS-WS差异），其最上层的BS自变量和WS自变量都是固定的而以下各层各种变量都是随机的。这当然是最丰富、也是最难得的数据，如固定样本数据的SEM模型。&lt;/p&gt;  &lt;p&gt;希望上述分类有助于大家理解或判断固定和随机变量的表面区别。需要注意的是，随机变量可以当作固定变量处理（当然有犯Type-I错误，即可能过高估计自变量的影响。实际研究上，很多II类数据被当作I类处理）。但是反之不亦然，固定变量不可能成为随机变量。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8924328670637644525?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8924328670637644525/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8924328670637644525' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8924328670637644525'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8924328670637644525'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/08/fixed-factorsrandom-factorscovariates.html' title='如何区别fixed factors(固定变量)、random factors(随机变量)和covariates(协变量)?'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4378108235613050954</id><published>2011-08-03T23:46:00.001+08:00</published><updated>2011-08-03T23:46:34.087+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-显著性检验'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>如何控制或考虑“控制变量”的影响？(续篇)</title><content type='html'>&lt;p&gt;keykure @ 2011-08-01:&lt;/p&gt;  &lt;p&gt;非常感谢庄主的解答，我想我的问题应该是属于第三种情况，至少要先考虑交互影响。我还有一个非常简单的问题就是，在spss里输入自变量的时候怎么来区分fixed factors, random factors 和covariates，我经常搞混淆这三者。比如我的问题中X是连续变量，是不是就不能放到fixed factors中去，只能放到covariates中？&lt;/p&gt;  &lt;p&gt;另外，因为涉及到的数据变量比较多，所以我主要用Matlab来做统计分析，我建立了如下模型(其中X为IQ)，不知道和您解释的模型是否一致？    &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;1) to detect main effect of Age, using sex and IQ as covariates:    &lt;br /&gt;Yi= mean(Y)+ a1i*Age + a2i*Sex + a3i*IQ + ei;     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;2) to detect main effect of Sex, using IQ and Age as covariates, as well including interactions (Age*Sex, Sex*IQ):    &lt;br /&gt;Yi= mean(Y)+ a1i*Age + a2i*Sex + a3i*IQ + a4i*(Age*Sex) + a5i*(Sex*IQ) + ei;     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;3) to detect main effect of IQ, using Age and Sex as covariates, as well including interactions (Age*IQ, Sex*IQ):    &lt;br /&gt;Yi= mean(Y)+ a1i*Age + a2i*Sex + a3i*IQ + a4i*(Age*IQ) + a5i*(Sex*IQ) + ei.     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;特别是第三个模型，就是我在帖子里咨询的问题，这样的模型再做线性回归，然后考察IQ的系数a3i以及其它交互影响的系数a4i,a5i的统计意义，是否就能达到我希望分析的目的（IQ对Y的影响）？&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-08-03:&lt;/p&gt;  &lt;p&gt;你有关如何区别fixed factors, random factors, covariates的问题，我过几天另外写个帖子回答。&lt;/p&gt;  &lt;p&gt;你模型1是一个三项main effects模型 (”主影响“或我原文中说的”直接影响“模型），同时检验了三个自变量 (Age、IQ和Sex)的直接影响。&lt;/p&gt;  &lt;p&gt;模型2是一个三项主影响加两项second-order interactions(二阶交互影响)的模型，这个模型其实是多余的（理由见下）。&lt;/p&gt;  &lt;p&gt;模型3也是一个主影响加两项二阶交互影响模型，与模型2的区别在于其中一项交互影响涉及到不同变量。这个模型不是检验IQ的主影响（这在模型1中已检验）、而是检验IQ与其它两个自变量的交互影响。接下来是一个极其重要的技术细节：如何判断交互影响的显著性？这也就是你下面的问题。请往下看。&lt;/p&gt;  &lt;p&gt;Keykure @ 2011-08-02:&lt;/p&gt;  &lt;p&gt;庄主您好，关于上面的三个模型，再补充问一个问题，关于模型1的：模型1中没有包含任何交互影响，得到的结果是Age对Y有显著影响；但是如果在模型1中加入Age*IQ的交互影响，Age的影响就变得没有显著意义了；因此模型1（主要看Age对Y的影响）需不需要加入交互影响呢？如果加入的话，显著性消失，是否就能说明Age对Y无显著影响呢？&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-08-03:&lt;/p&gt;  &lt;p&gt;Age对Y是否有显著的主影响？这个问题与如何检验交互影响直接有关。具体来说，有以下几个相关的问题需要考虑：&lt;/p&gt;  &lt;p&gt;一、交互项Age*IQ与Age高度共线性，所以当Age和Age*IQ同时出现在模型3中时，低阶的Age会被人为的提高其p值（即变得不容易显著）而高阶的Age*IQ则会人为的降低其p值（即变得更容易显著）。结论：不要轻易相信模型3的各回归系数的显著性。&lt;/p&gt;  &lt;p&gt;二、克服上述偏差的方法之一是先分别对Age和IQ进行centering（中心化转换），然后将两个中心化自变量以及它们的乘积输入模型3。我先后写过两、三个有关帖子，请参考具体操作。&lt;/p&gt;  &lt;p&gt;三、中心化转换的前提是有关自变量的原始数值服从正态分布（至少要对称分布），否则，中心化值与其交互项之间还是有共线性，无法解决问题一。这时，可改用比较模型1与模型3的拟合度（即两个R平方）之间的差别。也请参考我的有关前贴。&lt;/p&gt;  &lt;p&gt;四、有一种很流行的说法，即如果两个自变量之间有显著的交互影响，那么就不需要考虑自变量的主影响了。这种说法在ANOVA框架下有其道理，因为这时涉及到的是实验数据，自变量之间以及与其交互项是独立的；但在回归分析框架下是不对的，因为即自变量之间以及与其交互项之间往往存在共线性。我应该也写过一个有关帖子的。&lt;/p&gt;  &lt;p&gt;五、重复一下：先对所有自变量做中心化转换，然后用模型1检验所有主影响，再与模型3比较来检验交互影响。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4378108235613050954?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4378108235613050954/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4378108235613050954' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4378108235613050954'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4378108235613050954'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/08/blog-post_03.html' title='如何控制或考虑“控制变量”的影响？(续篇)'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3963854481279642251</id><published>2011-08-01T23:25:00.001+08:00</published><updated>2011-08-01T23:25:13.167+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何控制或考虑“控制变量”的影响？</title><content type='html'>&lt;p&gt;&lt;a href="http://www.blogger.com/profile/16091596628026110933"&gt;Keykure&lt;/a&gt; @ 2011-07-31:&lt;/p&gt;  &lt;p&gt;庄主，您好，我最近碰到一个问题，跟下面这个帖子的问题很像，但是没有这么复杂。&lt;a href="http://zjz06.blogspot.com/2010/03/blog-post.html"&gt;http://zjz06.blogspot.com/2010/03/blog-post.html&lt;/a&gt; (庄主注：或zjz06.wordpress.com上&lt;a href="http://zjz06.wordpress.com/2010/03/06/%e5%a6%82%e4%bd%95%e7%a1%ae%e5%ae%9a%e4%b8%a4%e4%b8%aa%e8%b0%83%e8%8a%82%e5%8f%98%e9%87%8f%e4%b9%8b%e9%97%b4%e7%9a%84%e4%b8%bb%e6%ac%a1%e5%85%b3%e7%b3%bb%ef%bc%9f/"&gt;相同标题&lt;/a&gt;)     &lt;br /&gt;我的问题描述如下：考察自变量X，因变量Y之间的相关关系，但是这两者XY都受到两个因素Age和Sex的影响，因此给怎么建立模型来控制Age和Sex的影响？具体我该采用什么方法（比如GLM）来进行统计分析呢？&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-08-01:&lt;/p&gt;  &lt;p&gt;你的问题中Age和Sex对X和Y的“影响”，包括了三种形式：一、直接影响；二、通过X的间接影响；三、对X-&amp;gt;Y影响的调节影响（即与X的交互影响）。由于你没有说清是那种形式，所以我分别介绍一下，但不一定是你想问的。&lt;/p&gt;  &lt;p&gt;一、直接影响：&lt;/p&gt;  &lt;p&gt;这种影响最简单，说明Age和Sex分别与X相关，即有竞争关系。如果要控制它们对X-&amp;gt;Y关系的影响，只需将Age和Sex直接加入X-&amp;gt;Y的分析模型中即可，如：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X + b2Age + b3Sex&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;二、间接影响：&lt;/p&gt;  &lt;p&gt;这种影响是与直接影响相比较而言的，即除了模型1之外，再估计以下模型：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;X = c0 + c1Age + c2Sex&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (2)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;然后比较Age的直接影响(b2)与间接影响(c1b1)，如果前者小于后者，说明有必要考虑Age的间接影响；同理，比较Sex的直接影响(b3)与间接影响(c2b1)，如果前者小于后者，说明有必要考虑Sex的间接影响。&lt;/p&gt;  &lt;p&gt;注意，我这里用的是“考虑”而非你用的“控制”，两者的区别在于：“控制”用于去除由于自变量之间的相关关系而造成的各自对因变量的直接影响的错误估计；而“考虑”间接影响并不会改变所有自变量的直接影响，当然会改变总影响（=直接影响+间接影响）。&lt;/p&gt;  &lt;p&gt;三、交互影响：&lt;/p&gt;  &lt;p&gt;这种影响与上述的直接或间接影响均为关系，即不管Age或Sex对Y是否有直接或间接的影响，它们都可能与X存在着对Y的交互影响。检验的方法是在模型1中加入两项交互项：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X + b2Age + b3Sex +b4XAge + b5XSex&amp;#160;&amp;#160; (3)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中b1, b2, b3是三个自变量的直接影响，而b4和b5则是Age和Sex分别与X的交互关系。详细解释可参见我的几个前贴。&lt;/p&gt;  &lt;p&gt;最后简单回答如何在SPSS GLM中用Syntax实现上述三个模型（如果用菜单选项，三者的差别仅在自变量的box中输入不同而已）：&lt;/p&gt;  &lt;p&gt;直接影响：Y WITH X, AGE, SEX.&lt;/p&gt;  &lt;p&gt;间接影响: X WITH AGE, SEX&lt;/p&gt;  &lt;p&gt;交互影响: Y WITH X, AGE, SEX, X*AGE, X*SEX&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3963854481279642251?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3963854481279642251/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3963854481279642251' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3963854481279642251'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3963854481279642251'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/08/blog-post.html' title='如何控制或考虑“控制变量”的影响？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-2830674495112977031</id><published>2011-06-06T12:59:00.001+08:00</published><updated>2011-06-06T13:00:56.717+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='数据整理'/><category scheme='http://www.blogger.com/atom/ns#' term='SPSS Syntax'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>变量的标准化与中心化有何不同？</title><content type='html'>&lt;p&gt;ZFB @ 2011-06-05:&lt;/p&gt;  &lt;p&gt;现想问您一个问题，希望您能在百忙之间能给予回答，谢谢！我在看以下文献&lt;/p&gt;  &lt;p&gt;Scott W. Campbell &amp;amp; Nojin Kwak, Mobile Communication and Civic Life: Linking Patterns of Use to Civic and Political Engagement, &lt;em&gt;Journal of Communication&lt;/em&gt; 中，其中有段话：&lt;/p&gt;  &lt;p&gt;Interaction terms    &lt;br /&gt;In order to carry out analyses corresponding to RQ3, this study created interaction terms between the different usage patterns and competence with mobile telephony. To reduce potential problems with multicollinearity between interaction terms and their components, all the component variables were standardized prior to the formation of the interaction terms (Cronbach, 1987; Eveland, 1997; Jaccard, Turrisi, &amp;amp; Wan, 1990).&lt;/p&gt;  &lt;p&gt;这里，我想问一个问题是，为什么交互效应会跟他们的组成元素会产生多重共线性，而“all the component variables were standardized prior to the formation of the interaction terms”指的是什么呢？是标准化了组成元素变量后再进行交互效应吗？这样能减少它们之间的多重共线性吗？如何进行标准化及产生交互效应呢？&lt;/p&gt;  &lt;p&gt;庄主 @ 2011-06-06:&lt;/p&gt;  &lt;p&gt;你的问题涉及交互影响的理解及其操作。我曾写过几个贴子讨论有关问题，今天简单解答其中涉及到概念，有关操作细节请查一下前贴，如尚有不解之处，望再提出。&lt;/p&gt;  &lt;p&gt;在下述回归模型中， &lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;em&gt;Y = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;X + b&lt;sub&gt;2&lt;/sub&gt;Z + b&lt;sub&gt;3&lt;/sub&gt;XZ + b&lt;sub&gt;4&lt;/sub&gt;W&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式1）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&lt;em&gt;Y&lt;/em&gt;是因变量，&lt;em&gt;X&lt;/em&gt;、&lt;em&gt;Z&lt;/em&gt;和&lt;em&gt;W&lt;/em&gt;是自变量，而&lt;em&gt;XZ&lt;/em&gt;是前两个自变量之间的交互项。你的第一个问题是：为什么&lt;em&gt;XZ&lt;/em&gt;分别与&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;之间有共线性？答案很简单：因为&lt;em&gt;XZ&lt;/em&gt;是&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的乘积。你可以用自己的数据试一下。或者执行一下我附录中的SPSS文件的第一部分，&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;并不相关(&lt;em&gt;r&lt;/em&gt; = 0.006)，但&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的乘积&lt;em&gt;XZ&lt;/em&gt;却分别与&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;高度相关(0.673和0.679)。&lt;/p&gt;  &lt;p&gt;降低此类共线性的一个方法是将自变量&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;分别进行如下的中心化(centering)转换，并由此而生成新的交互项：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;em&gt;Xc = X - Xm&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式2）&lt;/p&gt;    &lt;p&gt;&lt;em&gt;Zc = Z - Zm&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式3）&lt;/p&gt;    &lt;p&gt;&lt;em&gt;XZc = XcZc&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式4）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中&lt;em&gt;Xc&lt;/em&gt;和&lt;em&gt;Zc&lt;/em&gt;分别是&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的中心化值，&lt;em&gt;Xm&lt;/em&gt;和&lt;em&gt;Zm&lt;/em&gt;分别为&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的均值，&lt;em&gt;XZc&lt;/em&gt;是中心化之后的&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的交互项。如果用附录的第二部分来检验，可以得到以下结果：&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;&lt;em&gt;Xc&lt;/em&gt;和&lt;em&gt;Zc&lt;/em&gt;的均值都成了0、但其标准差没有变(2.051和2.012)； &lt;/li&gt;    &lt;li&gt;&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Xc&lt;/em&gt;或者&lt;em&gt;Z&lt;/em&gt;和&lt;em&gt;Zc&lt;/em&gt;均是线性相关的(&lt;em&gt;r&lt;/em&gt; = 1.000)，这是因为公式2和3对&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;仅仅作了线性转换，故不会（也不应该）改变中心化值与原始值的相关关系； &lt;/li&gt;    &lt;li&gt;&lt;em&gt;Xc&lt;/em&gt;和&lt;em&gt;Zc&lt;/em&gt;的相关关系还是0.006； &lt;/li&gt;    &lt;li&gt;最重要的是：新交互项&lt;em&gt;XZc&lt;/em&gt;与中心化值&lt;em&gt;Xc&lt;/em&gt;或&lt;em&gt;Zc&lt;/em&gt;的共线性大大降低了(-0.092和-0.076)。 &lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;你引用的文献中，作者用了&amp;quot;standardize”（标准化）方法，即&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;em&gt;Xz&lt;/em&gt; = (&lt;em&gt;X - Xm&lt;/em&gt;) / &lt;em&gt;Xs&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式5）&lt;/p&gt;    &lt;p&gt;&lt;em&gt;Zz&lt;/em&gt; = (Z&lt;em&gt; - Zm&lt;/em&gt;) / Z&lt;em&gt;s&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式6）&lt;/p&gt;    &lt;p&gt;&lt;em&gt;XZz&lt;/em&gt; = &lt;em&gt;XzZz&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式7）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;比较公式2与5或3与6，可知标准化与中心化的区别在于前者还除以原始值的标准差(&lt;em&gt;Xs&lt;/em&gt;或&lt;em&gt;Zs&lt;/em&gt;)，因为标准差是一个常数，所以标准化值（公式5和6）也是原始值的线性转换，因此我们可以预期以下结果：&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;&lt;em&gt;Xz&lt;/em&gt;和&lt;em&gt;Zz&lt;/em&gt;的均值还是为0、但其标准差变了(应该为1.000)； &lt;/li&gt;    &lt;li&gt;&lt;em&gt;X、Xc&lt;/em&gt;和&lt;em&gt;Xz&lt;/em&gt;三者或者&lt;em&gt;Z、&lt;/em&gt;&lt;em&gt;Zc&lt;/em&gt;和&lt;em&gt;Zz&lt;/em&gt;三者之间应该是线性相关的(&lt;em&gt;r&lt;/em&gt; = 1.000)； &lt;/li&gt;    &lt;li&gt;&lt;em&gt;Xz&lt;/em&gt;和&lt;em&gt;Zz&lt;/em&gt;的相关关系还是0.006； &lt;/li&gt;    &lt;li&gt;最重要的是：标准化值之间的交互项XZz与标准化值&lt;em&gt;Xz&lt;/em&gt;或&lt;em&gt;Zz&lt;/em&gt;的共线性也降低到同样程度(-0.092和-0.076)。 &lt;!--EndFragment--&gt;&lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;如果执行附录的第三部分，可以验证上述预期。&lt;/p&gt;  &lt;p&gt;你也许会问，标准化和中心化哪种方法更好？中心化是更普遍使用的方法，其好处是&lt;em&gt;Xc&lt;/em&gt;和&lt;em&gt;Zc&lt;/em&gt;保留了原始值&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的测量单位（如年龄的岁数、上网时间的小时数等等），所以在使用中心化值的回归模型中，&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;em&gt;Y = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;Xc + b&lt;sub&gt;2&lt;/sub&gt;Zc + b&lt;sub&gt;3&lt;/sub&gt;XZc + b&lt;sub&gt;4&lt;/sub&gt;W&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式8）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&lt;em&gt;b&lt;sub&gt;1&lt;/sub&gt;&lt;/em&gt;、&lt;em&gt;b&lt;sub&gt;2&lt;/sub&gt;&lt;/em&gt;和&lt;em&gt;b&lt;sub&gt;3&lt;/sub&gt;&lt;/em&gt;分别代表的是&lt;em&gt;X&lt;/em&gt;或&lt;em&gt;Z&lt;/em&gt;的一个单位的增加导致&lt;em&gt;Y&lt;/em&gt;的绝对变化量。相反，标准化是通过除了标准差而消除了原始值的测量单位，所以所以在使用标准化值的回归模型中（如你引用的文献），&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;em&gt;Y = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;Xz + b&lt;sub&gt;2&lt;/sub&gt;Zz + b&lt;sub&gt;3&lt;/sub&gt;XZz + b&lt;sub&gt;4&lt;/sub&gt;W&lt;/em&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式9）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&lt;em&gt;b&lt;sub&gt;1&lt;/sub&gt;&lt;/em&gt;、&lt;em&gt;b&lt;sub&gt;2&lt;/sub&gt;&lt;/em&gt;和&lt;em&gt;b&lt;sub&gt;3&lt;/sub&gt;&lt;/em&gt;分别代表的是&lt;em&gt;X&lt;/em&gt;或&lt;em&gt;Z&lt;/em&gt;的一个标准差的增加导致&lt;em&gt;Y&lt;/em&gt;的相对变化量。相比之下，中心化值更直观、更接近研究现象。当然，如果&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;的测量单位本来就是人为设置的值（如态度量表），那么两种方法之间也就没有任何差别了。&lt;/p&gt;  &lt;p&gt;最后重复一下我在前贴中多次提到的两个问题：第一、中心化（或标准化）不是解决所有变量之间共线性的灵丹妙药，其要求原始值&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;服从对称分布 (distributed symmetrically)，如果&lt;em&gt;X&lt;/em&gt;或&lt;em&gt;Z&lt;/em&gt;的分布不对称，中心化值（或标准化值）与其交互项之间还会有共线性。如附录中的&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;不是完全对称，所以其转换值与其交互项之间还有轻度相关。&lt;em&gt;X&lt;/em&gt;或&lt;em&gt;Z&lt;/em&gt;的分布越不对称、其转换值与交互项之间的共线性越高。这时就需要先对&lt;em&gt;X&lt;/em&gt;或&lt;em&gt;Z&lt;/em&gt;作纠偏转换、然后再做中心化或标准化。（记住：纠偏转换是非线性转化，会对最后的回归系数之解读带来一定的困难。）&lt;/p&gt;  &lt;p&gt;第二、中心化或标准化不会改变原始值变量&lt;em&gt;X&lt;/em&gt;和&lt;em&gt;Z&lt;/em&gt;之间的共线性。附录数据中已反复显示这一点。事实上，原始自变量之间的共线性是一个更大的问题。我在其它帖子中已讨论过，这里就不展开了。&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;附录、生成一个400个案数据并检验上述假设的SPSS Syntax文件&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;*Party 0: Create data.    &lt;br /&gt;set seed=20110606. /*To ensure the same results on different mechines and different days.     &lt;br /&gt;new file.     &lt;br /&gt;input program.     &lt;br /&gt;loop #i=1 to 400.     &lt;br /&gt;compute id=#i.     &lt;br /&gt;end case.     &lt;br /&gt;end loop.     &lt;br /&gt;end file.     &lt;br /&gt;end input program.     &lt;br /&gt;exe. &lt;/p&gt;  &lt;p&gt;*Part 1: Create raw scores of X, Z, and XZ.    &lt;br /&gt;compute X=rv.normal(5,2).     &lt;br /&gt;compute Z=rv.normal(5,2).     &lt;br /&gt;compute XZ=X*Z.     &lt;br /&gt;descr X Z XZ.     &lt;br /&gt;cor X Z XZ.     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;*Part 2: Create centered scores of Xc, Zc, and XZc.    &lt;br /&gt;compute c=1.     &lt;br /&gt;agg out/break c/Xm=mean(X)/Xs=sd(X)/Zm=mean(Z)/Zs=sd(Z). /*Calculate mean and standard deviation of X and Z.     &lt;br /&gt;descr Zm Xs Zm Zs.     &lt;br /&gt;compute Xc=X-Xm.     &lt;br /&gt;compute Zc=Z-Zm.     &lt;br /&gt;compute XZc=Xc*Zc.     &lt;br /&gt;descr Xc Zc XZc.     &lt;br /&gt;cor X Z Xc Zc XZc.     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;*Part 2: Create standardized scores of Xz, Zz, and XZz.    &lt;br /&gt;compute XZ=(X-Xm)/Xs.     &lt;br /&gt;compute ZZ=(Z-Zm)/Zs.     &lt;br /&gt;compute XZz=Xz*Zz.     &lt;br /&gt;descr Xz Zz XZz.     &lt;br /&gt;cor X Xc Xz Z Zc Zz XZz. &lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-2830674495112977031?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/2830674495112977031/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=2830674495112977031' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2830674495112977031'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2830674495112977031'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/06/blog-post.html' title='变量的标准化与中心化有何不同？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4668405074107691420</id><published>2011-04-25T16:15:00.001+08:00</published><updated>2011-04-25T16:15:22.302+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='传播理论'/><category scheme='http://www.blogger.com/atom/ns#' term='调查方法'/><title type='text'>权衡需求理论与使用-满足理论有何异同？</title><content type='html'>&lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;YHQ @ 2011-04-23:&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;我看了您的论文《不同渠道、不同旋转地竞争机制：新媒体权衡需求理论》（中译稿），有点疑问和思考。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;对译稿在关键概念上的翻译，我有点疑惑。“权衡需求”这一概念能否准确表达出人们选择和决定过程中的经验累积导致的认知、比较、计算和赋予某一媒介优先地位的这些含义？我认为您更为强调的是对媒介本身的需求，不是使用与满足研究所注重的社会心理需求，更注重现实中人们主动选择导致的媒介竞争情形。希望我没有错误理解。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;按我的理解，您理论中的“新媒介”似乎是一个相对的概念，它可能是早期的印刷机、纸张，也可能是现在的互联网。您研究中是将互联网作为新媒介之代表与传统媒体对照，那么，我们该如何解释新媒体内部不同服务形式之间的竞争呢？比如说，博客对传统BBS社区的受众蚕食，以及现在微博对社交网站、博客网站的受众蚕食。您的研究结论表明，诸种社会差异在人们持续使用互联网上没有显著性，这是否是互联网的媒介特性或另有其他因素决定的，但是并不能说明诸种社会差异在其他媒介的选择过程中就不起作用？&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;我很感兴趣，冒昧致信，并请求给我一份问卷。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;庄主 @ 2011-04-24:&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;多谢提问。其中涉及三个问题，分别简述如下。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;第一、“权衡需求”与“使用与满足”之间的异同。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;在最初的论文 (Zhu &amp;amp; He, 2002)，我们把那个概念叫Perceived Need for New Media (PNNM)，后来改名为Weighted and Calculated Need for New Media (WCN)，但测量指标依旧，翻成中文时译为“权衡需求”（祝建华，2004）。&lt;/font&gt;&lt;font size="2" face="Times New Roman"&gt;为了便于讨论以及便于其他读者的理解，我将中文版中有关叙述及公式列在本文最后得到附录中。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;我们在发展“权衡需求”这个概念时的出发点，与“使用与满足”(U&amp;amp;G)中的“社会和心理需求”(social and psychological needs) 相似，也是着眼于人类的基本需求（即比媒体需求更一般和广泛）。在这意义上，“权衡需求”可以说是U&amp;amp;G的一种新的操作版本 (a new operational version of U&amp;amp;G)。U&amp;amp;G文献中对“需求”曾有多种操作版本，如Katz的五种需求 (cognitive, affective, personal integrative, social integrative, and tension release)和McQuail的四种需求 (surveillance, diversion, personal relationship, and personal identity)，它们大体相同，但也有些区别。我们考虑这些需求在互联网时代可以用六个方面来表示 (news, work-related information, personal life-related information, entertainment, companionship, and self-expression)，这六项与McQuail的指标是相对应的（如，前三种需求对应surveillance，后三种分别对应diversion, personal relationship, personal identity）。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;其实，我们在其后另一调查中同时测量了权衡需求的六个需求指标以及传统U&amp;amp;G的一组指标，用以检验两者之间的关系，结果发现相关程度很高。由于Zhu &amp;amp; He (2002)发表后，被不少人引用、复制或批评（SSCI期刊中至今已有20次引用），但尚无人提出上述问题（你是第一个），所以我们没有另行发表那个结果（如有机会时我也许会考虑一下）。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;上面说的是权衡需求与U&amp;amp;G之间的相似处。当然，如我们在论文中强调的，权衡需求对U&amp;amp;G的修正或发展在于前者将需求作为权重（即附录公式中的W）、用来调节用户对新、旧媒体在满足六种需求的看法之间差别（即公式中的SNM&lt;sub&gt;ij&lt;/sub&gt; 减去SOM&lt;sub&gt;ij&lt;/sub&gt;），所以两者有本质区别。简单说来，U&amp;amp;G认为个人的需求不受任何限制，只要想到、就会去做（即使用有关媒体）；权衡需求认为个人是否去实现感觉到的需求、是以对其必要性（已有媒体是否能够满足？）和可行性（新媒体是否能够满足？）的认知为前提的。如果抽象一点的说，U&amp;amp;G是理性和绝对化的个人主义而权衡需求是理性但受环境制约的个人主义。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;第二、“权衡需求”对其它媒体是否适用？&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;你对“新媒体”的理解与我们的想法一样，是一个相对概念。我们2002年论文中曾所说过，PNNM在研究互联网时成为“PNI”(Perceived Need for the Internet)，但其中的“I”可以被任何其他新媒体代替。2006年我与深圳大学王晓华教授在研究数码电视的前景时，就采用了这个概念（具体指标有些变化，见祝建华和王晓华，2006）。去年底，我给华中科技大学的研究生做讲座时，也给他们出了一个题，用权衡需求理论来研究blog、SNS和microblogging之间竞争关系（这也与你的想法相似）。他们已经做了调查，相信不久能见到他们发表的有关论文。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;第三、“社会差异”是否有影响？&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;你最后的问题（诸种社会差异在人们持续使用互联网上没有显著性）中的“社会差异”指什么？我们在2002年研究中，发现有四个变量显著影响网民对互联网持续使用：权衡需求、年龄、性别、教育程度（见祝建华2004之表4）。你是指除此之外的其它个人特征（如收入）等吗？那些特征在其它新媒体的研究中也许会显著，也许不会，但对我们来说，这些都是控制变量，不作专门探讨。&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;font size="2" face="Times New Roman"&gt;最后还想回到权衡需求上来。虽然我还是觉得那个概念比现有的U&amp;amp;G更符合人们选择媒体的心理过程，但是其操作（即测量及计算方法）并非完美，十分欢迎你和其他读者对此提出修改建议。附录二是权衡需求概念所涉及到的18个测量指标问题原文。&lt;/font&gt;&lt;/p&gt;  &lt;p align="center"&gt;&lt;font size="2" face="Times New Roman"&gt;所引文献&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;Zhu, J. J. H., &amp;amp; He, Z. (2002). Perceived characteristics, perceived needs, and perceived popularity: Diffusion and use of the Internet in China. Communication Research, 29 (4), 466-495. &lt;/p&gt;  &lt;p&gt;祝建华(2004). 不同渠道、不同选择的竞争机制: 新媒体权衡需求理论.《中国传媒报告》，第8卷，第2期，第16-24页.&lt;/p&gt;  &lt;p&gt;祝建华、王晓华 (2006). 权衡需求理论与数码电视的市场前景. 载于尹韵公、明安香（编），《传播学研究：和谐与发展》，第92-103页. 北京: 新华出版社.&lt;/p&gt;  &lt;p align="center"&gt;附录一、权衡需求理论的表述（祝建华，2004）&lt;/p&gt;  &lt;p&gt;权衡需求理论认为：“当且仅当受众发觉其生活中某一重要需求已经无法被传统媒体满足、而又估计某一新媒体能够满足这种需求时，人们才会开始采纳并持续使用那种新媒体。以使用互联网为例，人们只有感到传统媒体无法满足其某种需求(如表达个人意见或结识平时无缘相逢的朋友)、同时又觉得互联网有满足这种需求的能力时，才会考虑使用互联网。”用公式表示，即是&lt;/p&gt;  &lt;p aling="center"&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/TbUtl97rwbI/AAAAAAAAAOk/7bJPc5PjiQA/s1600-h/clip_image002%5B4%5D%5B5%5D.png"&gt;&lt;img style="display: block; float: none; margin-left: auto; margin-right: auto" title="clip_image002[4]" alt="clip_image002[4]" src="http://lh4.ggpht.com/_bRlHaHZqzNE/TbUtmUM1anI/AAAAAAAAAOo/lDyFMkuiVQE/clip_image002%5B4%5D_thumb%5B2%5D.png?imgmax=800" width="240" height="64" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;其中，WCN&lt;sub&gt;i&lt;/sub&gt; 是某人i认知到的对新媒体需求的总量，SNM&lt;sub&gt;ij&lt;/sub&gt; 指其对新媒体在满足某一特定需求&lt;i&gt;j&lt;/i&gt;方面的预期满意度，SOM&lt;sub&gt;ij&lt;/sub&gt; 是其对传统媒体在满足需求&lt;i&gt;j&lt;/i&gt;方面的现有实际满意度，W&lt;sub&gt;ij&lt;/sub&gt;是需求&lt;i&gt;j&lt;/i&gt;相比较于其他使用需求的重要性权数。&lt;/p&gt;  &lt;p align="center"&gt;附录二、权衡需求测量指标问题原文&lt;/p&gt;  &lt;p&gt;SOM. 您觉得您平时接触的报纸、广播、电视、电影等媒体是否能满足您对以下各方面的需求？[1 = 完全不满足; 2 = 大半不满足; 3 = 一半满足，一半不满足; 4 = 大半满足; 5 = 完全满足]    &lt;br /&gt;SOM1. 了解国内外新闻事件     &lt;br /&gt;SOM2. 获得有关个人生活的信息(如购物、旅游、投资、医疗健康知识)     &lt;br /&gt;SOM3. 获得有关工作/学习的信息(如求职、求学、提高工作或学习水平的知识和技能)     &lt;br /&gt;SOM4. 娱乐或个人爱好(如玩游戏、听音乐、体育消息)     &lt;br /&gt;SOM5. 发表个人对各种公众事物的看法、意见     &lt;br /&gt;SOM6. 增进感情交流 (结识新朋友、维持与已有朋友的关系)&lt;/p&gt;  &lt;p&gt;SNM. 不管您现在是否使用互联网，您觉得互联网是否可能满足您对以下各方面的需求：[1 = 完全不满足; 2 = 大半不满足; 3 = 一半满足，一半不满足; 4 = 大半满足; 5 = 完全满足]    &lt;br /&gt;SNM1. 了解国内外新闻事件     &lt;br /&gt;SNM2. 获得有关个人生活的信息(如购物、旅游、投资、医疗健康知识)     &lt;br /&gt;SNM3. 获得有关工作/学习的信息(如求职、求学、提高工作或学习水平的知识和技能)     &lt;br /&gt;SNM4. 娱乐或个人爱好(如玩游戏、听音乐、体育消息)     &lt;br /&gt;SNM5. 发表个人对各种公众事物的看法、意见&lt;/p&gt;  &lt;p&gt;W、下列需求对您来说，什么最重要，什么最不重要？ [请按1 = 最重要, 2 = 次重要, ... 6 = 最不重要排序]:    &lt;br /&gt;W1 了解国内外新闻事件     &lt;br /&gt;W2. 获得有关个人生活的信息(如购物、旅游、投资、医疗健康知识)     &lt;br /&gt;W3. 获得有关工作/学习的信息(如求职、求学、提高工作或学习水平的知识和技能)     &lt;br /&gt;W4. 娱乐或个人爱好(如玩游戏、听音乐、体育消息)     &lt;br /&gt;W5. 发表个人对各种公众事物的看法、意见     &lt;br /&gt;W6. 增进感情交流 (结识新朋友、维持与已有朋友的关系)&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4668405074107691420?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4668405074107691420/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4668405074107691420' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4668405074107691420'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4668405074107691420'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2011/04/blog-post.html' title='权衡需求理论与使用-满足理论有何异同？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/_bRlHaHZqzNE/TbUtmUM1anI/AAAAAAAAAOo/lDyFMkuiVQE/s72-c/clip_image002%5B4%5D_thumb%5B2%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4806022881988019930</id><published>2010-10-13T22:14:00.001+08:00</published><updated>2010-10-13T22:14:11.301+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='数据整理'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何处理严重的缺省值问题？</title><content type='html'>&lt;p&gt;L @ 2010-10-11:&lt;/p&gt;  &lt;p&gt;您在博客中讲解如何报告回归分析时，提到：“但变量常有缺省值，这时模型的个案数就会小于样本数、有时两者相差很大（当然是个严重问题），所以一定要报告前者。” &lt;/p&gt;  &lt;p&gt;我在处理一批调查数据，遇到了严重的缺省值问题。我的样本有近千人，用媒体使用的三个自变量和三个人口控制变量（简称X1-X6）对因变量（简称Y）做回归分析，只剩下300个案。请问对此如何处理。 &lt;/p&gt;  &lt;p&gt;庄主 @ 2010-10-13：&lt;/p&gt;  &lt;p&gt;数据缺省值是定量研究者人人遇到都头痛的问题。因为缺省值就是数据里没有信息，巧妇难为无米之炊。&lt;/p&gt;  &lt;p&gt;我看了你的数据，主要问题在于X1-X3等3个变量上的缺省值太多（各有200-400个缺省值不等）。如果去掉这三者，会有600余人个人留下来，大概可以接受。但是，这三个自变量是你研究的核心变量，如果删掉它们而只留下3个人口控制变量，也就难以成为传播学研究了。真是一个两难问题。&lt;/p&gt;  &lt;p&gt;现在流行一种“Missing Value Analysis“(MVA，即“缺省值分析”)，SPSS下属的结构方程模型软件AMOS中就有MVA工具。其基本思想是根据已知信息去预测（即填补）缺损信息。具体操作步骤如下：&lt;/p&gt;  &lt;p&gt;1. 假定样本数据中有十个变量（已经用于回归分析的X1-X6和Y，以及没有用上的Z1-Z3），先把Y放一边，分别分析其中八个变量与第就个变量之间的关系。即：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;X1 = b0 + b1X2 + b2X3 + b3X4 + b4X5 +b5X6 + b6Z1 + b7Z2 + b8Z3&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (1)&lt;/p&gt;    &lt;p&gt;X2 = b0 + b1X1 + b2X3 + b3X4 + b4X5 +b5X6 + b6Z1 + b7Z2 + b8Z3&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (2)&lt;/p&gt;    &lt;p&gt;X3 = b0 + b1X1 + b2X2 + b3X4 + b4X5 +b5X6 + b6Z1 + b7Z2 + b8Z3&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (3)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;注意，这里每个模型的有效样本数为该模型所有九个变量（包括因变量Y和八个自变量）上都没有非缺省值的个案数。在你的案例中大概是600多人。&lt;/p&gt;  &lt;p&gt;2. 根据模型1-3的结果参数（即b0-b8）来分别预测X1-X3上的缺省值。假定模型1的结果是：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;X1’ = 0.5 + 1.0X2 + 1.5X3 + 2.0X4 + 2.5X5 +3.0X6 - 2.0Z1 + 3.0Z2 + 1.0Z3&amp;#160;&amp;#160;&amp;#160; (4) &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;那么，就可以根据那些在X1上有缺省值的个案的X2-X6和Z1-Z3的实际数值而预测出（填补进）他们在X1上可能取的值（记为X1’）。同理，可以预测出X2或X3缺省值的可能取值（分别记为X2’和X3’）。&lt;/p&gt;  &lt;p&gt;3. 最后将填补后的X1-X3（即X1’, X2’, X3’）放回你一开始想做的回归模型，即&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X1’ + b2X2’ + b3X3’ + b4Z1 + b5Z2 + b6Z3&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (5)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;MVA是否合理和有效，取决于以下三个条件能否同时被满足： &lt;/p&gt;  &lt;p&gt;一、每个模型中的所有就个变量上上没有（或是很少）缺省值，否则“救”不回多少个案。假如每个变量有30个缺省值（即只占样本的3%），看来微不足道，但是如果每个变量上的30个缺省值发生在不一样的个案上，那么就有30X9=270个案无法就回。&lt;/p&gt;  &lt;p&gt;二、每个模型有一定的解释力（如R平方在0.20以上，当然越高越好），这决定了用该模型中八个自变量去预测Y的validity（效度）。 &lt;/p&gt;  &lt;p&gt;三、每个变量上的缺省值是完全随机(completely random)产生的，即不受任何规律制约；不然，必须将影响缺省值产生的因素放进模型中去。 &lt;/p&gt;  &lt;p&gt;以上条件一和二是可以从已有数据中计算出来的。如果一和二无法成立，那么就则是彻彻底底的无米之炊了。如果条件一和二问题不大，那就需要看条件三了。&lt;/p&gt;  &lt;p&gt;条件三一般是无从得道的。不过根据前人研究（包括我自己做过的一个大型研究），缺省值的发生一般都不是完全随机的。也就说，使用MVA在大部分情况下都是有风险的。缺省值产生的随机性越低、用MVA的风险就越高。&lt;/p&gt;  &lt;p&gt;以上是现有文献中对MVA的基本看法。此外，我个人觉得用数据中除了因变量之外的所有变量来预测缺省值的做法有totalogy（自我循环）之弊端。以本案为例，你比较一下模型4与模型5，就不难看出Z1-Z3对Y的影响出现了四次：一次是自己的直接影响（模型5）而另三次是分别通过X1’、X2’和X3’的间接影响。这在理论上和方法上都有问题（如X1’-X3’与它们的预测值Z1-Z3之间有共线性）。&lt;/p&gt;  &lt;p&gt;我认为，解决上述问题的一个办法是将Z1-Z3从模型1-3中去掉。就是说，只用模型5之外的变量来预测X1-X3的缺省值。如此填补出来的X1’-X3’在模型5中与Z1-Z3应该没有过高的共线性；同时，Z1-Z3对Y的影响只被估计一次。当然，这种方法并无法解决X1-X3中缺省值非随机产生的问题。&lt;/p&gt;  &lt;p&gt;最后还是那句话，缺省值就是数据中缺乏信息。MAV或其它任何统计方法（包括我提出的改进方法）都无法根本解决信息不足甚至信息匮乏的问题。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4806022881988019930?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4806022881988019930/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4806022881988019930' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4806022881988019930'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4806022881988019930'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/10/blog-post.html' title='如何处理严重的缺省值问题？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4649372720333600789</id><published>2010-09-04T22:13:00.001+08:00</published><updated>2010-09-04T22:14:08.721+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='杂项'/><title type='text'>如何判断各项选择之间是否存在独立关系？</title><content type='html'>&lt;p&gt;张君 @ 2010-08-31:&lt;/p&gt;  &lt;p&gt;老師: 您好! 我來自台灣，姓張。看了老師許多的文章，讓我受益良多。在此有個統計上的問題，想要冒昧請教：如果我要研究的依變數為多分類（多於二分類），各類之間又沒有順序時，我是否該用multinomial logistic model來加以分析？但是，如果我的依變數各分類之間的關係為不獨立時，是否就該改用別的model?&lt;/p&gt;  &lt;p&gt;舉例來說：我想研究什麼樣的學生會選擇什麼樣的交通工具去上課時,依變數是一個三分類的變數,選項分別為搭紅色的車,搭藍色的車以及不撘車。如果用multinomial logit的話，IIA檢定是一定每沒辦法過的；改用multinomial probit的話，在理論上又好像不太對。由於學生們的選擇在理論上來說應該是先選擇搭不搭車,再來選搭紅色或搭藍色的車,所以我是不是應該各別跑一個二元logit模型呢？第一個分析搭不搭車，第二個分析搭藍色或紅色。還是有其他更好的方法可以做更直接的分析，就請老師多多指教了。&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-09-04:&lt;/p&gt;  &lt;p&gt;很抱歉，我对IIA 假定（Independence of Irrelevant Alternatives，不知你们是如何译成中文的？）知之不多，没有做过任何第一手的研究。以下只是根据直觉来谈谈，不要太拿我的话当一回事。&lt;/p&gt;  &lt;p&gt;从有关文献来看，我觉得IIA假定是一个相当理想化的状态。就是说，各种选择中的 irrelevant alternative(s)（“无关选项”？）是真正无关或独立的。然而，这种理想状态大概只能在实验条件下才会出现。而在实际生活或实际研究中，很难会有真正的独立选项。（我对台湾不太了解，但一直好奇：2004年大选，如果没有第三党候选人，结果会一样吗？）&lt;/p&gt;  &lt;p&gt;如你的“红车、蓝车和不搭车”问题，大概也只是一个举例，你的实际数据应该更复杂一些。&lt;/p&gt;  &lt;p&gt;简言之，多项选择之间的关系，应该是一个理论而不是统计问题，需要根据具体的研究问题来确定。如果没有明确的理论指引，我个人倾向将各项选择看作是相关事件的竞争关系（我自己的很多研究课题都是根据zero-sum原则来展开的）。当然，你可以同时用两种或多种方法分别分析一下，看看各种结果之间有多大差别？那种方法的结果看上去更合常理？    &lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4649372720333600789?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4649372720333600789/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4649372720333600789' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4649372720333600789'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4649372720333600789'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/09/blog-post_04.html' title='如何判断各项选择之间是否存在独立关系？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-7230834176271585193</id><published>2010-09-03T18:21:00.001+08:00</published><updated>2010-09-03T18:21:19.442+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-显著性检验'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><title type='text'>如何检验两个模型拟合度的差别？</title><content type='html'>&lt;p&gt;Anonymous @ 2010-09-01:&lt;/p&gt;  &lt;p&gt;祝老师您好！我看了您对“为何不同模型的路径系数和拟合度相同”一文的回复，有一处不明白。想向您请教。即，当两个模型对同一组数据的拟合都可以接受时，如何检验这两个模型的拟合度之间有没有显著差异呢？ &lt;/p&gt;  &lt;p&gt;庄主 @ 2010-09-02: &lt;/p&gt;  &lt;p&gt;首先要分清这两个模型之间是否具有从属关系。如果是的，可以用常规的模型比较方法来检验；否则需要用非参数的统计量。下面分别说一下。 &lt;/p&gt;  &lt;p&gt;&lt;strong&gt;主从关系模型之比较&lt;/strong&gt; &lt;/p&gt;  &lt;p&gt;什么是模型之间的主从关系 (hierarchically nested)？如果两个模型（A和B）具有相同的变量（包括隐含因子和观测指标）、而其中模型B是在模型A的基础上减去若干参数，这两个模型就被认为是有主从关系。按参数的个数来看，模型A是主（full model）、模型B是从（reduced model）。请看以下例子： &lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/TIDMEHqAVqI/AAAAAAAAAN8/IDoKck-6YAM/s1600-h/image%5B15%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/TIDME0QEb3I/AAAAAAAAAOA/49fwxW8ElGo/image_thumb%5B9%5D.png?imgmax=800" width="280" height="209" /&gt;&lt;/a&gt; &lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/TIDMFqRaRPI/AAAAAAAAAOE/5l9DxXhtpGY/s1600-h/image%5B16%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/TIDMGYdVN7I/AAAAAAAAAOI/kXU5-OGk7IM/image_thumb%5B10%5D.png?imgmax=800" width="280" height="208" /&gt;&lt;/a&gt; &lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/TIDMGyPX_yI/AAAAAAAAAOM/AH_AA8JcuVw/s1600-h/image%5B19%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/TIDMHoVEMDI/AAAAAAAAAOQ/VzarJA7JLQk/image_thumb%5B13%5D.png?imgmax=800" width="290" height="204" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;上图中，A和B在measurement model（测量模型层面）上完全相同；但在structural model（结构模型层面）上则不同：在A中因子X对因子Y有直接影响（记为g2），而在B中X对Y没有直接影响（也即g2=0）。这两个模型之间就是具有上述的主从关系，所以可以直接用常规的模型比较方法对两者之间的差别进行显著性检验。 &lt;/p&gt;  &lt;p&gt;所谓“常规的模型比较方法”，是指计算两个具有主从关系的模型的卡方值（分别记为χ&lt;sub&gt;A&lt;/sub&gt;sup&amp;gt;2&lt;/sup&gt;和χ&lt;sub&gt;B&lt;/sub&gt;sup&amp;gt;2&lt;/sup&gt;）之差（记为Δχ&lt;sup&gt;2&lt;/sup&gt;），然后根据两个模型的自由度（分别记为df&lt;sub&gt;A&lt;/sub&gt;和dfχ&lt;sub&gt;B&lt;/sub&gt;）之差（Δdf），从卡方分布表中查出该Δχ&lt;sup&gt;2&lt;/sup&gt;），所对应的显著水平（p-level）。 &lt;/p&gt;  &lt;p&gt;以上图中的模型A和B为例。假定A的χ&lt;sub&gt;A&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; = 150.0而B的χ&lt;sub&gt;A&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; = 145.0，Δχ&lt;sup&gt;2&lt;/sup&gt; = 150.0 - 145.0 = 5.0，而df&lt;sub&gt;A&lt;/sub&gt; = 22（这不是假定而是实际的，因为该数据有45个已知值、23个参数；大家可参照前贴&lt;a href="http://zjz06.ycool.com/post.2624557.html"&gt;如何计算SEM中的自由度？&lt;/a&gt;来计算本例各模型的自由度）、df&lt;sub&gt;B&lt;/sub&gt; = 23（很显然，因为B少用了一个参数、因此多一个自由度）、Δdf = 1。根据卡方分布表（可参考以下&lt;a title="http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html" href="http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html"&gt;http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html&lt;/a&gt;），如果df = 1而χ&lt;sup&gt;2&lt;/sup&gt; = 5时，其对应的p-level = 0.0253。那么，我们的结论是什么呢？即，A和B之间是否有显著差别呢？或者，在A和B之间我们应该选择哪个呢？请大家自己得出结论。如果有疑问，请继续提出。 &lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;非主从关系模型之比较&lt;/strong&gt; &lt;/p&gt;  &lt;p&gt;如果两个具有同样变量的模型之间没有上述的hierarchical nested关系，就无法直接比较了。上图中，A和C也是有主从关系的，但B和C却不具备主从关系，尽管两者都是A的从属。两个非主从关系的模型之间的比较，一般是用Akaike Information Criterion (AIC)或类似的非参数统计量（non-parametric statistics）如Bozdogan's Consistent AIC (CAIC)或Browne-Cudeck Criterion (BCC)。所谓“非参数统计量”是指该统计量的概率分布（也就是说其显著性水平）是个未知数。所以比较两个非主从关系的模型之间AIC（或其它）的差别，我们只能知道其中那个模型对数据的拟合更好一些、但不能确定这种差别在总体里是否存在。&lt;/p&gt;  &lt;p&gt;以上图的B和C为例，假定AIC&lt;sub&gt;B&lt;/sub&gt; = 120和AIC&lt;sub&gt;C&lt;/sub&gt; = 135，我们可以知道B对数据的拟合更好（因为AIC及其它类似统计量都是越小越好），但是我们无法得知ΔAIC = 15的p-level是什么。因此，非主从关系的模型之间的比较，只是非正式的研究。&lt;/p&gt;  &lt;p&gt;如果一定要检验两个非主从关系模型之间差别的显著性，那就需要找到一个B的替身（且称为B’)，其即同时为B和C的主模型、但又与B没有显著差别。在本例中，A是B和C的主模型、但是与B有显著差别，所以不能承担B的替身。如果能找到B’，那么B’与C是主从关系，就可以按上述的常规模型比较方法来检验B’与C的差别了。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-7230834176271585193?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/7230834176271585193/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=7230834176271585193' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7230834176271585193'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7230834176271585193'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/09/blog-post.html' title='如何检验两个模型拟合度的差别？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/_bRlHaHZqzNE/TIDME0QEb3I/AAAAAAAAAOA/49fwxW8ElGo/s72-c/image_thumb%5B9%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-7055499155145638109</id><published>2010-06-13T22:26:00.001+08:00</published><updated>2010-06-13T22:26:38.811+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-被调节的中介关系'/><title type='text'>如何处理SEM模型中的“坏”因子？</title><content type='html'>&lt;p&gt;SJ @ 2010-05-17:&lt;/p&gt;  &lt;p&gt;我是X大学心理系的学生，目前在美国Y校访问。最近在处理数据时遇到问题不知该如何解决，之前在您的网页上冒昧向您请教过，非常感谢您当时的回复。我后来找了一些相关的文献看，知道了多组比较的大概步骤，但在统计中又遇到了新的问题，所以再次向您请教。谢谢您关注我的邮件！&lt;/p&gt;  &lt;p&gt;我探讨的是暴力游戏对青少年攻击性影响的性别与年龄差异。研究变量包括：&lt;/p&gt;  &lt;ul&gt;   &lt;li&gt;自变量：玩暴力游戏的程度(VVG -- 庄主注，下同) &lt;/li&gt;    &lt;li&gt;因变量：身体攻击(Physical Aggression) &lt;/li&gt;    &lt;li&gt;中介变量：信念(Belief about Aggression)、期望(Hostile Expectation)、移情(Empathy) &lt;/li&gt;    &lt;li&gt;调节变量：性别、年龄 &lt;/li&gt; &lt;/ul&gt;  &lt;p&gt;因此我把全部被试（795人）按年级和性别分成六个组，每组100多人，想比较不同性别、不同年龄孩子模型的路径差异（庄主注：这应该是一个moderated mediation模型，对此有兴趣的读者请仔细理解本案例的模型设置及有关讨论）。&lt;/p&gt;  &lt;p&gt;比较结构模型前，为了确定测量等同(measurement invariance -- 庄主注)，我分别对信念、移情和身体攻击这三个潜变量进行了单组和多组的CFA。以因素负荷相等(factor loadings invariant -- 庄主注)为标准，最后确定了5项目的信念、5项目的身体攻击及12项目的移情测量，能够满足跨组测量等同。信念和身体攻击是完全等同，两个移情项目虽不等同，但考虑到12题中只有两题不等同，所以认为部分等同也能允许进入结构模型的比较。&lt;/p&gt;  &lt;p&gt;上面我所提及的CFA是分别针对每一个变量（庄主注：应该是factor吧？）进行的。但当我把所有变量（庄主注：也是factors吧？）都整合到一个模型后发现，六组都不能很好地拟合总模型。我看了修正指数（modification index或MI -- 庄主注），发现问题主要出在移情这个变量上。在前面的测量等同阶段，我删掉了16个移情项目，保留了12个项目，这12个项目分属5个因子。在结构模型中，我把这个5个因子作为移情的指标（庄主注：Empathy成了一个second-order factor？），但发现指标间及指标与其他变量还存在复杂的关系，这导致了模型不能较好拟合。&lt;/p&gt;  &lt;p&gt;我又尝试了很多次，尝试找到一个移情的测量模型（measurement model -- 庄主注），无论是单个变量的单组及多组CFA，还是放到总模型中时，都能拟合六组数据，但徒劳无功。&lt;/p&gt;  &lt;p&gt;如果把所有变量都当成显变量，那模型都能拟合得很好。但我能这样做吗？如果把所有变量当成显变量来处理的话，那前面的测量等同检验是否还有必要？&lt;/p&gt;  &lt;p&gt;我实在不知道该如何考虑和继续，所以冒昧请教，请您给予我指导，非常感谢！&lt;/p&gt;  &lt;p&gt;附件的图是我在确定了各组的测量等同后，用总数据做的模型。我担心我说得不清楚，可能看看模型会有帮助。再次感谢！    &lt;br /&gt;&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/TBTqlsPM1II/AAAAAAAAANk/MU-knX4MXlA/s1600-h/clip_image0026.jpg"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="clip_image002" border="0" alt="clip_image002" src="http://lh5.ggpht.com/_bRlHaHZqzNE/TBTqmIRE4qI/AAAAAAAAANo/U5GoTAmI_Ik/clip_image002_thumb3.jpg?imgmax=800" width="554" height="264" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p align="center"&gt;&lt;i&gt;X&lt;sup&gt;2&lt;/sup&gt;&lt;/i&gt;(114) = 411.1, &lt;i&gt;p &lt;/i&gt;&amp;lt; .001, &lt;i&gt;RMSEA &lt;/i&gt;= .06, &lt;i&gt;NNFI &lt;/i&gt;= .90, &lt;i&gt;CFI &lt;/i&gt;= .91&lt;/p&gt;  &lt;p align="center"&gt;&lt;i&gt;Note:&lt;/i&gt; Unstandardized coefficients are provided first, with standardized coefficients in parentheses. All paths are significant.&lt;/p&gt;  &lt;p align="left"&gt;SJ @ 2010-05-21:&lt;/p&gt;  &lt;p align="left"&gt;在等待您的回复之余，我这几天仍然在尝试寻找拟合潜变量的总模型，但可恨NNFI仍徘徊在0.8几（如果拟合很差我也就放弃了）。我发现问题在于移情量表。因为当我把三个潜变量当中的移情视为显变量，保留攻击与信念作为潜变量时，模型的拟合是可以的。移情的四个子量表之间有复杂的关系，而这不是我这个研究想关注的问题。我该如何处理呢？&lt;/p&gt;  &lt;p align="left"&gt;庄主 @ 2010-06-13:&lt;/p&gt;  &lt;p align="left"&gt;正如我在你上面叙述中加注所说，你想研究的是一个moderated mediation (“被调节的中介效应”？) 模型。虽然这种模型有点复杂，但是你遇到的三个问题（见下），却是在其它各种模型中也经常会出现。&lt;/p&gt;  &lt;p align="left"&gt;一、为何你对三个中介变量分别做CFA时各自都拟合得很好，但当将三个因子合在一起做CFA时却拟合不好？这很常见。一般而言，单个因子CFA（即只有一个因子的模型）非但没有意义、而且富有误导性。实际研究中，最简单的模型至少也有两个因子。而拟合任何一个多因子模型，则不但需要每个因子内部的测量指标之间高度相关，而且需要各因子之间的测量指标基本独立（见下图a）。而如果数据是下图b那样，则会出现单因子模型拟合很好而多因子模型拟合不好的现象。在本例中，如果分别拟合X1-X3和Y1-Y3，会得到两个很完美的模型，但那是假象，X1-X3和Y1-Y3实际上应该同时属于一个因子。&lt;/p&gt;  &lt;p align="left"&gt;&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/TBTqm-TjjxI/AAAAAAAAANs/6RB9J2cpVnA/s1600-h/image%5B9%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/TBTqnbBznwI/AAAAAAAAANw/L8jYhlI82e0/image_thumb%5B5%5D.png?imgmax=800" width="626" height="480" /&gt;&lt;/a&gt; 二、为何总样本的拟合度要比六个分样本的拟合度好？你没有这么说，而是我从你提供的总样本模型拟合度（应该是勉强可以接受）和对分样本结果的叙述（如“六组都不能很好地拟合总模型”和“NNFI仍徘徊在0.8”等）中推出。这应该与你的分组样本过小有关。如你所说，每个分样本100余人，而每个模型含30来个测量指标（（= 22个中介变量指标 + ？个自变量指标 + ？个因变量指标）。计算样本量是否足够的一种快捷方法（不一定精确但大体上可靠）是样本量除以测量指标数。文献中最宽松的说法是应该大于10（我倾向于更大一些）。而你这里只有4-5之间。样本小的一个直接结果是指标之间的相关程度不稳定（可以更高或更低）。回到上图，总样本容易接近a，而分样本则难。这里不怕因子内部相关程度变低，而是拍因子之间相关程度变高。&lt;/p&gt;  &lt;p align="left"&gt;改进的方法包括：增加样本（你大概做不到）；减少分组（如两个年龄组 X 两个性别组 = 4）；减小测量指标数（尤其是“移情”用了12个指标，有必要那么多吗？）等。&lt;/p&gt;  &lt;p align="left"&gt;三、“移情”是个“坏”因子，是否可以将其12个测量指标直接进入模型（即你说的“显变量”）？如果为了提高拟合度，当然可以这么做。但是，这在理论和统计上都是下策。首先，显变量都是含测量误差的；其次，一个含12个显变量作为中介变量的模型是无比复杂；再次，部分（或很多）显变量之间会有共线性问题；等等。所以，你得到了模型拟合度的改进，但失去了更多。&lt;/p&gt;  &lt;p align="left"&gt;我并不了解你的“移情”量表之来历，估计是个已被前人验证的成熟（？）工具。如此，为何在本案中成为“搞坏了一锅汤的老鼠屎”呢？也许是问卷翻译的问题？或是被测对象的不同（文献中的移情是用于儿童的吗）？还是加在其它问题之后（？）产生的副作用？等等。可能有很多种原因。你说移情不是你本研究想关注的问题。但是，如果该因子的测量模型太有问题，那么，你只能在整体删去这个因子和显变量处理之间做出痛苦的选择。如果是我，会选择前者。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-7055499155145638109?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/7055499155145638109/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=7055499155145638109' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7055499155145638109'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7055499155145638109'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/06/sem.html' title='如何处理SEM模型中的“坏”因子？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/TBTqmIRE4qI/AAAAAAAAANo/U5GoTAmI_Ik/s72-c/clip_image002_thumb3.jpg?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5771409631329400001</id><published>2010-06-05T21:23:00.001+08:00</published><updated>2010-06-05T21:23:43.000+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>为何一个自变量在总样本和分样本中的显著性不同？</title><content type='html'>&lt;p&gt;Anonymous @ 2010-06-02:&lt;/p&gt;  &lt;p&gt;老师：您好。我在做回归分析的时候遇到一个问题，想向您请教。假设我用一些自变量解释因变量y&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;y=a0+a1x1+a2x2+...+anxn&amp;#160;&amp;#160;&amp;#160;&amp;#160; (模型1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;最后得到的结果是x1(如非农收入比重)，x2(如政府补助)与y1显著相关(p&amp;lt;0.01)。我的指导老师希望我对样本进行分组，分为参与非农产业与未参与非常产业，然后对两个子样本分别进行回归分析。他想考察参与非农产业与不参与非农产业的情况下，x2对y的解释力是否有差异。得到两个模型：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;参与非农产业的样本（样本2）：y*=a0*+a2*x2*+...+an*xn* （模型2）&lt;/p&gt;    &lt;p&gt;不参与的样本（样本3）：y‘=a0’+a2‘x2’+...+an‘xn’ （模型3）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;结果模型2里，x2与y之间显著相关，模型3里二者并不相关。我的指导老师就说这是因为，x2与y之间之所以显著，就是因为在样本2里二者有显著相关关系。对于不参与非农产业的样本，x2与y之间并无关系。因为我对统计知识一无所知，所以上来向老师求助。我的指导老师的说法对吗？出现这种结果还可能是什么原因？或者怎样理解这种现象？&lt;/p&gt;  &lt;p&gt;期待您的回复，谢谢&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-06-05：&lt;/p&gt;  &lt;p&gt;虽然你描述了很详细，但我还不敢肯定完全清楚你的数据（如Y是什么？）和以及你指导老师的意思（他的话“X2与Y之间之所以显著是因为两者有显著相关关系”好像是同义词重复？）。&lt;/p&gt;  &lt;p&gt;我猜，你的核心问题是为什么X2在总样本和分样本1中对Y有显著影响，但在分样本2中没有显著影响？假定你是根据X1而将总样本一分为二的（因为X1没有出现在模型2或3中），那么X2只在分样本1中显著的原因有二： &lt;/p&gt;  &lt;p&gt;一、X1与X2对Y有交互影响（interaction）。简单说来，X2对Y的影响不是一个常数，而是随着X1的值而变化，如当X1 &amp;gt; 0 (是吗？)时，X2对Y有显著影响；而当X1 = 0（是吗？），X2对Y并无显著影响。至于为什么会这样，则是需要用你们的专业知识来解释了。&lt;/p&gt;  &lt;p&gt;二、由两个分样本的大小不同而造成。我们知道，相关系数或回归系数的显著性与样本大小直接有关。如果两个样本的大小不同，即使两者的相关系数或回归系数相同，其中大样本的系数可能显著而小样本的系数则可能不显著。这是一种方法上的artifact（即人为假象）。你需要检查一下两个分样本的大小是否相同。&lt;/p&gt;  &lt;p&gt;事实上，如我在前贴（如“&lt;a href="http://zjz06.blogspot.com/2009/04/blog-post_12.html"&gt;分样本比总样本的回归分析更准确吗？&lt;/a&gt;”）中指出，检查X1和X2的交互影响，不应该将样本按X1的值分成两个分样本来比较a2，而是应该在总样本（即你的模型1）中加入X1和X2的交互项（即X1和X2的乘积），用你的模型术语来表示，即为 Y = a0 + a1X1 + a2X2 + a3X1X2 + ... + anXn。其中a3的显著性直接检验了a2是否随着X1的变化而显著变化，并避免了因为将总样本分成分样本而造成的人为不显著假象。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5771409631329400001?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5771409631329400001/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5771409631329400001' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5771409631329400001'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5771409631329400001'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/06/blog-post.html' title='为何一个自变量在总样本和分样本中的显著性不同？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-2353760062947476666</id><published>2010-04-22T09:51:00.001+08:00</published><updated>2010-04-22T09:51:32.695+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-显著性检验'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何比较自变量与中介变量的解释力？</title><content type='html'>&lt;p&gt;YF @ 2010-04-19： &lt;/p&gt;  &lt;p&gt;庄主，非常感谢您对学生的慷慨指导，我想向您请教一个新问题。《管理世界》上有篇文章（见以下出处），是研究中介效应的，其自变量是家长式领导方式，应变量是团队绩效，团队冲突管理方式。作者按照Baron &amp;amp; Kenny（1986）检验中介变量的方法，分析结果用表2表示。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/S8-roLptd2I/AAAAAAAAANc/yXptLq_2T1M/s1600-h/clip_image0026.jpg"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="clip_image002" border="0" alt="clip_image002" src="http://lh5.ggpht.com/_bRlHaHZqzNE/S8-ro5tqT0I/AAAAAAAAANg/TG-rBHydWaE/clip_image002_thumb3.jpg?imgmax=800" width="477" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;我的问题和该作者文章没有关系，是以该文章为例：（1）如果比较中介变量和自变量对应变量的解释力是否有意义？（2）如果有意义，是否根据下表2结果可以比较中介变量和自变量对应变量的解释力？如果可以根据下表2结果比较，那么看哪两个数据？例如：如果比较仁慈领导和合作型团队冲突解决方式对团队绩效的解释力，是根据0.726**（model 3）〉0.513**（model 2），还是根据0.662**（model 4）〉0.126（model 4），认为仁慈领导对团队绩效的解释力大于合作型团队冲突解决方式对团队绩效的解释力。&lt;/p&gt;  &lt;p&gt;文献出处：张新安, 何惠, 顾锋. 家长式领导行为对团队绩效的影响：团队冲突管理方式的中介作用. 管理世界, 2009, 3: 121-133.&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-04-21：&lt;/p&gt;  &lt;p&gt;问题1：比较中介变量与自变量之间对因变量的解释力之差别，是否有意义？有，但这只是检验中介效应的规定动作之一。强度版的中介效应要求自变量（X）对因变量（Y）的直接影响（Byx）= 0 而其通过中介变量（W）的间接影响（RwxByw) &amp;gt; 0；而弱度版的中介效应则要求Byx &amp;lt; RwxByw。也就是说，Byx &amp;lt; Byw是中介效应的必要条件（因为Rwx小于1.0）。所以两者的差别是不喻而言的。如果Byx大于或等于Byw，那就没有必要再谈中介效应了。&lt;/p&gt;  &lt;p&gt;问题2：如果比较Byx与Byw的大小，应该看模型4。你的困惑来源于作者不合适、也无必要用了四步的hierarchical回归（“分批进入回归”，参见我数贴中对在类似场合下使用这种方法的批评），模型2（自变量模型）和模型3（中介变量模型）的系数是不能直接比较的，因为模型2中的Byx是在Byw缺席情况下估算的，其中含有通过Byw的间接影响，所以是夸大了的；同样，模型3中的Byw的影响也因为由于Byx的缺席而被夸大了。只有两者同时出席的模型4才是直接比较的地方。&lt;/p&gt;  &lt;p&gt;当然，模型2和模型3也有其用此，就是通过计算模型4的R平方 - 模型2的R平方（= 0.505 – 0.307 = 0.198）来得知两个中介变量（合作型和竞争型）对因变量的联合解释力，并通过计算模型4的R平方 - 模型3的R平方（= 0.505 – 0.478 = 0.027）来得知三个自变量（权威、仁慈、德行）对因变量的联合解释力。而表中模型2和模型3的ΔR平方则是没有什么意义的。由于很多读者对此有困惑，我再重复一下这种“nested testing”（嵌镶式检验）与上述“分批进入回归”的区别：&lt;/p&gt;  &lt;p&gt;假定模型为Y = b0 + b1X1 + b2X2 + b3X3，分批进入回归的做法是估计三个模型，分别为Y = b0 + b1X1, Y = b0 + b1 + X2, Y = b0 + b1X1 + b2X2 + b3X3，然后认为：模型1的R平方代表X1对Y的解释力、模型2的R平方与模型1的R平方的差别为X2对Y的解释力、模型3的R平方与模型2的R平方的差别为X3对Y的解释力。其问题是模型1的R平方中包含了X2和X3的贡献、模型2的R平方中包含了X3的贡献。&lt;/p&gt;  &lt;p&gt;嵌镶式检验是估计四个模型，分别为1：Y = b0 + b1X1 + b2X2 + b3X3（全模型），2：Y = b0 + b2X2 + b3X3（X1缺席模型），3：Y = b0 + b1X1 + b3X3（X2缺席模型），4：Y = b0 + b1X1 + b2X2（X3缺席模型），然后认为：模型1与2的R平方之差为X1对Y的独立解释力、模型1与3的R平方之差为X2对Y的独立解释力、模型1与3的R平方之差为X3对Y的独立解释力。这里的最后一步与分批进入回归的最后一步相同、但其它比较有数量和质量上的区别。注意，嵌镶式检验的三个R平方差其实就是模型1中X1、X2和X3的semipartial correlation，在SPSS中叫做“part correlation”，可以只估算模型1而得知，不需再分别运行模型2-4的。对初学者来说，分别操作一下有助于从理念上认识上面讨论的各种问题的逻辑。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-2353760062947476666?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/2353760062947476666/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=2353760062947476666' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2353760062947476666'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2353760062947476666'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/04/blog-post_22.html' title='如何比较自变量与中介变量的解释力？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/S8-ro5tqT0I/AAAAAAAAANg/TG-rBHydWaE/s72-c/clip_image002_thumb3.jpg?imgmax=800' height='72' width='72'/><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4924838079506441191</id><published>2010-04-18T23:19:00.001+08:00</published><updated>2010-04-18T23:19:09.613+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='数据整理'/><category scheme='http://www.blogger.com/atom/ns#' term='SPSS Syntax'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-时间序列'/><title type='text'>如何绘制个人增长曲线图？</title><content type='html'>&lt;p&gt;Z @ 2010-04-15:&lt;/p&gt;  &lt;p&gt;我们有一3个wave的panel样本，用GLM Repeated Measures分析数据，并从中画出三个时间点上样本的平均值。我们写了一篇论文投给某国际期刊，有位评审人要求我们随机抽取10人，在同一图里显示各自的growth curves。我们在SPSS中试了很久，怎么也无法制作这种图。不知是否可以在SPSS中“自动”做到？&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-04-18:&lt;/p&gt;  &lt;p&gt;最近我教的统计课里，也有一位同学提出相同的问题，其答案在于纵向数据的特殊结构。一般说来，纵向数据的结构有“矮胖型”和“瘦长型”两种。但你们需要的是第三种结构。&lt;/p&gt;  &lt;p&gt;矮胖型数据与更常见的横向数据相似，每一列是一个变量、每一行是一个个案，由于纵向数据的因变量有多个时点的观测值，每个观察值被当做一个变量，分别占领一列，一般在因变量名后加下标1、2、…、t（t=时间点个数）来显示各自的观测时间点。所以，这种结构的正式学名叫做“multivariate format”（因变量多列型）。如表一代表你们的数据，其中Y1、Y2和Y3是因变量Y在三个时间点上的观察值，注意它们是被当做三个变量分别各占据一列，X是自变量（只测量一次，所以只有一列）、最后的“…”表示还可以有其它自变量。GLM、SEM等都是使用这种结构的数据。但是，这种数据无法用来制作“intrapersonal growth curves”。&lt;/p&gt;  &lt;p align="center"&gt;表一、因变量多列型数据结构（n行记录、t列因变量） &lt;/p&gt;  &lt;table border="1" cellspacing="0" cellpadding="3" width="800"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td width="133" align="center"&gt;ID&lt;/td&gt;        &lt;td width="133" align="center"&gt;Y1&lt;/td&gt;        &lt;td width="133" align="center"&gt;Y2&lt;/td&gt;        &lt;td width="133" align="center"&gt;Y3&lt;/td&gt;        &lt;td width="133" align="center"&gt;X&lt;/td&gt;        &lt;td width="133" align="center"&gt;...&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="133" align="center"&gt;1&lt;/td&gt;        &lt;td width="133" align="center"&gt;y11&lt;/td&gt;        &lt;td width="133" align="center"&gt;y12 &lt;/td&gt;        &lt;td width="133" align="center"&gt;y13 &lt;/td&gt;        &lt;td width="133" align="center"&gt;x1&lt;/td&gt;        &lt;td width="133" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="133" align="center"&gt;2&lt;/td&gt;        &lt;td width="133" align="center"&gt;y21&lt;/td&gt;        &lt;td width="133" align="center"&gt;y22&lt;/td&gt;        &lt;td width="133" align="center"&gt;y23&lt;/td&gt;        &lt;td width="133" align="center"&gt;x2 &lt;/td&gt;        &lt;td width="133" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="133" align="center"&gt;…&lt;/td&gt;        &lt;td width="133" align="center"&gt;… &lt;/td&gt;        &lt;td width="133" align="center"&gt;… &lt;/td&gt;        &lt;td width="133" align="center"&gt;… &lt;/td&gt;        &lt;td width="133" align="center"&gt;...&lt;/td&gt;        &lt;td width="133" align="center"&gt;...&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="133" align="center"&gt;n&lt;/td&gt;        &lt;td width="133" align="center"&gt;yn1&lt;/td&gt;        &lt;td width="133" align="center"&gt;yn2&lt;/td&gt;        &lt;td width="133" align="center"&gt;yn3&lt;/td&gt;        &lt;td width="133" align="center"&gt;xn &lt;/td&gt;        &lt;td width="133" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;br /&gt;  &lt;p&gt;在瘦长型结构中，因变量只占一列，但是每个个案占三列，因此因变量y1、y2和y3分布在这三行之中（见表二）。为了保留Y的观测时间点，新增加了一个变量Time，取值1、2、…、t。这种结构的正式学名叫做“multirecord format”（个案多行型），是HLM和其他多层分析软件所要求的数据格式。在这种数据结构中，你可以通过选择个人的ID来显示一个人的增长曲线，但也无法在同一图中显示多人的增长曲线。&lt;/p&gt;  &lt;p align="center"&gt;表二、个案多行型数据结构（n x t行记录、1列因变量） &lt;/p&gt;  &lt;table border="1" cellspacing="0" cellpadding="3" width="800"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td width="160" align="center"&gt;ID&lt;/td&gt;        &lt;td width="160" align="center"&gt;Time&lt;/td&gt;        &lt;td width="160" align="center"&gt;Y&lt;/td&gt;        &lt;td width="160" align="center"&gt;X&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;1&lt;/td&gt;        &lt;td width="160" align="center"&gt;1&lt;/td&gt;        &lt;td width="160" align="center"&gt;y11&lt;/td&gt;        &lt;td width="160" align="center"&gt;x1&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;1&lt;/td&gt;        &lt;td width="160" align="center"&gt;2&lt;/td&gt;        &lt;td width="160" align="center"&gt;y12&lt;/td&gt;        &lt;td width="160" align="center"&gt;x1&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;1&lt;/td&gt;        &lt;td width="160" align="center"&gt;3&lt;/td&gt;        &lt;td width="160" align="center"&gt;y13&lt;/td&gt;        &lt;td width="160" align="center"&gt;x1&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;2&lt;/td&gt;        &lt;td width="160" align="center"&gt;1&lt;/td&gt;        &lt;td width="160" align="center"&gt;y21&lt;/td&gt;        &lt;td width="160" align="center"&gt;x2&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;2&lt;/td&gt;        &lt;td width="160" align="center"&gt;2&lt;/td&gt;        &lt;td width="160" align="center"&gt;y22&lt;/td&gt;        &lt;td width="160" align="center"&gt;x2&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;2&lt;/td&gt;        &lt;td width="160" align="center"&gt;3&lt;/td&gt;        &lt;td width="160" align="center"&gt;y23&lt;/td&gt;        &lt;td width="160" align="center"&gt;x2&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;…&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;n&lt;/td&gt;        &lt;td width="160" align="center"&gt;1&lt;/td&gt;        &lt;td width="160" align="center"&gt;yn1&lt;/td&gt;        &lt;td width="160" align="center"&gt;xn&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;n&lt;/td&gt;        &lt;td width="160" align="center"&gt;2&lt;/td&gt;        &lt;td width="160" align="center"&gt;yn2&lt;/td&gt;        &lt;td width="160" align="center"&gt;xn&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="160" align="center"&gt;n&lt;/td&gt;        &lt;td width="160" align="center"&gt;3&lt;/td&gt;        &lt;td width="160" align="center"&gt;yn3&lt;/td&gt;        &lt;td width="160" align="center"&gt;xn&lt;/td&gt;        &lt;td width="160" align="center"&gt;…&lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;br /&gt;  &lt;p&gt;如要在同一图中显示多条增长曲线，需要将矮胖型或瘦长型数据转换成第三种结构，这在文献中还没有专门的名称，我姑且称之为individuals-as-variables format（“每人一列型”），如表三所示。这种结构更加“奇怪”，每一列是一个人的因变量或自变量，而每一行是一个时间点。本例t = 3，所以只有三行，比起矮胖型的n行来更加矮胖了。这种结构不适合做统计分析，但十分适合做各种图形，如可以做以Time为X-轴、单个或多个Y为Y-轴的增长曲线，也可以做以X为X-轴、Y为Y-轴的个人层面X-Y散点图。&lt;/p&gt;  &lt;p align="center"&gt;表三、每人一列型数据结构（t行记录、n列因变量） &lt;/p&gt;  &lt;table border="1" cellspacing="0" cellpadding="3" width="800"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td width="100" align="center"&gt;Time&lt;/td&gt;        &lt;td width="100" align="center"&gt;ID1_Y&lt;/td&gt;        &lt;td width="100" align="center"&gt;ID1_X&lt;/td&gt;        &lt;td width="100" align="center"&gt;ID2_Y&lt;/td&gt;        &lt;td width="100" align="center"&gt;ID2_X&lt;/td&gt;        &lt;td width="100" align="center"&gt;…&lt;/td&gt;        &lt;td width="100" align="center"&gt;IDn_Y&lt;/td&gt;        &lt;td width="100" align="center"&gt;IDn_X&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="100" align="center"&gt;1&lt;/td&gt;        &lt;td width="100" align="center"&gt;y11&lt;/td&gt;        &lt;td width="100" align="center"&gt;x1&lt;/td&gt;        &lt;td width="100" align="center"&gt;y21&lt;/td&gt;        &lt;td width="100" align="center"&gt;x2&lt;/td&gt;        &lt;td width="100" align="center"&gt;…&lt;/td&gt;        &lt;td width="100" align="center"&gt;yn1&lt;/td&gt;        &lt;td width="100" align="center"&gt;xn&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="100" align="center"&gt;2&lt;/td&gt;        &lt;td width="100" align="center"&gt;y12&lt;/td&gt;        &lt;td width="100" align="center"&gt;x1&lt;/td&gt;        &lt;td width="100" align="center"&gt;y22&lt;/td&gt;        &lt;td width="100" align="center"&gt;x2&lt;/td&gt;        &lt;td width="100" align="center"&gt;…&lt;/td&gt;        &lt;td width="100" align="center"&gt;yn2&lt;/td&gt;        &lt;td width="100" align="center"&gt;xn&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td width="100" align="center"&gt;3&lt;/td&gt;        &lt;td width="100" align="center"&gt;y13&lt;/td&gt;        &lt;td width="100" align="center"&gt;x1&lt;/td&gt;        &lt;td width="100" align="center"&gt;y23&lt;/td&gt;        &lt;td width="100" align="center"&gt;x3&lt;/td&gt;        &lt;td width="100" align="center"&gt;…&lt;/td&gt;        &lt;td width="100" align="center"&gt;yn3&lt;/td&gt;        &lt;td width="100" align="center"&gt;xn&lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;br /&gt;  &lt;p&gt;好了，根据上述原理，你可以按需要而将数据在这三种结构之间互相转换。当然，如果你会使用SPSS的Syntax指令，确实可以用以下（或类似）的指令来“自动化”操作（注：指令中的大写字母是SPSS指令、小写字母是可以替代的变量名或文件名）。&lt;/p&gt;  &lt;p&gt;*1. 假定你的数据是矮胖型结构，首先转换成瘦长数据.    &lt;br /&gt;VECTOR j=y1 to y3.     &lt;br /&gt;LOOP i=1 to 3.     &lt;br /&gt;COMPUTE y=j(i).     &lt;br /&gt;COMPUTE time=i.     &lt;br /&gt;XSAVE OUT 'r:\temp.sav'/KEEP id time y x.     &lt;br /&gt;END LOOP.     &lt;br /&gt;EXE. &lt;/p&gt;  &lt;p&gt;*2. 随机抽取10个个案.    &lt;br /&gt;SAMPLE 10 FROM 100.&amp;#160;&amp;#160; &lt;br /&gt;EXE.     &lt;br /&gt;MATCH FILES FILE */KEEP id.&amp;#160;&amp;#160;&amp;#160; /*只保留被抽取的id.     &lt;br /&gt;AUTORECODE id/into newid.&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; /*对id重新排序. &lt;/p&gt;  &lt;p&gt;*3. 与瘦长数据并行对接.    &lt;br /&gt;MATCH FILES TABLE */FILE 'r:\temp.sav'/BY id.     &lt;br /&gt;SELECT IF newid&amp;gt;0.&amp;#160;&amp;#160;&amp;#160;&amp;#160; /*剔除没有newid的个案.     &lt;br /&gt;EXE. &lt;/p&gt;  &lt;p&gt;*4. 从瘦长数据中逐个提取个案，分别保留到单独文件中.    &lt;br /&gt;DEFINE !newcase (!POS, !CMDEND).     &lt;br /&gt;!DO !i !IN (!1).     &lt;br /&gt;TEMP.     &lt;br /&gt;SELECT IF newid=!i.     &lt;br /&gt;SAVE OUT !QUOTE(!CONCAT('r:\newcase', !i, '.sav'))     &lt;br /&gt;&amp;#160; /KEEP time y x     &lt;br /&gt;&amp;#160; /rename (y=!concat('y', !i)/rename (x=!concat('x', !i).     &lt;br /&gt;!DOEND.     &lt;br /&gt;!ENDDEFINE.     &lt;br /&gt;!newcase 1 2 3 4 5 6 7 8 9 10.     &lt;br /&gt;EXE. &lt;/p&gt;  &lt;p&gt;*5. 将10个单独文件平行对接起来，构成最后的“个案每列”结构.    &lt;br /&gt;MATCH FILES FILE 'r:\newcase1.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase2.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase3.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase4.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase5.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase6.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase7.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase8.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase9.sav'     &lt;br /&gt;&amp;#160; /FILE 'r:\newcase10.sav'.     &lt;br /&gt;EXE. &lt;/p&gt;  &lt;p&gt;*6. 打印10个因变量对时间的散点图.    &lt;br /&gt;TSPLOT y1 y2 y3 y4 y5 y6 y7 y8 y9 y10/ID=time.&lt;/p&gt;  &lt;p&gt;以下是步骤6制作的10条“个人增长曲线“图，估计就是你们要画的那种了。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/S8si6TpuPlI/AAAAAAAAANU/pF-nLVThIwc/s1600-h/image%5B4%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/S8si7J-dMVI/AAAAAAAAANY/gapCqVVdJdA/image_thumb%5B2%5D.png?imgmax=800" width="625" height="500" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4924838079506441191?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4924838079506441191/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4924838079506441191' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4924838079506441191'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4924838079506441191'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/04/blog-post.html' title='如何绘制个人增长曲线图？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/S8si7J-dMVI/AAAAAAAAANY/gapCqVVdJdA/s72-c/image_thumb%5B2%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4288719499814802931</id><published>2010-03-21T11:31:00.001+08:00</published><updated>2010-03-21T11:31:44.147+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='研究报告写作'/><title type='text'>如何处理自变量之间的相关关系？</title><content type='html'>&lt;p&gt;JF @ 2010-03-15:&lt;/p&gt;  &lt;p&gt;我有一个初级问题想了很久还是不清楚。假如我有一个因变量Y、两个自变量X和Z，如果做回归分析，只要将X和Z同时进入回归模型就可以了，不需理会X和Z的相关关系。但是如果用SEM，除了要分别连接X和Z对Y的路径，还要连接X和Z之间的相关关系。这是为什么呢？不是说在结构层面回归和SEM是一致的吗？&lt;/p&gt;  &lt;p&gt;另外，在报告上述SEM结果时，是否需要描述和解释X和Z的相关关系？如果用回归分析，是否还需要另行计算X和Z的相关关系、然后再报告呢？&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-03-20：&lt;/p&gt;  &lt;p&gt;你的问题确实简单、但绝非初级，因为其中涉及了回归分析与结构方程模型（SEM）的主要异同，值得讨论一下。首先，自变量与因变量之间的结构关系 (structural relationship among variables)，如自变量对因变量的直接影响、间接影响、总影响、交互影响、等等，在回归和SEM中都是同义的（但不一定是等值的，因为前者含有测量误差而后者不含测量误差，但这与本文无关，所以下面的讨论均假定所有变量都不含测量误差）。&lt;/p&gt;  &lt;p&gt;但是，在处理自变量之间的相关关系时，两者所用的方法不同：回归是用隐含方法而SEM是用明示方法。在回归模型 Y = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;X + b&lt;sub&gt;2&lt;/sub&gt;Z中，对回归系数b&lt;sub&gt;1&lt;/sub&gt;和b&lt;sub&gt;2&lt;/sub&gt;的估算公式分别包含了X与Z的相关系数（记为r&lt;sub&gt;XZ&lt;/sub&gt;；同理，Y与X、Y与Z的相关系数分别记为r&lt;sub&gt;YX&lt;/sub&gt;和r&lt;sub&gt;YZ&lt;/sub&gt;）:&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/S6WTFoLqlDI/AAAAAAAAAM8/jZvOLmCG5ww/s1600-h/image29.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/S6WTF7LDhEI/AAAAAAAAANA/wVXdkssK84E/image_thumb19.png?imgmax=800" width="200" height="68" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;和&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/S6WTGLG4fkI/AAAAAAAAANE/iuKgsaHIcX4/s1600-h/image16.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/S6WTGyJi27I/AAAAAAAAANI/ZG2y1hkODhA/image_thumb8.png?imgmax=800" width="200" height="68" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;由于b&lt;sub&gt;1&lt;/sub&gt;和b&lt;sub&gt;2&lt;/sub&gt;是在Y与X或Z的简单相关系数中扣除了X与Z的相关程度（以及Y与另一自变量的相关程度），所以b&lt;sub&gt;1&lt;/sub&gt;和b&lt;sub&gt;2&lt;/sub&gt;又被叫做partial regression coefficients（偏回归系数）。可见，在回归分析中，自变量之间的相关关系是自动而且必须地被控制了的。这里的“被控制”是指用于消除自变量之间的相关关系的影响。&lt;/p&gt;  &lt;p&gt;在SEM中，自变量之间的相关关系是需要明确设置的。如在使用矩阵语言的LISREL中，通过指令&amp;quot;FR PH (1, 2)”来估算r&lt;sub&gt;XZ&lt;/sub&gt;；而在使用图形语言的AMOS中，则是通过在X和Z之间画一条双箭头的曲线来估算r&lt;sub&gt;XZ&lt;/sub&gt;（见下图，注：图中的三个参数b&lt;sub&gt;1&lt;/sub&gt;、b&lt;sub&gt;2&lt;/sub&gt;和r&lt;sub&gt;XZ&lt;/sub&gt;是不需要的，这里只是为了说明它们与上述回归模型的对应关系）。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/S6WTHBGKf1I/AAAAAAAAANM/qBvNKSE48FE/s1600-h/image23.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh6.ggpht.com/_bRlHaHZqzNE/S6WTHqqSuHI/AAAAAAAAANQ/Any8y5Qs47g/image_thumb13.png?imgmax=800" width="280" height="145" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;该SEM模型与上述回归模型是等价等值的。大家可以用一个含三个变量、N &amp;gt; 200 （SEM所需的最小样本量）的数据验证一下，两个模型的b&lt;sub&gt;1&lt;/sub&gt;、b&lt;sub&gt;2&lt;/sub&gt;、r&lt;sub&gt;XZ&lt;/sub&gt;、R-Square（= AMOS中的MSC）、Std error of the estimate（= SEM中e的Variance的平方根）应该都相等。然而，回归用的是OLS（最小二乘法）而SEM是用ML（最大似然法）来估算上述参数的。这两者之间的差别，除了对样本量的要求不同（ML估算只有在大样本条件下才可能接近OLS结果），还有许多深层的差别。这里只讲其中比较明显的一个差别：如上所示，r&lt;sub&gt;XZ&lt;/sub&gt;在回归中是自动被控制起来的，但在SEM中却需要人为设置。反过来说，如果需要的话，在SEM里也可以设置r&lt;sub&gt;XZ &lt;/sub&gt;= 0（在AMOS中也可以将X和Z之间的曲线删掉）或其它任意值（1.0，0.5，等等）。如此设置的模型，因为少估算了一个参数，所以会比原模型多出一个df（自由度），通过比较两个模型的拟合指数（Chi-squares）之差，就可以检验 r&lt;sub&gt;XZ &lt;/sub&gt;= 0（自变量之间为正交）或r&lt;sub&gt;XZ &lt;/sub&gt;= 1 （自变量之间没有discriminant validity）等假设。这些都是无法在回归分析中实现的。&lt;/p&gt;  &lt;p&gt;回归模型与SEM模型之间更核心的区别在于前者是在变量层面检验自变量对因变量的解释程度、而后者则是在观察值的方差-协方差矩阵层面检验理论模型与实际数据之间的拟合程度。打个不完全恰当的比分，回归是西药，针对特定病症有强效，但不顾其它后果；而后者是中药，旨在整体和治本，但有时对特定病症并无速效。这种根本区别在本文讨论的自变量相关关系上也有一定影响，但这是一个大题目，需要很多基本概念和铺垫，否则难以讲清，所以不予展开，只是提醒大家，SEM的水很深，下水前要做足热身运动，而回归则是最好的热身运动。就如现在的中医学院都是先教西医原理、再进入中医的。&lt;/p&gt;  &lt;p&gt;回到你最后那个问题：如何报告r&lt;sub&gt;XZ&lt;/sub&gt;？一般说来，自变量之间的相关关系（如r&lt;sub&gt;XZ&lt;/sub&gt;）是一种unanalyzed relationship（不作分析的关系）。这里的所谓“不作分析”指的不是统计分析、而是理论分析。如上所说，r&lt;sub&gt;XZ&lt;/sub&gt;在回归中是不直接计算的，但在SEM和用回归做路径分析中均需要统计分析的。但是，除非有特定研究目的（如上述检验自变量之间的discriminant validity）之外，大多数理论并不规定自变量之间关系的强度、方向（谁影响谁）、性质（正或负相关）等，所以实际研究中往往只是简单地估算它们之间的相关关系而不进一步深究其关系的性质、方向、性质等。在写报告时，如果用图形表示实证模型的话，可以在图上标出相关系数的估计值；如无图形，可在附录或注释中用文字或表格报告一下；但在正文中则一般不必提及。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4288719499814802931?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4288719499814802931/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4288719499814802931' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4288719499814802931'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4288719499814802931'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/03/blog-post_21.html' title='如何处理自变量之间的相关关系？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/_bRlHaHZqzNE/S6WTF7LDhEI/AAAAAAAAANA/wVXdkssK84E/s72-c/image_thumb19.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3966101673524128252</id><published>2010-03-19T23:21:00.001+08:00</published><updated>2010-03-19T23:21:39.455+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='杂项'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><title type='text'>清华SEM班邀请外校学生网上实时参与</title><content type='html'>&lt;p&gt;课程名称：结构方程模型的原理与应用 Structural Equation Modeling: Principles and Applications&lt;/p&gt;  &lt;p&gt;对象：清华大学新闻与传播学院硕博研究生及外校新闻传播院系本科1-3年级或硕士研究生1年级同学20人&lt;/p&gt;  &lt;p&gt;时间：2010年5月15-24日&lt;/p&gt;  &lt;p&gt;报名：2010年3月31日止&lt;/p&gt;  &lt;p&gt;详见：&lt;a href="http://www.tsjc.tsinghua.edu.cn/news.php?id=971"&gt;http://www.tsjc.tsinghua.edu.cn/news.php?id=971&lt;/a&gt;&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3966101673524128252?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3966101673524128252/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3966101673524128252' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3966101673524128252'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3966101673524128252'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/03/sem.html' title='清华SEM班邀请外校学生网上实时参与'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-7783305483205030826</id><published>2010-03-06T16:21:00.001+08:00</published><updated>2010-03-06T16:21:49.705+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-被调节的中介关系'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何确定两个调节变量之间的主次关系？</title><content type='html'>&lt;p&gt;SJ @ 2010-03-02:&lt;/p&gt;  &lt;p&gt;祝老师您好！我是心理系的学生。在网上偶然逛到您的庄园，受益匪浅！非常感谢您的慷慨，跟大家分享您的所学所得。我最近在处理早前的一个数据，遇到困惑，不知道该怎么继续，想向您请教，先谢过。&lt;/p&gt;  &lt;p&gt;我的数据涉及以下变量：一个自变量、一个因变量、四个假设的中介变量。另外人口统计学变量方面，考察了年龄（分成四个年龄组）和性别。我关注的是自变量如何通过中介变量影响因变量，以及这种影响是否存在年龄的发展差异。然而，我在做各个变量的相关时发现，性别跟好几个重要的变量都有显著的相关。因此我的困惑在于，我应该如何处理性别的问题。1.把性别作为调节变量，放到各个年龄组中来建立模型？2.还是每个年龄组都建立男生模型和女生模型？您觉得哪种方法更合适？具体又该怎么操作呢？    &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-03-06:&lt;/p&gt;  &lt;p&gt;谢谢与大家分享你的研究问题。这是一个相当复杂（其复杂程度应该远远超出你的预计，具体见下）的研究设计。我前天在我的课上介绍了你的问题，建议学生们来这里分享他们的看法。至今还没有人现身，也许是你的问题太难、也许是他们还没完成下周一交的作业。我先说一下解决方案的基本思路，希望他们能够接下去帮你解决方案的操作问题（同学们，这是你们给老师和学校挣面子的时候了）。&lt;/p&gt;  &lt;p&gt;先整理一下你的问题所涉及的研究假设：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;H1. 自变量X对因变量Y的直接影响（记为b&lt;sub&gt;YX&lt;/sub&gt;）。&lt;/p&gt;    &lt;p&gt;H2. X通过中介变量M1-M4对Y的间接影响（分别记为b&lt;sub&gt;Y(M1-X)&lt;/sub&gt;、b&lt;sub&gt;Y(M2-X)&lt;/sub&gt;、b&lt;sub&gt;y(M3-X)&lt;/sub&gt;和b&lt;sub&gt;Y(M4-X)&lt;/sub&gt;）。&lt;/p&gt;    &lt;p&gt;H3. 年龄A对直接影响b&lt;sub&gt;YX&lt;/sub&gt;的调节作用（即A与X对Y的交互效应，记为b&lt;sub&gt;Y(X*A)&lt;/sub&gt;）。&lt;/p&gt;    &lt;p&gt;H4. 年龄A对间接影响b&lt;sub&gt;Y(M1-X)&lt;/sub&gt;等的调节作用（即A与X-M对Y的交互效应，分别记为b&lt;sub&gt;Y((M1-X)*A)&lt;/sub&gt;、b&lt;sub&gt;Y((M2-X)*A)&lt;/sub&gt;、&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; b&lt;sub&gt;Y((M3-X)*A)&lt;/sub&gt;和b&lt;sub&gt;y((M4-X)*A)&lt;/sub&gt;。注：因为X-M对Y是中介关系，所以A与它们的交互关系是一种被称为“moderated mediation“、即“被调节的中介关系”，相当复杂！）。&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;先在这里停一下。H1-H4可以用OLS回归来分析，但在SEM工具（如LISREL、AMOS等）中更方便。如用后者，需要把年龄当做组别，而将样本按年龄分成4组、通过比较组间的invariance来检验X对Y的直接和间接关系是否随着年龄的变化而不同（具体操作这里略过）。也就是说，moderated mediation关系，听起来很复杂，但在SEM中通过设置组间equality constraint的小技巧（或“小伎俩”？），很方便就能解决了。&lt;/p&gt;  &lt;p&gt;好了，回到你最后的问题：如何检验性别S的影响？也就是检验以下假设：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;H5. 性别S和年龄A对直接影响b&lt;sub&gt;YX&lt;/sub&gt;的调节作用（即S、A与X对Y的交互效应，记为b&lt;sub&gt;Y(X*A*S)&lt;/sub&gt;或b&lt;sub&gt;Y(X*S*A)&lt;/sub&gt;）。&lt;/p&gt; &lt;/blockquote&gt;  &lt;blockquote&gt;   &lt;p&gt;H6. 性别S和年龄A对间接影响b&lt;sub&gt;Y(M1-X)&lt;/sub&gt;等的调节作用（即S、A与X-M对Y的交互效应，分别记为b&lt;sub&gt;Y((M1-X)*A*S) &lt;/sub&gt;或&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; b&lt;sub&gt;Y((M1-X)*S*A)&lt;/sub&gt;等）。&lt;/p&gt; &lt;/blockquote&gt;  &lt;blockquote&gt;&lt;/blockquote&gt;  &lt;p&gt;你考虑了两种方案来检验H5和H6：一是将性别nested（嵌镶）到年龄中、二是将年龄嵌镶到性别中。表面上看，好像两者有根本区别，但实际上是一回事！性别和年龄是两个同等级别的调节变量，它们的联合影响是一种3rd-order interactions（三阶交互效应，也相当复杂），用公式来表述，如H5中的b&lt;sub&gt;Y(X*A*S)&lt;/sub&gt;或b&lt;sub&gt;Y(X*S*A)&lt;/sub&gt;，前者是年龄嵌镶在性别中、后者是性别嵌镶在年龄中，但无论谁嵌镶到谁中去，b&lt;sub&gt;Y(X*A*S)&lt;/sub&gt;和b&lt;sub&gt;Y(X*S*A)&lt;/sub&gt;两者是完全同价等值的。如果用SEM来检验，也无论谁嵌镶到谁中，你总需要将样本分拆成8个组（4个年龄组X2个性别组）。当然，在解读结果时，你可以而且需要根据自己的理论框架来确定A和S之间谁主谁仆的次序。&lt;/p&gt;  &lt;p&gt;最后，要说一下检验如此复杂模型的成本问题。如上所说，如果用SEM，需要8个组；基于每个组涉及5个自变量（X、M1-M4），按每个自变量需要20个案来计，你至少需要每组100个案，总样本800个案。当然，你的年龄组分布可能不均匀，所以总样本很可能要1000以上。如果不用SEM而用回归，可以不分组，但是变成了一个非线性模型，涉及了24对二阶交互关系和12对三阶交互关系，即使总样本有1000个案，也只少不多。样本数少了、会有什么后果？你的中介效应、调节效应和被调节的中介效应都有可能不显著。其中的最薄弱环节是中介效应（H2）。所以，建议你先将H2分成H2a-H2d四个分假设，分别检验A和S对各分假设的调节作用（= 4 X&amp;#160; (4 X 3 /2) X 2 = 48个组间比较，如果你想不通为什么会有48个组间比较，请详细演算一下），以简化模型。&lt;/p&gt;  &lt;p&gt;总结：中介效应、调节效应和被调节中介效应在理论上都是很吸引人的模型，但在实证上即昂贵又难操作，需要事先有充分的思想和技术准备。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-7783305483205030826?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/7783305483205030826/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=7783305483205030826' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7783305483205030826'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7783305483205030826'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/03/blog-post.html' title='如何确定两个调节变量之间的主次关系？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-7662230529346704664</id><published>2010-02-16T00:16:00.001+08:00</published><updated>2010-02-16T15:40:31.264+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><title type='text'>如何理解SEM的八个参数矩阵与七种变量之间的对应关系？</title><content type='html'>&lt;div&gt;s @ 2010-02-05:&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;曾看过你的帖子“&lt;a href="http://zjz06.blogspot.com/2010/02/lisrel.html" target="_blank"&gt;LISREL的八个矩阵&lt;/a&gt;”，最近在学习用AMOS做SEM分析，不知两者有何关系？&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;庄主 @ 2010-02-15：&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;如我在上述帖子中说的，LISREL是用八个矩阵来设置SEM模型的。这些矩阵分别代表了SEM模型中七种变量的参数。在LISREL中，变量与参数之间的对应关系是比较明确、不易混淆的。如，大家知道，描述因子与其测量指标之间关系的参数叫做“因子负荷”，其中外生因子测量指标x的负荷矩阵是用Λ(x)来估算、内生因子测量指标y的负荷矩阵是用Λ(y)来估算的，两者不能放在一起（即外生因子无法与y相连而内生因子无法与x相连）。这种规定在大部分情况下是合理和必要的。（当然，少数情况下，研究者也许有特殊理由需要将x挂到内生因子上或y挂到外生因子上，就需要设定特殊的“All-y model”（全y模型）。这种额外步骤，虽然麻烦，但防止了初学者因不知情而乱点鸳鸯谱。）&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;AMOS是通过图像来设置模型的，用户不再需要与八个矩阵的希腊字母打交道，所设置的模型是“What you see is what you get”（WYSIWY），很容易上手、也避免了模型设置时的一些常见错误。但是，在这种“自由自在”的界面中，很容易犯一些LISRE里不会出现的错误。比如上面所说的，任意（或根据Modification Index的误导）将x挂到内生因子或将y挂到外生因子上去。这种模型或者无法identified、或者违反“误差项与自变量独立”的基本假定，因为AMOS以及其它SEM软件在估算模型的参数时，其实还是在背后使用上述矩阵。&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;为了帮助大家在用AMOS设置模型时避免设置不能或不该估算的参数，我在八大矩阵的基础上再做了一个表（见下），以显示八个参数矩阵与七种变量之间的关联与隔离：&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/S3pL5bKJl4I/AAAAAAAAAMo/6m4l4GIK-KE/s1600-h/8_Matrices_Table3%5B5%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="8_Matrices_Table3" border="0" alt="8_Matrices_Table3" src="http://lh3.ggpht.com/_bRlHaHZqzNE/S3pL6NTEsuI/AAAAAAAAAMs/oZ2oOdK-M10/8_Matrices_Table3_thumb%5B2%5D.png?imgmax=800" width="640" height="438" /&gt;&lt;/a&gt; &lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;表三的7列和7行分别代表了SEM的七个变量（包括外生因子ξ、内生因子η、η的误差ζ、外生因子的测量指标x、内生因子的测量指标y、x的误差δ、y的误差ε），它们在列里担任的是自变量的角色、而在行里担任的是因变量的角色。&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;两种变量相交的格里如果出现一个希腊字母，就说明它们之间存在一个参数矩阵（在下图中用黑色线条来表示）；而如果是个空格，就说明它们之间不能发生关系（在下图中用红线表示）。如第一列ξ与第一行ξ之间有个方差-协方差矩阵Φ（如下图中的φ&lt;sub&gt;12&lt;/sub&gt;）；第一列ξ与第二行η之间有个外生因子-&amp;gt;内生因子的回归系数矩阵Γ（如下图中的γ&lt;sub&gt;11&lt;/sub&gt;和γ&lt;sub&gt;22&lt;/sub&gt;）；第二列η与第一行ξ之间是空白（即图中η&lt;sub&gt;2&lt;/sub&gt;到ξ&lt;sub&gt;1&lt;/sub&gt;的错误红线），因为内生变量不能影响外生变量（AMOS是可以让你画这条线的，但这在逻辑上是错的）；当然第二列η与第二列η之间是可以有一个内生因子-&amp;gt;内生因子的回归系数矩阵Β（如图中的β&lt;sub&gt;12&lt;/sub&gt;和β&lt;sub&gt;21&lt;/sub&gt;）；等等。&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;表中还有三个记为“I”的矩阵，它们不在八个矩阵之内，而是三个对角线为1、其余部分为0的Identity矩阵，用来定义三种误差项变量（ζ，δ和ε）系数的数学工具，而AMOS在处理误差项变量系数时则是很“智能”的，会在相应处自动为它们标出取值为&amp;quot;1”的回归系数（见下图）。&lt;/div&gt;  &lt;div&gt;&amp;#160;&lt;/div&gt;  &lt;div&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/S3pL69YkafI/AAAAAAAAAMw/LuqySO48WSg/s1600-h/8_Matrices_Fig2_IllegalParameters%5B4%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="8_Matrices_Fig2_IllegalParameters" border="0" alt="8_Matrices_Fig2_IllegalParameters" src="http://lh4.ggpht.com/_bRlHaHZqzNE/S3pL7t-7vLI/AAAAAAAAAM0/vmKJqulGRm0/8_Matrices_Fig2_IllegalParameters_thumb%5B2%5D.png?imgmax=800" width="640" height="396" /&gt;&lt;/a&gt; &lt;/div&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-7662230529346704664?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/7662230529346704664/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=7662230529346704664' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7662230529346704664'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7662230529346704664'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/02/sem.html' title='如何理解SEM的八个参数矩阵与七种变量之间的对应关系？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/S3pL6NTEsuI/AAAAAAAAAMs/oZ2oOdK-M10/s72-c/8_Matrices_Table3_thumb%5B2%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3264770748433796674</id><published>2010-02-16T00:13:00.001+08:00</published><updated>2010-02-16T00:17:32.231+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><title type='text'>LISREL的八个矩阵</title><content type='html'>&lt;p&gt;(原版2007年5月19日，略有修改重发)&lt;/p&gt;  &lt;p&gt;传说中的“八大军区联络图”终于出笼了：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/S3lyqMl8SQI/AAAAAAAAAMI/cR4QMrjgf5E/s1600-h/8_Matrices_1e4.jpg"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" border="0" alt="8_Matrices_1e" src="http://lh5.ggpht.com/_bRlHaHZqzNE/S3lyqgJFKCI/AAAAAAAAAMM/xld2SRrJEko/8_Matrices_1e_thumb2.jpg?imgmax=800" width="720" height="540" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;上图看起来挺吓人的。别紧张，先定义一下。图中每个圆圈代表一个隐含因子、每个方块代表一个观测变量、每条直线或曲线代表一个参数（parameter，也叫系数）、跟在每条半封闭直线后面的是一个因子或变量的残差（error）。所谓“八大矩阵”，就是八种参数的集合。分别列在表一：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/S3lyrXOhmVI/AAAAAAAAAMQ/eYNnrsFOMRI/s1600-h/8_Matrices_table14.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" border="0" alt="8_Matrices_table1" src="http://lh5.ggpht.com/_bRlHaHZqzNE/S3lysOOXzmI/AAAAAAAAAMU/cNC-9tG0ePI/8_Matrices_table1_thumb2.png?imgmax=800" width="750" height="700" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;如表所示，其中前四个矩阵用于测量模型部分、后四个矩阵用于结构模型部分；每模型一部分又分别分为外生（即图一的左边）和内生（图一的右边）两边；每一模型部分的每一边，再分别分为关系参数和残差参数。即一个2 X 2 X 2的设计，十分严密。&lt;/p&gt;  &lt;p&gt;上面的图和表中，都用到了希腊字母、而且大小写并用，实在是三难（难认、难读、难记，读音参见表二）。其实经典统计学中也用到一点希腊字母，其规则是：变量名用罗马字母（即英文）、参数用希腊字母（如回归系数叫BETA）；总体变量和参数用大写、样本变量和参数估计值用小写。LISREL大体上沿用了这些规则。然而，由于SEM中的变量有观测的和隐含的之分，LISREL的创始人Joreskog决定沿用罗马字母表示观测变量、但用希腊字母表示隐含因子。其用意可嘉、但结果使得参数和隐含因子分享同一套符号而产生了很多困扰。（如果该老友用禅经字母来表示隐含因子、那该多爽啊。）&lt;/p&gt;  &lt;p&gt;八大矩阵是LISREL的核心思想，也是其与AMOS、EQS等其它软件的主要不同。其缺点如上所说，概念太多、名字难念、令人望而生畏。优点嘛，则见仁见智。我用了近20年，觉得其好处主要有两个：：一是便于区分外生因子（exogenous factors）与内生因子（endogenous factors）之间、隐含因子与观测变量之间、以及因子/变量的各种相关系数之间的差别；二是便于用户之间交流（包括写学术报告）时有一套确定而又简便的符号系统。&lt;/p&gt;  &lt;p&gt;当然，是否值得仅仅为了这些好处而去重学一种外语（希腊语），则又是见仁见智了。我的看法，如果你用LISREL，那只能学；如果你用其它软件、但有志成为SEM的pro，那也要学一下（不然如果与主流沟通？）；如果你用其它软件而无意成为SEM方法专家，不学也罢，有所失必有所得。&lt;/p&gt; &lt;/span&gt;  &lt;div&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/S3lysuXpSTI/AAAAAAAAAMY/Q6ipXpNFv-M/s1600-h/8_Matrices_Table28.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="8_Matrices_Table2" border="0" alt="8_Matrices_Table2" src="http://lh3.ggpht.com/_bRlHaHZqzNE/S3lytbfwckI/AAAAAAAAAMc/fDomhPlc7oU/8_Matrices_Table2_thumb5.png?imgmax=800" width="750" height="613" /&gt;&lt;/a&gt;&lt;/div&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3264770748433796674?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3264770748433796674/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3264770748433796674' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3264770748433796674'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3264770748433796674'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/02/lisrel.html' title='LISREL的八个矩阵'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/S3lyqgJFKCI/AAAAAAAAAMM/xld2SRrJEko/s72-c/8_Matrices_1e_thumb2.jpg?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-6695071844560752426</id><published>2010-02-08T00:21:00.001+08:00</published><updated>2010-02-08T00:21:48.503+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-显著性检验'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何识别回归分析中的压抑效应？</title><content type='html'>&lt;p&gt;DHF @ 2010-01-25：&lt;/p&gt;  &lt;p&gt;祝老师，您好，我是心理学专业学生，想向您请教一下，如何identify a variable as a suppressor variable in regression analysis? 我的数据中出现了类似于classical suppression的效应，但不清楚IV的regression weight提高多少才可以认为是suppression effect. 多谢！虎年顺利！ &lt;/p&gt;  &lt;p&gt;庄主 @ 2010-02-06:&lt;/p&gt;  &lt;p&gt;Suppression effects（压抑效应）是回归分析中的一个重要而又复杂但却不常见的概念。你提到classical suppression（经典压抑），自然也知道此外还有net suppression（净压抑）和cooperative suppression（合作压抑）。相比之间，经典压抑最罕见（以下会谈到），但最容易确认。我用模拟方法做过经典压抑数据，但在实际研究中从来没有遇到过这种数据。你好像中了彩票，值得庆贺。如不怕泄露学术机密，不妨描述一下你的数据以及你认为可能的原因。我相信很多读者都会有兴趣了解。&lt;/p&gt;  &lt;p&gt;考虑到大多数读者可能对压抑效应知之甚少，我先讲一些基本概念（估计你已经知道其中的大部分）。&lt;/p&gt;  &lt;p&gt;为了便于叙述，我们只讨论含有两个自变量的回归模型，即 Y = B&lt;sub&gt;1&lt;/sub&gt;X1 + B&lt;sub&gt;2&lt;/sub&gt;X2。其中，B1和B2是标准化回归系数，所以没有常数项），另外记X1与Y的相关系数为r&lt;sub&gt;y1&lt;/sub&gt;、X2与Y的相关系数为r&lt;sub&gt;y2&lt;/sub&gt;、X1与X2的相关系数为r&lt;sub&gt;12&lt;/sub&gt;。 习惯上一般将X1看做主要的自变量而将X2看做是压抑变量。当然，X1和X2是对称的，完全可以将X1看做压抑变量的。&lt;/p&gt;  &lt;p&gt;统计文献中有过不少压抑效应的定义，其基本思想基本一致，但具体公式上有所不同（所以结果也略有不同，但我不准备涉及那些技术细节）。就基本思想而言，压抑效应是根据r&lt;sub&gt;y2&lt;/sub&gt; 与 B2之间（或者r&lt;sub&gt;y1&lt;/sub&gt; 与 B1之间）的差别来确定的。具体说来，r&lt;sub&gt;y2&lt;/sub&gt; 可以取正值、负值和零值三种可能性，B2则有正值和负值两中可能（但B2不能为零，详见下文）。这样我们就要3 X 2 = 6种情况，分别属于经典压抑、净压抑和合作压抑：&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;r&lt;sub&gt;y2&lt;/sub&gt; = 0而B2 &amp;gt; 0，叫做 positive classical suppression（正向经典压抑）； &lt;/li&gt;    &lt;li&gt;r&lt;sub&gt;y2&lt;/sub&gt; = 0而B2 &amp;lt; 0，叫做 negative classical suppression（反向经典压抑）； &lt;/li&gt;    &lt;li&gt;r&lt;sub&gt;y2&lt;/sub&gt; &amp;gt; 0而B2 &amp;gt; r&lt;sub&gt;y2&lt;/sub&gt; ，叫做 positive cooperative suppression（正向合作压抑）； &lt;/li&gt;    &lt;li&gt;r&lt;sub&gt;y2&lt;/sub&gt; &amp;lt; 0而B2 &amp;lt; r&lt;sub&gt;y2&lt;/sub&gt; ，叫做 negative cooperative suppression（反向合作压抑）； &lt;/li&gt;    &lt;li&gt;r&lt;sub&gt;y2&lt;/sub&gt; &amp;lt; 0而B2 &amp;gt; -r&lt;sub&gt;y2&lt;/sub&gt;，叫做 positive net suppression（正向净压抑）； &lt;/li&gt;    &lt;li&gt;r&lt;sub&gt;y2&lt;/sub&gt; &amp;gt; 0而B2 &amp;lt; -r&lt;sub&gt;y2&lt;/sub&gt;，叫做 negative net suppression（反向净压抑）。 &lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;上述六种情况，都包含|B2|&amp;gt;|r&lt;sub&gt;y2&lt;/sub&gt;|的条件，即一个自变量的回归系数之绝对值必须大于其与因变量的相关系数之绝对值。这是压抑效应的必要和充分条件。这里的“大于”、“等于”、“小于”、“差别”等，都是在统计显著性检验的含义上说的。如，在一个样本中，r&lt;sub&gt;y2&lt;/sub&gt;的值可以不是0、而是一个与0没有显著差别的数值（当然是一个很小的数）；而B2绝对值与r&lt;sub&gt;y2&lt;/sub&gt;绝对值之间的差别一定要达到统计显著水平（至少为p &amp;lt; 0.05）。当然，如何进行这种统计检验则不是一个容易的事，因为检验H0：|B2|=|r&lt;sub&gt;y2&lt;/sub&gt;|的零假设，需要有B2和r&lt;sub&gt;y2&lt;/sub&gt;的联合标准误差SE&lt;sub&gt;B2,r&lt;sub&gt;y2&lt;/sub&gt;&lt;/sub&gt;，而无论相关分析和回归分析都无法计算SE&lt;sub&gt;B2,r&lt;sub&gt;y2&lt;/sub&gt;&lt;/sub&gt;。&lt;/p&gt;  &lt;p&gt;所幸的是这种困难对于经典压抑并不存在，因为根据定义，经典压抑的前提是r&lt;sub&gt;y2&lt;/sub&gt; = 0，所以检验经典压抑只须证明当r&lt;sub&gt;y2&lt;/sub&gt; = 0时，|B2| &amp;gt; 0（即上述情况1和2）。这大概就是你想知道的答案了。这么简单？是的。至今为止我看到的所有文献 都是这个意思。当然，|B2| &amp;gt; 0 仅仅表明B2有统计意义上的显著压抑效应，至于这种压抑效应是否具有实际或理论意义，则取决于B2的大小。这时，我们可以按判断回归系数大小的传统标准（如0.1为弱、0.3为中、0.5为强）来解读B2的压抑效应。&lt;/p&gt;  &lt;p&gt;虽然我们无法对净压抑和合作压抑的零假设做正式的统计检验，但我们也可以援引上述rule of thumbs（惯例）来解释|B2|-|r&lt;sub&gt;y2&lt;/sub&gt;|的大小。（我在写这个帖子时，突然想到，也许这个问题可以在SEM中通过equality constraint的方法来解决。我一下子没想好，如有进展，会在这里报告。）&lt;/p&gt;  &lt;p&gt;最后再补充一下：所谓“压抑效应”，是指上述回归模型因为引入了X2而将X1的方差中与Y无关之部分&lt;strong&gt;压抑&lt;/strong&gt;或&lt;strong&gt;过滤&lt;/strong&gt;掉了，从而&lt;strong&gt;改进&lt;/strong&gt;或&lt;strong&gt;提高&lt;/strong&gt;了该回归模型对Y的解释力。(The inclusion of X2 in the regression model suppresses or removes the part of variance in X1 that is unrelated to Y, which results in enhancement of the explanatory power of Y by the model.) 早年（也许是由于计算能力的局限），很多研究建立在相关分析基础之上，所以很有必要关注压抑效应的可能性。现在，多元回归分析是很多研究的起点。既然回归模型中已经同时考虑了X1和X2对Y的影响，那么X2的压抑效应已经被过滤了（当然也许还有X3、X4等等的压抑效应没有被过滤掉）。再加上压抑效应的数据不常见，所以现在很少人会检验压抑效应。但是，如果数据中真有压抑变量，其成因是很有价值的问题，弃之不顾太可惜了。同时，压抑效应的知识还可以帮助我们在研究设计阶段（即收集数据之前）将表面上与Y无关但与X1有关的X2包括在问卷或其它数据采集工具中。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-6695071844560752426?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/6695071844560752426/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=6695071844560752426' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6695071844560752426'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6695071844560752426'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/02/blog-post.html' title='如何识别回归分析中的压抑效应？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-6327283377483084672</id><published>2010-01-24T23:37:00.001+08:00</published><updated>2010-01-24T23:38:49.701+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何比较一个自变量对三个因变量的影响大小？</title><content type='html'>&lt;p&gt;ZYS @ 2010-01-23:&lt;/p&gt;  &lt;p&gt;Dear Dr. Zhu, &lt;/p&gt;  &lt;p&gt;I read your blog post on how to test the differences of two correlation coefficients posted on &lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!954.entry"&gt;http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!954.entry&lt;/a&gt;. Is it appropriate to use your method for two regression models based on one sample population? &lt;/p&gt;  &lt;p&gt;My question is whether there is a appropriate way to test significant difference between regression coefficients of two different models from same sample population? For example in the below table, how would we statistically compare the difference between betas for political interest as predictors of DV in three conditions? This is a repeated measure experiment. the same group participants participated in three conditions in three months. In other words, the research question is whether the impact of political interest on opinion expression is moderated by condition... The reviewer wants a statistical test --but i didn't find a good way to test since they are not independent samples... &lt;/p&gt;  &lt;table cellspacing="0" cellpadding="0" width="80%" align="center"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td&gt;&amp;#160;&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Opinion expression in Condition 1&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Opinion expression in Condition 2&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Opinion expression in Condition 3&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;&amp;#160;&lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;&lt;em&gt;ß&lt;/em&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;&lt;em&gt;ß&lt;/em&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;&lt;em&gt;ß&lt;/em&gt;&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;Education&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.13*&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;-.07&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;-.06&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;Male &lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.10*&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;-.01&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.05&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;Age&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;-.04&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.28***&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.31***&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;White&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.04&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.03&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;-.03&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;Political Interest&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.33***&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.10*&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.08&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;R-square&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.04&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.09&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;.11&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="24%"&gt;         &lt;p&gt;F&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;3.60**&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;7.48***&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="18%"&gt;         &lt;p align="center"&gt;9.61***&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;Is there a better way this problem could be tackled? &lt;/p&gt;  &lt;p&gt;庄主 @ 2010-01-24:&lt;/p&gt;  &lt;p&gt;Your research question differs from the one in that post, where the issue is to compare the correlation coefficients between two independent variables (IVs) with the same dependent variable (DV) whereas your task is to compare the correlations between the same IV with three different DVs.&lt;/p&gt;  &lt;p&gt;One approach you can consider is repeated measures regression in general linear modeling (GLM), in which you form a within-subjects (WS) factor to account for the three DVs, and then regress the WS factor on your IV and control variables.&amp;#160; To test the significance of the differences among the relevant regression coefficients, you use the procedure described in &lt;a href="http://zjz06.blogspot.com/2009/02/blog-post_15.html"&gt;如何检验两个回归系数的差别？&lt;/a&gt;.&lt;/p&gt;  &lt;p&gt;Another approach, which I think simpler and easier to be understood, is to test a path model with&amp;#160; equality constraints in SEM (see the diagram below). Aside from your regular hypotheses, you fit a series of nested models to test the null hypothesis that &lt;i&gt;β&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt; = &lt;i&gt;β&lt;sub&gt;2&lt;/sub&gt;&lt;/i&gt; = &lt;i&gt;β&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt;. For example, you compare the fully unconstrained model in which &lt;i&gt;β&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;, &lt;i&gt;β&lt;sub&gt;2&lt;/sub&gt;&lt;/i&gt;, and &lt;i&gt;β&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt; are free to be estimated and the fully constrained model in which &lt;i&gt;β&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;, &lt;i&gt;β&lt;sub&gt;2&lt;/sub&gt;&lt;/i&gt;, and &lt;i&gt;β&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt; are fixed to be the same.&amp;#160; The difference in the resulting Chi-squares between the two models, tested with Chi-square distribution with 2 degrees of freedom, tests the above null hypothesis.&amp;#160; In addition, you can test the fully constrained model with three partially constrained models, each with a pairwise constraint such as &lt;i&gt;β&lt;sub&gt;1 &lt;/sub&gt;&lt;/i&gt;= &lt;i&gt;β&lt;sub&gt;2&lt;/sub&gt;&lt;/i&gt;, &lt;i&gt;β&lt;sub&gt;1 &lt;/sub&gt;&lt;/i&gt;&lt;i&gt;= B&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt;, or &lt;i&gt;β&lt;sub&gt;2 &lt;/sub&gt;&lt;/i&gt;= &lt;i&gt;β&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt;, to entertain the possibility that not all three coefficients are exactly the same but some pair(s) of them may be.&amp;#160; &lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/S1xpQziR3wI/AAAAAAAAAMA/1ZCvPxkl8P4/s1600-h/image%5B6%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/S1xpRUcXimI/AAAAAAAAAME/chE8U4oIpPo/image_thumb%5B4%5D.png?imgmax=800" width="400" height="302" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;With the data in the table you provided, I guess that Condition 1 would be significantly different from Conditions 2 and 3 whereas the latter two might not.&amp;#160; &lt;/p&gt;  &lt;p&gt;Good luck with your publication.&amp;#160; If it’s published, please come here to share your experience in getting published in journals.&amp;#160; Many readers of this blog would be very interested in learning from your experience.&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-6327283377483084672?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/6327283377483084672/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=6327283377483084672' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6327283377483084672'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6327283377483084672'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/01/blog-post_24.html' title='如何比较一个自变量对三个因变量的影响大小？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/S1xpRUcXimI/AAAAAAAAAME/chE8U4oIpPo/s72-c/image_thumb%5B4%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8601493042866687343</id><published>2010-01-24T20:47:00.001+08:00</published><updated>2010-01-24T20:47:27.942+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-协方差分析'/><title type='text'>如何解读回归与ANOVA的不同结果？</title><content type='html'>&lt;p&gt;Anonymous @ 2010-01-22:&lt;/p&gt;  &lt;p&gt;祝老师好！我是心理专业的学生，想请教一个具体的问题。对一个三类别变量作ANOVA结果显示类别1显著小于类别2和类别3，但将这三类转换为dummy variable，类别1为00，类别2为01，类别3为10，用同样的因变量来做回归时，结果是第一个dummy variable没有显著差异，而第二个dummy variable有显著差异，这是不是意味着类别2显著区别于类别1和类别3呢？如果是，为什么会出现这种结果呢？可能需要加上的是我在做回归时还引入了一些其它的变量，其中有一个会与类别变量有相关。&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-01-24:&lt;/p&gt;  &lt;p&gt;将一个含3个类别的名目变量转换成两个dummy variables（分别记为D1和D2）后做回归分析，D1反映的是类别1和类别2的差别、D2反映的是类别1和类别3的差别。那么为什么类别1和类别2的差别在ANOVA中显著而在回归中不显示？因为你在回归中加入了其它自变量而成为多元分析而ANOVA是只有一个自变量的单元分析。其实，你可以将那些新加的自变量作为协方差 (covariates) 放入ANOVA的，这时就成了ANCOVA (Analysis of Covariates)，其结果应该与你做的回归分析完全一样。&lt;/p&gt;  &lt;p&gt;你再问：D2为显著，是否说明了类别2显著区别于类别1和类别3呢？没有。D2只说明类别1和类别3的差别，与类别2无关。D1检验类别1与类别2的差别。如果希望知道类别2与类别3的差别，将类别2设为基准组（即类别2取00值，而类别1为10值），那么D2就是反映类别2与3的差别了。 &lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8601493042866687343?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8601493042866687343/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8601493042866687343' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8601493042866687343'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8601493042866687343'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/01/anova.html' title='如何解读回归与ANOVA的不同结果？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8733877758277738448</id><published>2010-01-16T15:43:00.001+08:00</published><updated>2010-01-16T15:45:06.170+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>如何检验交互效应的显著性？(更新版)</title><content type='html'>&lt;p&gt;yxf @ 2009-12-29:&lt;/p&gt;  &lt;p&gt;庄主您好：我是一名博士生，怀着非常忐忑的心情给您写这篇文章。我经常拜读您竹家庄上的文章，受益很深。您在2009年4月11日文章“&lt;a href="http://zjz06.blogspot.com/2009/04/blog-post.html"&gt;如何绘制调节效应的图形&lt;/a&gt;？”，我能够看懂，但是用您的绘制调节变量的图形的方法于下面这篇文章得出的回归系数，和该文章得出的回归系数，为何不同？ &lt;/p&gt;  &lt;p&gt;这是发表于《管理世界》2009年第一期的一篇文章（下面复制了它的两个图和一段文字）。 &lt;/p&gt;  &lt;p&gt;首先，根据您的绘制调节变量图形的方法， &lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = 0.405X + 0.360Z - 0.186XZ + 常数 =（0.405 - 0.186Z）x + 0.360Z+常数&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&lt;a name="OLE_LINK2"&gt;&lt;/a&gt;&lt;a name="OLE_LINK1"&gt;（&lt;/a&gt;1）低中国人传统性，取Z为均值减一个标准差，为-0.647，此时Y = [0.405 - 0.186 × (-0.647)]X + 0.360 × (-0.647) + 常数 = 0.525X+常数 &lt;/p&gt;  &lt;p&gt;（2）高中国人传统性，取Z为均值加一个标准差，为0.647，此时Y = [0.405 - 0.186 × (+0.647)]X + 0.360 × (+0.647) + 常数 = 0.525X + 常数 = -0.285X + 常数 &lt;/p&gt;  &lt;p&gt;但是，为什么这篇文章得出的结果不同呢？ &lt;/p&gt;  &lt;p&gt;（1）低中国人传统性，Y = 0.503X + 常数 （p＜0.01） &lt;/p&gt;  &lt;p&gt;（2）高中国人传统性，Y = 0.018X + 常数 （p＞0.01） &lt;/p&gt;  &lt;p&gt;这篇文章的结果正确吗，它是如何计算出来的，特别是它的p值是如何计算出来的？是不是我没有正确领会您的“如何绘制调节效应的图形？”的内涵？ &lt;/p&gt;  &lt;p&gt;（庄主注：yxf的信中附有原文的部分页面，因涉及版权，这里删去。有兴趣者请参阅：汪林、储小平、倪婧：“领导—部属交换、内部人身份认知与组织公民行为”,《管理世界》2009年第1期，97-108页。) &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-12-30： &lt;/p&gt;  &lt;p&gt;你提了两个问题。一是如何计算“低传统”组和“高传统”组各自的回归斜率；二是如何检验这些斜率的统计显著水平？以下分别简答之。&lt;/p&gt;  &lt;p&gt;一、如何计算分组回归斜率（也叫“简单斜率”）？我在多个前贴（包括你提到的“&lt;a href="http://zjz06.blogspot.com/2009/04/blog-post.html"&gt;如何绘制调节效应的图形&lt;/a&gt;”一文）中已介绍过，简单斜率是根据总样本回归模型&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X + b2Z + b3XZ&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;而计算出来的。即先选定若干个Z的值（如本例中小于和大于“传统性”均值的一个标准差，分别记为Z1和Z2），然后代入公式1，就有&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X + b2Z1 + b3XZ1 = (b0 + b2Z1) + (b1 + b3Z1)X&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (2) &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;和&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X + b2Z2 + b3XZ2 = (b0 + b2Z2) + (b1 + b3Z2)X&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (3) &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中b1+b3Z1是低传统组的简单斜率、b1+b3Z2是高传统组的简单斜率。这种方法，与论文作者所参照的Aiken and West (1991)的方法是完全一样的。&lt;/p&gt;  &lt;p&gt;至于具体计算，只是做简单的加减乘，没有特别深奥的地方。当然，先要弄清Z1和Z2是原始数据还是取中值 (centered score)。在本例中，前者为3.52±0.647而后者为±0.647（因为取中值的均值为0）。你是用后者来计算的，你的结果中低组的斜率是对的（0.525），但高组的斜率错了，应该也是正数（0.285）而不是负数（-0.285）。我估计你算对但写错了。&lt;/p&gt;  &lt;p&gt;作者为什么算出来分别是0.503和0.018？我看了原文，他们没有交代用的是原始数据还是取中值。如果用的是原始数据，结果应该分别是-0.129和-0.370，与其上下文不合。估计他们用的是取中值，但手算时出错了。你不妨直接写信问他们一下？&lt;/p&gt;  &lt;p&gt;二、如果检验简单斜率的显著性？我在有关前贴中也应该讲过，但一下子查不出来，所以再讲一下。我们知道，一个回归方程的斜率（如b1），可以用t = b1/se&lt;sub&gt;b1&lt;/sub&gt; 来检验。同样，简单斜率b1+b3Z的显著性也是用一个类似的 t-检验来完成的（注意，要将这里的b1+b3Z当做一个常数来看），即&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/Sztyxu3ZYQI/AAAAAAAAALw/tlMCqgv3jDI/s1600-h/image%5B1%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh6.ggpht.com/_bRlHaHZqzNE/SztyyYx9ITI/AAAAAAAAAL0/oq_0HZxYJtw/image_thumb.png?imgmax=800" width="100" height="62" /&gt;&lt;/a&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （4）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;其中的分母就是简单斜率的标准误差，SPSS或其它统计软件不会直接报告这个参数，但可以根据以下公式&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SztyylR36xI/AAAAAAAAAL4/dBnIaxE1GRA/s1600-h/image4%5B1%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/Sztyy_XpmrI/AAAAAAAAAL8/aVYOqHx4I5M/image4_thumb.png?imgmax=800" width="360" height="52" /&gt;&lt;/a&gt;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （5）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;手工算出，其中的se&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;b1&lt;/sub&gt;和se&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;b3&lt;/sub&gt;分别是b1和b3的方差(variance)、cov&lt;sub&gt;b13&lt;/sub&gt;是b1和b3的协方差(covariance)（注意：这里提到的是b1和b3的方程-协方差而不是X和Z的方差-协方差），在SPSS中在Statistics的选项中选择“BCC”可以获得这些参数，而这里的Z则用上述的Z1或Z2值来代入。&lt;/p&gt;  &lt;p&gt;算出公式4的t-值后，就可以查表得出其相对应的p-值了。估计原文作者就是这么做的。当然，他们如果报告一下两个t-值和对应的两个p-值各为多少，就更令人信服了。&lt;/p&gt;  &lt;p&gt;yxf @ 2010-01-07 &lt;/p&gt;  &lt;p&gt;庄主，您好：非常感谢您的回复。我非常仔细地学习了您的“如何检验交互效应的显著性？”，感觉帮助非常大。在您的回复中，“二、如果检验简单斜率的显著性？”有一段话 &lt;/p&gt;  &lt;p&gt;“简单斜率b1+b3Z的显著性也是用一个类似的 t-检验来完成的（注意，要将这里的b1+b3Z当做一个常数来看），即公式4（省略），其中的分母就是简单斜率的标准误差，SPSS或其它统计软件不会直接报告这个参数，但可以根据以下公式5（省略）手工算出，其中的se&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;b1&lt;/sub&gt;和se&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;b3&lt;/sub&gt;分别是b1和b3的方差(variance)、cov&lt;sub&gt;b13&lt;/sub&gt;是b1和b3的协方差(covariance)（注意：这里提到的是b1和b3的方程-协方差而不是X和Z的方差-协方差），在SPSS中在Statistics的选项中选择“BCC”可以获得这些参数，而这里的Z则用上述的Z1或Z2值来代入。” &lt;/p&gt;  &lt;p&gt;这里，se&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;b1&lt;/sub&gt;、se&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;b3&lt;/sub&gt;、cov&lt;sub&gt;b13&lt;/sub&gt;在SPSS中的计算方法我不太确定如何操作，因为不知道BCC是如何操作的？我找到两种方法，您认为哪一种方法算出的协方差是适合本文这里使用的，因为这两种方法算出的协方差不一致： &lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;Analyze—&amp;gt;Regression—&amp;gt;Linear—&amp;gt;Statistics—&amp;gt;Regression Coefficients中 &amp;quot;Covariance Matrix” 打钩，然后算出协方差矩阵； &lt;/li&gt;    &lt;li&gt;Analyze—&amp;gt;Correlate—&amp;gt;Biraviate—&amp;gt;Options中 &amp;quot;Cross-Product Deviations and Covariances” 打钩，然后算出协方差矩阵。 &lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;您认为哪一种方法是正确的，还是都不正确？正确的方法应该如何操作？ &lt;/p&gt;  &lt;p&gt;另外，“cov&lt;sub&gt;b13&lt;/sub&gt;是b1和b3的方差-协方差而不是X和Z的方程-协方差”，这两个协方差有何区别？ &lt;/p&gt;  &lt;p&gt;万分感谢！ &lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;庄主 @ 2010-01-16：&lt;/p&gt;  &lt;p&gt;用方法1而不是方法2。如我原文中所说，前者是回归系数(b1, b2, b3）之间的方差-协方差、而后者是自变量（X, Z）之间的方差-协方差，是风马牛不相及的完全两回事。&lt;/p&gt;  &lt;p&gt;大家应该对后者很熟悉，即使不那么熟悉、但在学习初级统计的相关系数部分时、多半也看到过相关系数与协方差之间的转换关系（Cov&lt;sub&gt;xz&lt;/sub&gt; = r&lt;sub&gt;xz&lt;/sub&gt;sd&lt;sub&gt;x&lt;/sub&gt;sd&lt;sub&gt;z&lt;/sub&gt;，即X和Z的相关关系r&lt;sub&gt;xz&lt;/sub&gt;乘上X和Z各自的标准差sd&lt;sub&gt;x&lt;/sub&gt;和sd&lt;sub&gt;z&lt;/sub&gt;就是X和Z的协方差Cov&lt;sub&gt;xz&lt;/sub&gt;）。很多学生对我说，他们的老师没有讲过这个公式。我的回答一般是“这还需要讲吗？”。比较一下相关系数的公式和协方差的公式，前者不就是少了sd&lt;sub&gt;x&lt;/sub&gt;和sd&lt;sub&gt;z&lt;/sub&gt;吗？甚至记不得公式，但一定知道相关系数是标准化的协方差、而协方差是非标准化的相关系数吧？将一个标准化的指标乘上其标准差不就是其非标准化的指标了吗？反之，将一个非标准化指标除以去标准差不就是标准化了吗？当然，如果只是通过老师的PPT讲义和点击SPSS菜单而学习统计的话（很可惜，现在的社会科学学生中大概99%是这么过来的），这些ABC原理都好像很陌生。青年朋友们：不要做PPT和SPSS的奴隶，多看书、并且经常手工演算各种公式吧。&lt;/p&gt;  &lt;p&gt;那么前者呢？很可能你们老师们没有讲过。其实我的老师们（当中不乏顶尖学者）也都没有讲到，因为回归系数的协方差一般用不到。曾有一位美国名校名导师培养出来的博士朋友问我，b1和b3是两个常数、它们之间怎么可能有相关系数呢？是的，回归系数是常数，但任何统计量（常数）都有一个抽样分布（即假定从同一总体中抽取无数个相同大小的样本，做同一回归而得到的无数个回归系数就构成了一个服从t的抽样分布），在这个抽样分布中的每个回归系数都是一个变量（而不是常数），所以各自都有自己的方差、而相互之间就有相关系数或协方差。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8733877758277738448?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8733877758277738448/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8733877758277738448' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8733877758277738448'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8733877758277738448'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2010/01/blog-post.html' title='如何检验交互效应的显著性？(更新版)'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh6.ggpht.com/_bRlHaHZqzNE/SztyyYx9ITI/AAAAAAAAAL0/oq_0HZxYJtw/s72-c/image_thumb.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-6545310045647711646</id><published>2009-12-12T23:18:00.001+08:00</published><updated>2009-12-12T23:18:54.408+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>为何回归方程的常数是负值？</title><content type='html'>&lt;p&gt;L君 @ 2009-11-18:&lt;/p&gt;  &lt;p&gt;老师，您好，我在做毕业论文。问题简化后说就是：有两个不同组别的多元线性回归方程进行比较&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;y1=a1+b1X1+c1X2+d1X3&lt;/p&gt;    &lt;p&gt;y2=a2+b2X1+c2X2+d2X3&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;1，2为两个不同的大区域（每个大区域都有40个小区域作为观测值）；y为污染总量，X1, X2, X3为三种类型的污染源面积（工厂，工地，居民区），b, c, d为三种污染源的单位面积污染量（在模型里都为正数）。现在需要比较1，2两地的污染状况，三种类型污染源的污染贡献量等。我得到的两个回归方程，b、c、d都为正数，但是常数项a1为正，a2为负。这样对单位污染量的比较有影响吗？可以这么分析吗？在这个分析中，可不可以给出非标准回归系数的回归方程，然后用标准回归系数（常数项为0）解释贡献量？但是单位面积污染量要继续用于后续计算的话，是用标准还是非标准的回归系数呢？&lt;/p&gt;  &lt;p&gt;但是，如果 y1＝30＋2X1＋3X2＋4X3、y2＝－300＋20X1＋30X2＋40X3，在两个区域，2区域的单位面积的效益就明比1大，但是在3类污染源面积相同的情况下，y总值是一样的？这个就不太好解释了。其实就算是都为正，但是相差较大的话，也不能比较区域1，2的单位面积效益大小？怎么解决这个问题呢？&lt;/p&gt;  &lt;p&gt;还有，这个模型的R平方，还有sig等检验系数有的不合格。之后我改用偏最小二乘法，用SPSS和SIMCA-P计算结果都和多元线性回归得到的方程一样。那是不是随便用哪个结果都行呢？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-12-06:&lt;/p&gt;  &lt;p&gt;你提到了好几个问题，其中第一题：两个样本的所有自变量和因变量（污染值或面积）取值都应该是非负值、或许都是正值（960万平方公里之内哪里还有0污染的净土？），但是两个对应回归方程的常数项a1为正、a2为负。你问：这对样本之间“单位污染量”的比较有影响吗？我这学期教的同学中也有问过：“变量全部为正值、为什么回归方程常数为负值？我觉得后者问题更有普遍意义，所以本贴主要谈这个问题，你的其余问题放在最后简单说一下。&lt;/p&gt;  &lt;p&gt;我们知道，常数项b0（你用a来表示，为了与本庄其它帖子一致，这里用b0）反映的是当所有自变量分别取值为0时因变量Y的值。但是，在很多实际研究中，出现负值的b0是一件很奇怪或很尴尬的事。在本例中，如果自变量X1-X3（工厂、工地、居民区）没有污染面积，那么该区域不仅没有任何污染而且还会“负污染”（世上真有比蓝天、绿地、白云更圣洁的境界？），真的很奇怪。其实，这仅仅是有关变量的取值区间及其关系强度之间的特定搭配而造成的错位而已。&lt;/p&gt;  &lt;p&gt;我们先从下图中获得一些直观的认识。图中的两条线分别代表一个回归方程，其中A线是向上的（即b1为正），但它在X = 0时Y &amp;lt; 0（即b0为负）；相反，B线是向下的（即b1为负），而它在X = 0时Y &amp;lt; 0（即b0也为负）。说明b0的取向与b1没有直接关系。另外，A的数据可以局限在A1-A2范围内，即X和Y全部为正值；也可以局限在A3-A4范围内，即X和Y全部为负值。反之，B的数据可以局限在B1-B2范围内，即X为全为负值而Y全为正值；或者局限在B3-B4范围内，即X全为正值而Y全为负值。当然，如果数据局限在A2-A3或B2-B3范围内，X和Y即可为正也可为负。以上六种情况，穷尽了X和Y的可能取值，但其回归方程的常数b0总是为负，说明b0的取向与X和Y的取值范围也没有直接关系。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SyO0V0ze8uI/AAAAAAAAALg/QFxFAO1ldCs/s1600-h/image%5B23%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SyO0WaWC37I/AAAAAAAAALk/Umy0qcTFfYM/image_thumb%5B17%5D.png?imgmax=800" width="480" height="346" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;那么，b0的取向到底受什么影响？其中有什么规律可循？我查了一些教科书，希望找到一个权威的说法来引用一下，可惜还没有查到（也许我查的不够广泛和彻底）。以下是我的推导，尚未得到“权威”认可，仅供大家参考。&lt;/p&gt;  &lt;p&gt;我们从简单回归方程出发：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1X&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;如重新组织公式1即有：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;b0 = Y – b1X&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (2)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;我们知道，如果b1已知（通过回归分析而得知）、就可以将Y和X的任意一对常数（如两者的均值、最大值、最小值、均值之一个标准差之上或之下、等等）分别代入公式2而求出b0。这里，我们分别用Y和X的最小值（记为“Ymin”和&amp;quot;Xmin”）来代入公式2：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;b0 = Ymin – b1Xmin&amp;#160;&amp;#160; (3)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;很显然，Ymin、Xmin和b1可以取任何值而公式3均可成立，这与我们从上图得到的直观理解是一致的。更重要的是，我们可以从公式3推导出b0取负值的条件：如果 b0 &amp;lt; 0, 那么Ymin – b1Xmin &amp;lt; 0, 也即&amp;#160; &lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;b1Xmin &amp;gt; Ymin&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (4)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;或者，&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;b1 &amp;gt; Ymin/Xmin&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (5)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;公式4告诉我们，如果Ymin小于Xmin与b1的乘积，那么该回归方程的常数b0为负值；而公式5则直接显示，如果Ymin与Xmin的比值小于b1，那么b0为负值。（当然，我们将公式4和5中的“&amp;gt;”改成“&amp;lt;”或“=”，则可得到b0为正值或为0的条件，但因为后两者属于“正常”现象，所以不再赘言。）&lt;/p&gt;  &lt;p&gt;好了，我希望大家至此明白b0为负实属正常情况，即不代表任何“负相关”、也不反映任何数据问题，而是我一开始说的那样：“有关变量的取值区间及其关系强度之间的特定搭配而造成的错位而已”。所谓“错位”，其实只是“错觉”而言。&lt;/p&gt;  &lt;p&gt;当然，这种错觉有时很难向读者交代或解释清楚，尤其是在A1-A2数据的情况下，出现一个负b0总会令人质疑的。有何解决方法？有，很简单，就是对X取中值（centering，详见本庄前贴）。X取中值后，回归方程的斜率b1保持不变，但b0会变，其已经不再是X = 0时Y的值，而是X=均值时Y的值。如果数据是A1-A2段的话，那么X的均值一定是正的，所以b0也一定为正（见下图，其中A1’和A2’分别为A1和A2的取中值）。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SyO0W5_zLeI/AAAAAAAAALo/E8nWRdABYc8/s1600-h/image%5B28%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SyO0XYWgreI/AAAAAAAAALs/Tq-3FCe3hss/image_thumb%5B20%5D.png?imgmax=800" width="480" height="346" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;最后简单回答一下L君的其它问题。&lt;/p&gt;  &lt;p&gt;一、虽然你的a1为正、a2为负，但两个方程仍然是直接可比的。a1为正、a2为负的意思是，区域1的“污染起点”（即在没有受到X1-X3的任何影响下）高于区域2（也许因为还有其它污染来源）。当然，如果你对两个样本的X1-X3都取中值后，a1和a2应该全部为正，看起来好像更可比，但它们之间的差别应该与现在的差别完全一样。当然，取中后的a1和a2的解读有所变化，反映的是自变量X1-X3各自为均值（即工厂、工地和居民区平均污染水平）时该区域的污染总量。&lt;/p&gt;  &lt;p&gt;二、比较两个方程，应该用非标准化回归系数（b）、而不是非标准化回归系数（Beta），因为b反映了X和Y的关系强度，而Beta则是用以下公式从b转换而来：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Beta = bSDx/SDy&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (6) &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中SDx和SDy分别是X和Y的标准差。我们知道，两个样本之间的X或Y的标准差会因为各自样本大小、异常值（如区域1有一个超大的异常值或区域2有一个超小的异常值）等因素而不同，所以即使两个样本的b相等，它们的Beta也很可能不等。所以，比较不同方程之间的Beta是没有意义的。&lt;/p&gt;  &lt;p&gt;如果你想比较X1-X3在两个区域的各自独立贡献(net contribution)，可以比较每个X与Y的semipartial correlation coefficient之平方（在SPSS回归中叫做PART）。&lt;/p&gt;  &lt;p&gt;   &lt;p&gt;&lt;/p&gt;    &lt;p&gt;&lt;/p&gt;    &lt;p&gt;三、如果你的数据满足了线性回归（OLS）的要求，那么OLS回归的结果是“蓝色的”（best linear unbiased estimate，间称BLUE，即最佳无偏线性估计），所以应该报告OLS回归结果。&lt;/p&gt;&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-6545310045647711646?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/6545310045647711646/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=6545310045647711646' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6545310045647711646'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6545310045647711646'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/12/blog-post_12.html' title='为何回归方程的常数是负值？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SyO0WaWC37I/AAAAAAAAALk/Umy0qcTFfYM/s72-c/image_thumb%5B17%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8927576446541732155</id><published>2009-12-05T19:04:00.002+08:00</published><updated>2010-01-24T20:19:42.309+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何提高间接影响模型的效应？（更新版）</title><content type='html'>&lt;p&gt;hz @ 2009-11-30:&lt;/p&gt;  &lt;p&gt;我提出了一个理论模型（见下图），假设A通过B和C对D有间接影响。实证数据表明，A-&amp;gt;B、B– C、C–&amp;gt;D的影响都显著，但是三者的乘积（即A–&amp;gt;D的间接影响）却不显著。另外，A–&amp;gt;D的直接影响也显著。不知有无方法提高间接影响？是否可以将显著水平从0.05放宽到0.10？&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/Sxo9Hp_-f1I/AAAAAAAAAK8/AZGbUqHJQrc/s1600-h/image%5B28%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/Sxo9IC7SwaI/AAAAAAAAALE/TbfAdpPUzxY/image_thumb%5B20%5D.png?imgmax=800" width="171" height="160" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-12-04:&lt;/p&gt;  &lt;p&gt;你的理解对了一部分，即A–&amp;gt;D的间接影响包括A–&amp;gt;B–&amp;gt;C–&amp;gt;D的所有回归系数之连续乘积 (= 0.30 x 0.20 x 0.10 = 0.006)。但在你的模型中，A-&amp;gt;D之间其实有三条间接路径：一是你说的A–&amp;gt;B–&amp;gt;C–&amp;gt;D；二是A–&amp;gt;B-&amp;gt;D；三是A–&amp;gt;C–&amp;gt;D（见下图）。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/Sxo9InKo7PI/AAAAAAAAALM/m3MQS58csCI/s1600-h/image%5B26%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh6.ggpht.com/_bRlHaHZqzNE/Sxo9Iwpk9sI/AAAAAAAAALU/UDbx8QL_37o/image_thumb%5B18%5D.png?imgmax=800" width="544" height="180" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;如果你的理论规定A–&amp;gt;D的间接影响只能有A-&amp;gt;B-&amp;gt;C-&amp;gt;D一条路径，是否可以？当然可以。但你须要预期到如此假设更难被证实。如果你的理论容许，那么加上A-&amp;gt;B-&amp;gt;D和A-&amp;gt;C-&amp;gt;D的间接影响之后会如何？一切取决于A-&amp;gt;C和B-&amp;gt;D的系数强度。你可以代入一些可能发生的数值来计算A-&amp;gt;D的总间接影响。如，&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;A-&amp;gt;B = 0.20和B-&amp;gt;D=0.20，总间接影响=0.086，可能不显著，同时也小于A-&amp;gt;D的直接影响； &lt;/li&gt;    &lt;li&gt;A-&amp;gt;B = 0.30和B-&amp;gt;D=0.30，总间接影响=0.126，虽然仍小于A-&amp;gt;D的直接影响，但可能显著，属于“弱间接影响”（参见前贴“如何检验两个中介变量的效应? ”&lt;a title="http://zjz06.blogspot.com/2009/04/blog-post_25.html" href="http://zjz06.blogspot.com/2009/04/blog-post_25.html"&gt;http://zjz06.blogspot.com/2009/04/blog-post_25.html&lt;/a&gt;或&lt;a title="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1159.entry" href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1159.entry"&gt;http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1159.entry&lt;/a&gt;）； &lt;/li&gt;    &lt;li&gt;A-&amp;gt;B = 0.40和B-&amp;gt;D=0.40，总间接影响=0.166，可能显著，并大于A-&amp;gt;D的直接影响，属于“强间接影响”。 &lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;当然，基于你现有的回归系数均在0.10到0.30之间，我怀疑即使将后两条间接路径等间接影响（假定两个未知的系数也在0.10到0.30之间）加进去，总间接影响还可能不显著。总之，间接影响模型在理论上很诱人、但在实证上要求很高，尤其是多阶段间接影响模型，一般都很难证明。&lt;/p&gt;  &lt;p&gt;最后，你问是否可以将显著水平条件放宽到0.10？答案是否定的。一、统计决策的显著水平（α）是在检验之前就要设置的，而不能在检验之后、因实证显著水平p大于α而将α提高。二、α一般设为0.05，代表犯Type I 错误的概念有5%，如果提高到0.10，则将Type I 错误提高到10%，除了初步的探索性研究之外，这种错误率太高。三、结构方程模型中的回归系数已经修正了测量误差，所以一般不应该再放宽其显著水平。&lt;/p&gt;&lt;p&gt;hz @ 2010-01-17:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在上次关于直接效应和间接效应的问题，我还有一个地方不明白：如何判断间接效应是在一定置信水平上显著？以A-&gt;B-&gt;C–&gt;D为例，判断三者的乘积（即A–&gt;D的间接影响）是否意味将A,B,C同时放入对D的回归方程，三者回归系数分别达到显著水平？&lt;/p&gt;&lt;p&gt;庄主 @ 2010-01-24:&lt;/p&gt;&lt;p&gt;文献上有过类似说法，但从未被证明过。现在一般的做法是用Bootstrapping求出三系数乘积 (如a x b x c)的standard error (如记为”se(abc)”) 的经验估计值，然后计算 abc/se(abc)的比率，该值也是服从t-分布的。AMOS里有Bootstrapping。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;div&gt; &lt;p class="MsoNormal"&gt;&lt;span class="Apple-style-span"  style="font-family:宋体;"&gt;&lt;span class="Apple-style-span" style="font-size: -webkit-xxx-large; "&gt;&lt;br /&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;/div&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8927576446541732155?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8927576446541732155/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8927576446541732155' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8927576446541732155'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8927576446541732155'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/12/blog-post_05.html' title='如何提高间接影响模型的效应？（更新版）'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/Sxo9IC7SwaI/AAAAAAAAALE/TbfAdpPUzxY/s72-c/image_thumb%5B20%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4464198173156456161</id><published>2009-11-15T21:05:00.001+08:00</published><updated>2009-11-15T21:05:46.863+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-Logistic回归'/><title type='text'>如何确定名目变量交互项的参照组是什么？</title><content type='html'>&lt;p&gt;台灣吳同學 @ 2009-11-13: &lt;/p&gt;  &lt;p&gt;老師您好,我是台灣的學生,對您的統計解釋相當有興趣。最近我遇到了一個問題,我嘗試把他說清楚,希望您可以幫我解惑。&lt;/p&gt;  &lt;p&gt;在我的logit model裡頭,有兩個類別變數，分別為性別與教育程度。其中,性別是男女二分變數(男=1,女=0),而教育程度則分為低,中,高三類(中=0).我的依變數是收入,分為低與高兩種(低=0).假設,我想探討性別與教育程度的交互作用(性別X教育程度),我的交互作用項只能把1.男X低教育和2.男X高教育放入模型中,請問我的交互作用項在這時候的參照類是什麼?是1.男X中教育? 還是2.女X中教育?&lt;/p&gt;  &lt;p&gt;另外,也想知道要如何解讀交互作用項B和EXP(B)的意義。希望您能看得懂我的問題,謝謝!&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-11-15:&lt;/p&gt;  &lt;p&gt;吴同学，从统计上来说你的问题并不难，但要解释清楚却简短不了，而且有点绕弯弯（所以提醒读者随手做些推算验证，以免绕不出来）。我把这类问题叫做technically simple but practical not trivial (技术上很容易但操作上不简单)，往往会被人疏忽或轻视，所以不容易找到答案。如你问的，实质上是一个“如何解读回归分析中交互项的系数？”的问题，对此我已写过好几个帖子（如“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!237.entry"&gt;如何在回归分析中检验和解读交互影响？&lt;/a&gt;”）。但是，你由于下面谈到的若干误解而对这个问题产生困惑，也许已问过其他人或查过其它参考文献，但却不得而知。&lt;/p&gt;  &lt;p&gt;我觉得你的困惑可能有三个来源混合而成：第一，你的因变量(dependent variable)不是收入本身、而是高收入与低收入之比例的对数，但无论你根据什么理由来如此构建因变量，你的问题与因变量性质无关，也就是说交互项的对照组问题在包括OLS、GLS、Logit、Probit、Logistic等等所有回归分析中是一样的。所以有关如何解读回归分析交互影响的文献（包括我自己的有关帖子）都是直接相关的。&lt;/p&gt;  &lt;p&gt;第二，你的两个自变量都是nominal scale (名目变量) 而不是更常见的interval scale (等距变量)，而且你用了dummy coding（哑变量编码）方法，但你对这种编码的原理了解不够（很多人都有同样问题），所以无法将如何解读定距变量交互影响的文献转换成你的答案。&lt;/p&gt;  &lt;p&gt;第三，也许是最重要的，是你将交互影响等同于main effects（主效应）影响了。此话怎讲？你知道一个名目自变量转换成哑变量之后，其回归系数描述的是该哑变量取值为1的“研究组”与取值为0的“对照组”之间在因变量Y的平均值上的差别。这种理解完全正确。但是，你将其推广到对交互项系数的理解上去了，所以会问该系数是跟哪个对照组在比较？&lt;/p&gt;  &lt;p&gt;为了有助其他读者理解你的问题，我用以下公式来表述你的回归模型：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1M + b2H + b3L + b4MH + b5ML&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中，Y是因变量的平均值（注意：为了写作方便，本文没有按惯例在Y上加一横杆来代表平均值），M是性别（因为Male=1，所以命名为M），H是高教育程度（High），L是低教育程度（Low），MH是你说的“男X高教育”的交互项，ML是“男X低教育”的交互项。b0是在性别和教育两个变量中同时担任对照组（即同时取值为0）的FM（女性中等教育）组的均值，b1是男女差别（即性别的主效应，注意：这句话在有交互影响条件下有问题的，见后面的简单讨论）、b2是高教育与中教育的差别（高教育主效应，注意：这句话在有交互影响条件下也是有问题的，见后面的简单讨论）、b3是低教育与中教育的差别（低教育主效应）、b4是性别与高教育的交互影响、b5是性别与低教育的交互影响。&lt;/p&gt;  &lt;p&gt;上面这段话中，大都分都是常识，唯一需要加以讨论的是什么叫做“性别与高（或低）教育的交互影响”。以b4为例，它反映的是“性别对高等-中等教育程度之间差别的影响”、或倒过来说，是“高教育对男女之间差别的影响”（这两种说法是等价的）。也就是说，b4描述的是高和中教育组之间的差别大小、在男性和女性之间是否相同；或者，男女之差的差别大小在高和中两组之间是否相同。这个意思，中文里说确实有点绕弯弯，用英文表述则相当清楚: b4 indicates whether the difference between the highly-educated and moderately educated groups is constant (uniform, equivalent, invariant, etc.) for men and women, respectively; or whether the difference between men and women is constant (…) for highly educated and moderately educated people, respectively.&amp;#160; &lt;/p&gt;  &lt;p&gt;这是问题的核心：主效应系数（b1-b3）反映的是组间差别，所以有研究组和对照组；但是交互项系数（b4-b5）反映的是组间差别的差别（difference between diffrences between groups, or difference between group-differences)，所以没有主效应系数意义上的对照组。也就是说，b4或b5反映的不是两个组之间是否有差别，而是两个组间差别之间是否有差别，所以不需要有、也不可能只有一个对照组。&lt;/p&gt;  &lt;p&gt;问题解决了吗？应该还没有。我希望大家能够记住两句话：一、交互项系数反映的是交互影响而不是组间差别（即“交互影响不等于组间差别”）；二、组间差别又是与（显著的）交互影响直接有关的。为了说明第二句话，我们来看看在交互项显著的条件下组间差别是如何计算的。我们可以根据模型1，写出计算你的六个组（= 2个性别组 x 3个教育组）的平均值Y的公式：（请大家拿出纸和笔来，将0和1值分别代入模型1，以复核实下述公式。光看不练，也许越看越迷糊。）&lt;/p&gt;  &lt;table border="0" cellspacing="0" cellpadding="5" width="850"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td valign="top" width="100" align="center"&gt;男高(MH):&lt;/td&gt;        &lt;td valign="top" width="700"&gt;Y&lt;sub&gt;MH&lt;/sub&gt;=b0 + b1x1 + b2x1 + b3x0 + b4x1x1 + b5x1x0 = b0 + b1 + b2 + b4&lt;/td&gt;        &lt;td valign="top" width="50"&gt;(2)&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="100" align="center"&gt;男中(MM):&lt;/td&gt;        &lt;td valign="top" width="700"&gt;Y&lt;sub&gt;MM&lt;/sub&gt;=b0 + b1x1 + b2x0 + b3x0 + b4x1x0 + b5x1x0 = b0 + b1&lt;/td&gt;        &lt;td valign="top" width="50"&gt;(3)&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="100" align="center"&gt;男低(ML):&lt;/td&gt;        &lt;td valign="top" width="700"&gt;Y&lt;sub&gt;ML&lt;/sub&gt;=b0 + b1x1 + b2x0 + b3x1 + b4x1x0 + b5x1x1 = b0 + b1 + b3 + b5&lt;/td&gt;        &lt;td valign="top" width="50"&gt;(4)&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="100" align="center"&gt;女高(FH):&lt;/td&gt;        &lt;td valign="top" width="700"&gt;Y&lt;sub&gt;FH&lt;/sub&gt;=b0 + b1x0 + b2x1 + b3x0 + b4x0x1 + b5x0x0 = b0 + b2&lt;/td&gt;        &lt;td valign="top" width="50"&gt;(5)&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="100" align="center"&gt;女中(FM):&lt;/td&gt;        &lt;td valign="top" width="700"&gt;Y&lt;sub&gt;FM&lt;/sub&gt;=b0 + b1x0 + b2x0 + b3x0 + b4x0x0 + b5x0x0 = b0&lt;/td&gt;        &lt;td valign="top" width="50"&gt;(6)&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="100" align="center"&gt;女低(FL):&lt;/td&gt;        &lt;td valign="top" width="700"&gt;Y&lt;sub&gt;FL&lt;/sub&gt;=b0 + b1x0 + b2x0 + b3x1 + b4x0x0 + b5x0x1 = b0 + b3&lt;/td&gt;        &lt;td valign="top" width="50"&gt;(7)&lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;模型2-7告诉我们如何计算六个组的平均值。为了便于计算它们之间的差别（更重要的是洞察它们之间的结构性关系），我们将模型2-7按以下方式重新安排一下：&lt;/p&gt;  &lt;p align="center"&gt;表一、性别与教育程度交叉组的回归系数比较&lt;/p&gt;  &lt;table border="0" cellspacing="0" cellpadding="3" width="800"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td valign="top" width="266"&gt;&amp;#160;&lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;M（男性）&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;F（女性）&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;H（高教育）&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;b0 + b1 + b2 + b4&amp;#160;&amp;#160; (2)&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;b0 + b2&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (5)&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;M（中教育）&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;b0 + b1&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (3)&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;b0&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (6)&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;L（低教育）&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;b0 + b1 + b3 + b5&amp;#160;&amp;#160; (4)&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="266"&gt;         &lt;p align="center"&gt;b0 + b3&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (7)&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;根据表一，我们可以很轻松地（目测）算出各组的差别。基于共有六组，共有 6 x 5 / 2 = 15对组组比较，我们用以下的矩阵形式来表示，以省些空间：&lt;/p&gt;  &lt;p align="center"&gt;表二、组间差别之计算方法&lt;/p&gt;  &lt;table border="0" cellspacing="0" cellpadding="3" width="850"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td valign="top" width="141"&gt;&amp;#160;&lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;MH&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;MM&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;ML&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;FH&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;FM&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;MM&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b2+b4&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;ML&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b2+b4–b3-b5&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;-b3-b5&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;FH&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1+b4&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1–b2 &lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1+b3+b5-b2&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;FM&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1+b2+b4&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1+b3+b5&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b2&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;FL&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1+b2+b4-b3&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1-b3&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b1+b5&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;b2-b3&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="141"&gt;         &lt;p align="center"&gt;-b3&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td colspan="6"&gt;         &lt;blockquote&gt;           &lt;p&gt;注：所有组间差别均由column group – row group（列标题中的组减去行标题中的组）构成。如MH-MM = b2+b4。如果想求行组减列组，只需将表二中所有系数的符号相反即可。&lt;/p&gt;         &lt;/blockquote&gt;       &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;由表二可知，只有三对组间差别是直接由回归系数告知的 (MM - FM = b1, FH – FM = b2, FM – FL = –b3；注意，这里的b1只反映中等教育程度上男女之间的差别、而不是所有教育程度上的男女差别；b2和b3只反映女性中不同教育程度的差别、而不是所有人中不同教育程度的差别，这就是我前面提到的对主效应系数的一般解释“在有交互影响条件下有问题的”的原因)，而且三者均只涉及主效应系数。另有两对组间差别是由两个主效应系数的组合而成 (MM – FL = b1 – b3, FH – FL = b2 – b3)。其它10对组间差别均涉及主效应和交互项系数的组合。其中尤其是MH - MM的差别，需要同时用到b4和b5两个交互项系数。&lt;/p&gt;  &lt;p&gt;这个练习说明什么？既说明交互项系数不等于组间差别、又说明（大部分）组间差别与交互项系数有关系。具体说来，这种“关系”，是附加在主效应系数的基础上产生的，也就是说交互项系数是对一对主效应关系的adjustment（调整）。其调整程度（微调或巨调）则有b4或b5取值决定。&lt;/p&gt;  &lt;p&gt;现在，问题解决了吗？也许有些读者还是有点迷糊，觉得名目变量交互分析好麻烦。对的，这就是我一开始说的“技术上容易操作上难”的道理。推而广之，凡涉及名目变量的多元分析（如loglinear modeling、multinomial logistic regression、等等），没有一样不是技术上容易操作上难的。大家要有充分的心理准备。&lt;/p&gt;  &lt;p&gt;在本例中，将问题变得相对简单（或容易？）一些的一种方法是不用哑变量编码、而用effects coding（效应编码？）或 contrast coding（配对编码？）。前者用+1定义研究组、-1定义对照组；后者则按一定的限定条件（恕不赘言）来设定任意两组或两集合组（如本例中高教育对中低教育）的比较。由两个效应编码变量构成的交互项反映了在该两个变量上取值为+1的研究组与所有组的（未加权）均值（虽然不一定等于样本均值、但接近“平均”的意思）之差别（如在本例中，可以是男性高教程度与样本“平均”的差别）；由两个配对编码变量构成的交互项则反映了被特定配对的两组或两集合组之间的差别（在这种条件下，交互项系数可以等于组间差别了）。当然，这两种编码（尤其是后者）比哑变量编码在操作上复杂很多、但好处是解读时简单。如果有意学习（或者经常要做）名目变量多元分析的读者，应该花时间分别学一下。（当然，必须说明，不够使用哪种编码方法，交互项的显著性结果是完全一样的。它们的差别只存在于SPSS或其它统计程序输出结果中的系数值，而不同的系数值都是可以互相换算的。）&lt;/p&gt;  &lt;p&gt;结束前，为完整起见，需要说明，这里虽然只讨论两个名目变量之间的交互项，其原则可以直接推广到三个或更多个名目变量之间的交互项。&lt;/p&gt;  &lt;p&gt;最后，你问如何解读“交互作用項B和EXP(B)”，上面已经讨论了b4-b5的解读。Exp(b)的解读与其相仿，唯一区别在于后者的临界点为1而前者为0，如Exp(b4) &amp;gt; 1或Exp(b5) &amp;gt; 1 反映教育程度的差别在男性中大于女性；相反，如Exp(b4) &amp;lt; 1或Exp(b5) &amp;lt; 1则反映教育程度的差别在男性中小于女性。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4464198173156456161?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4464198173156456161/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4464198173156456161' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4464198173156456161'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4464198173156456161'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/11/blog-post.html' title='如何确定名目变量交互项的参照组是什么？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3540427322725281662</id><published>2009-10-31T22:36:00.001+08:00</published><updated>2009-10-31T22:36:44.147+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-显著性检验'/><title type='text'>如何判断统计显著的差别是否具有实际意义？</title><content type='html'>&lt;p&gt;丁丁 @ 2009-10-02：    &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;老师，您好！我想问一个关于样本量的基础问题。通常我们有公式可以计算理论最小样本量。但我想问有没有最大样本量，不得因为如果样本量足够大，我可以证明任何没有实际意义的差别是不是statistically significant。比如说，3.75和3.50，SD 都为1.00，如果样本量个为100，不显著。如果是200，就显著了。同理，3.50和3.55，如各有10000，也显著了。但是没有实际意义。我看到很多研究就用这种方法，研究出了很多correlation significant的结果，或两者显著不同的结论。我觉得不对，却没有理论去说它不对。难道真如某人所说, 统计学家可以证明任何事吗?&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-10-31:&lt;/p&gt;  &lt;p&gt;抱歉，拖了将近一个月才回复你的问题。最近较忙，忙的原因之一是做有关博客写作的可持续性研究（好像就是在研究我自己为什么不能持续写博客）。&lt;/p&gt;  &lt;p&gt;你的问题涉及了样本量和统计显著性两个概念，为了理解两者之间的关系，还需要引入其它三个概念：errors in inferential decision（推断决策中的错误）、power of analysis （检验效能）、strength of relationship 或effect size（关系强度或效应规模，注1）。&lt;/p&gt;  &lt;p&gt;我们从统计显著性开始，因为大家在看一个统计分析（如相关、回归、方差等）的结果时，总是首先看其显著性（即p值是否小于预设的α值，如 0.05），然后据此而做出相应的推断决策。如p&amp;lt;α则拒绝零假设、p&amp;gt;α则接受零假设。大家知道，尽管有上述p值做依据，这种决策还可能含有误差。如当p&amp;lt;α时，也许零假设还是对的，这时就有犯概率为p的Type I error（型一或“拒真”错误）。相反，如当p&amp;gt;α时，也许零假设却是错的，这时就有犯概率为1 - p的Type II error（型二或“纳伪”错误）。相信大家都看过这些老套的话，但也许不知道这些老土道理是解决很多困惑（包括丁丁的问题）的基本原理。&lt;/p&gt;  &lt;p&gt;丁丁关心的是在大样本条件下犯型一错误的可能性。我们先看一下他（她）的例子：有两个均值，分别为3.7和3.5，各自的标准差均为1.0，由于不同样本量而出现了以下两种情况：&lt;/p&gt;  &lt;p&gt;一、当N = 100时，两个均值的联合标准误差 =&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SuxJhhfd0PI/AAAAAAAAAJs/BsH5qQLZZMY/s1600-h/clip_image002%5B3%5D.gif"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="clip_image002" border="0" alt="clip_image002" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SuxJh7qHaaI/AAAAAAAAAJw/DZ7iOLGZf5c/clip_image002_thumb.gif?imgmax=800" width="58" height="34" /&gt;&lt;/a&gt; = 0.14（注2），检验两个均值之差的t = (3.7-3.5)/0.14 = 1.41，其相应的p = 0.160（注3）。&lt;/p&gt;  &lt;p&gt;二、当N = 200时，两个均值的联合标准误差 =&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/SuxJifulPMI/AAAAAAAAAJ0/68N21RRiVis/s1600-h/clip_image002%5B4%5D%5B2%5D.gif"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="clip_image002[4]" border="0" alt="clip_image002[4]" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SuxJihLQJPI/AAAAAAAAAJ4/XIt3_ORBUd4/clip_image002%5B4%5D_thumb.gif?imgmax=800" width="61" height="34" /&gt;&lt;/a&gt; = 0.10，检验两个均值之差的t = (3.7-3.5)/0.10 = 2.00，其相应的p = 0.047。&lt;/p&gt;  &lt;p&gt;可见，随着样本的增大，原来不显著的差别现在显著了，这合理吗？就型一错误而言，完全合理。当N = 100时，如果我们拒绝零假设（即3.7 = 3.5），拒真（“真”= 零假设）的风险由16.0%，太大了，不能容忍；而当N = 200时，拒真的风险降为4.7%，在可以容忍的范围内，所以是合理的。&lt;/p&gt;  &lt;p&gt;那么，统计上显著的就一定是实际上重要或有意义的吗？自然不是。问题是我们如何判断一个统计显著的结果是重要或有意义？丁丁想知道的大概就是这种判断根据。这种根据，就是我们说的关系之强度或效应之规模（而不是样本最大量问题）。&lt;/p&gt;  &lt;p&gt;判断关系强度或效应规模的一个直观（即非正式）准则是两个均值之差要大于均值的十分之一（注4）。如在本例中，均值之差为0.2、远小于均值的十分之一（0.35或0.37，取决于我们以那个均值为比较基准），显然，即使当N = 200时0.2的差别是统计显著的，但其差别还比较小（相对于均值的取值），没有特别的意义。&lt;/p&gt;  &lt;p&gt;判断关系强度或效应规模，还有很多更正式的准则，如Pearson’s r（用于关系强度）或Cohen’s d（用于均值之差，注5），两者还可以互相转换（注6）。在本例中，Cohen’s d = 0.2（注7）。按照Cohen的说法，如果d值小于0.3，效应规模为small（小效应）、如果d值在0.5附近，效应规模为medium（中效应），而如果d值在0.8以上效应规模则为large（大效应）。 &lt;/p&gt;  &lt;p&gt;我们也可以将d转换成Pearson’s r = 0.1。一般说来，r = 0.1 也是一个弱相关。&lt;/p&gt;  &lt;p&gt;下图是对以上讨论的一个小结（包括丁丁问题的反面，即如果统计分析的结果不显著时，大样本有什么好处或坏处）。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SuxJjDtTlnI/AAAAAAAAAJ8/oe1RMR2prFo/s1600-h/image%5B26%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/SuxJjhNxElI/AAAAAAAAAKA/BvZ3nxRpXO8/image_thumb%5B18%5D.png?imgmax=800" width="640" height="367" /&gt;&lt;/a&gt;&amp;#160; &lt;/p&gt;  &lt;p&gt;上图也间接回答了丁丁最后引用的问题“统计学家可以证明任何事吗？”。是的，统计学家可以通过提高样本来拒绝零假设，但是，统计学家无法控制关系的强度或效应的规模。如何提高关系的强度或效应的规模？这既是一个理论问题、也是一个（数据收集）方法问题。本庄以前曾有涉及、日后有机会还会讨论，这里就不扯开去了。&lt;/p&gt;  &lt;p&gt;注释：&lt;/p&gt;  &lt;p&gt;注1：两者同义。关系强度多半用于相关或回归分析而效应规模多半用于方差分析。&lt;/p&gt;  &lt;p&gt;注2：丁丁没有交代是两个独立样本还是两个非独立样本，我们假定是前者。&lt;/p&gt;  &lt;p&gt;注3：双尾检验。p值可以根据给定的t值和自由度数，用Excel里的TDIST函数求出。&lt;/p&gt;  &lt;p&gt;注4：所以一般说来，做社会科学研究的学生最好分别修一门专讲数据收集方法课和一（至数）门统计课。&lt;/p&gt;  &lt;p&gt;注5：&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SuxJkNjNfxI/AAAAAAAAAKE/u2XkKJ-yxlU/s1600-h/image%5B4%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SuxJkeQXZQI/AAAAAAAAAKI/dzIJHs2siUE/image_thumb%5B2%5D.png?imgmax=800" width="224" height="95" /&gt;&lt;/a&gt;, 此外还有其它很多与Cohen’s d大同小异的计算均值之差的效应规模的公式。 &lt;/p&gt;  &lt;p&gt;注6： &lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/SuxJksjoX4I/AAAAAAAAAKM/D-9-W7AQV8s/s1600-h/image%5B16%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/SuxJlBBD33I/AAAAAAAAAKQ/kSLtXHvmwPQ/image_thumb%5B10%5D.png?imgmax=800" width="83" height="45" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;注7：算了老半天，d等于均值之差，这是因为两个组的样本量相等，否则会有所不同或很不相同。 &lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3540427322725281662?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3540427322725281662/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3540427322725281662' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3540427322725281662'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3540427322725281662'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/10/blog-post_31.html' title='如何判断统计显著的差别是否具有实际意义？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SuxJh7qHaaI/AAAAAAAAAJw/DZ7iOLGZf5c/s72-c/clip_image002_thumb.gif?imgmax=800' height='72' width='72'/><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-2533746130966650678</id><published>2009-09-20T20:58:00.002+08:00</published><updated>2009-12-30T22:13:59.335+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>为何两个模型的中介变量系数一样？</title><content type='html'>&lt;p&gt;tan @ 2009-09-14:&lt;/p&gt;  &lt;p&gt;祝老师,您好!这个星期的提问我看您都回答了,除了我提的问题。不知是您没注意到还是问题太初级而不值得回答。由于学识粗浅并确实想知道问题的解答，特此再次提问，烦请老师您或其他有识之人给予解惑。&lt;/p&gt;  &lt;p&gt;问题是有关用SEM检验中介效应的：变量W和Z为自变量（且W与Z之间没有显著的相关），Y为因变量，X为设想中的中介变量。首先是模型1，只涉及三条路经：W--X；Z--X；X--Y。所有路经系数都显著，模型的拟合度也可接受；接着是模型2，涉及五条路：W--X；Z--X；X--Y；W--Y；Z--Y，即模型2比模型1多了两条路经（W--Y；Z--Y），结果也是所有路经系数都显著，模型的拟合度也可接受。我不可理解的问题是：在模型1和2中，自变量（W和Z）与中介变量（X）的路经系数竟然一样，怎么会这样？但模型1中X--Y的路经系数要大于模型2中X--Y的路经系数。&lt;/p&gt;  &lt;p&gt;在此，我想请教的问题是：（1）上述模型（1和2）中，W和Z与X的路经系数有没有可能一模一样？在理论上成立吗？我担心在那个地方做错了。（2）根据您的几个帖子以及其它相关资料，中介效应并不是比较上述我所表述的两个模型的，但在我所学习的Marketing领域，有文献（作者还有一定的名气）却又是这样做的，特别提到：模型2拟合度可接受，所有路经关系都显著，故部分中介效应显著。这样做可以吗？再次感谢！ &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-09-20:&lt;/p&gt;  &lt;p&gt;上周有好几人提了问题，但我没有时间回答所有人的问题，只能按我对问题价值的判断而选择回答部分。我初看你的问题，觉得与8月31日匿名者提的问题相同（见&lt;a href="http://zjz06.blogspot.com/2009/09/blog-post_05.html"&gt;为何不同模型的路径系数和拟合度相同？&lt;/a&gt;）。我现在还是这么认为（即，即使不是同一人问的，道理一样）。考虑到读者中也许还有同样的问题，所以再说几句。&lt;/p&gt;  &lt;p&gt;为了便于讨论，我将你的两个模型画了出来（建议：很多时候一图胜千字、但这里的提问处不让上传图像，请大家讲图贴在自己的博客或其它公共空间上，然后在你的问题中做个链接）：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SrYkz78AnoI/AAAAAAAAAJk/MBsekLemMWU/s1600-h/image%5B4%5D.png"&gt;&lt;img style="border-right-width: 0px; display: block; float: none; border-top-width: 0px; border-bottom-width: 0px; margin-left: auto; border-left-width: 0px; margin-right: auto" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SrYk0X5_U-I/AAAAAAAAAJo/kOn33VkH1aY/image_thumb%5B2%5D.png?imgmax=800" width="640" height="273" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;问题一、“上述模型（1和2）中，W和Z与X的路经系数有没有可能一模一样？在理论上成立吗？”是否指λ&lt;sub&gt;xw&lt;/sub&gt; = λ'&lt;sub&gt;xw&lt;/sub&gt;和λ&lt;sub&gt;xz&lt;/sub&gt; = λ'&lt;sub&gt;xz&lt;/sub&gt;？如是，答案是肯定的。一个回归方程的系数当且仅当方程增减自变量时才可能变化。以本案为例，模型a涉及以下两个方程：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;X = λ&lt;sub&gt;xw&lt;/sub&gt;W + λ&lt;sub&gt;xz&lt;/sub&gt;Z&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (a1)&lt;/p&gt;    &lt;p&gt;Y = β&lt;sub&gt;yx&lt;/sub&gt;X&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (a2)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;而模型b也涉及两个方程：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;X = λ'&lt;sub&gt;xw&lt;/sub&gt;W + λ'&lt;sub&gt;xz&lt;/sub&gt;Z&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (b1)&lt;/p&gt;    &lt;p&gt;Y = β'&lt;sub&gt;yx&lt;/sub&gt;X + β'&lt;sub&gt;yw&lt;/sub&gt;W + β'&lt;sub&gt;yz&lt;/sub&gt;Z&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (b2)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;如果比较方程a1与b1，可见两者含有同样的自变量（W和Z），所以λ&lt;sub&gt;xw&lt;/sub&gt;一定等于λ‘&lt;sub&gt;xw&lt;/sub&gt;，λ&lt;sub&gt;xz&lt;/sub&gt;也一定等于λ&lt;sub&gt;xz&lt;/sub&gt;。（注：这是回归分析的基本原理，同样适用于SEM。）&lt;/p&gt;  &lt;p&gt;问题二、“模型1中X--Y的路经系数要大于模型2中X--Y的路经系数”。比较方程a2和b2，可见b2比a2多了两个自变量（W和Z），因此β&lt;sub&gt;yx&lt;/sub&gt;可能不等于β’&lt;sub&gt;yx&lt;/sub&gt;，条件是(1)W或Z与Y相关（即β'&lt;sub&gt;yw &lt;/sub&gt;≠ 0或β'&lt;sub&gt;yz &lt;/sub&gt;≠ 0）和 (2) W或和Z与X相关（即λ‘&lt;sub&gt;xw&lt;/sub&gt; ≠ 0或λ‘&lt;sub&gt;xz&lt;/sub&gt; ≠ 0）同时成立。既然现在β&lt;sub&gt;yx &lt;/sub&gt;&amp;gt; β’&lt;sub&gt;yx&lt;/sub&gt;，说明W或Z两者之中至少一个与X和Y同时相关。（注：这也是回归分析的基本原理。）&lt;/p&gt;  &lt;p&gt;问题三、“模型2拟合度可接受，所有路经关系都显著，故部分中介效应显著。这样做可以吗？”模型b的拟合度一定比模型a好，但是由于损失了2个自由度，所以要做统计检验以证明模型b与模型a之间有显著差别。如是，说明模型b更可取。但是，仅比较模型a和模型b而不比较模型b与只含W-&amp;gt;Y和Z-&amp;gt;的“直接影响模型”（参见&lt;a href="http://zjz06.blogspot.com/2009/04/blog-post_25.html"&gt;如何检验两个中介变量的效应?&lt;/a&gt;），确实不是检验中介效应的充要条件 (necessary and sufficient conditions)。为何你们marketing中有“一定名气”的作者这么做？我无法回答，我只知道科学面前人人平等。包括我在内的很多人都相信David Kenny的检验中介变量方法，不是因为他名气大，而是觉得他说的有道理。&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-2533746130966650678?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/2533746130966650678/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=2533746130966650678' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2533746130966650678'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2533746130966650678'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/09/blog-post_5481.html' title='为何两个模型的中介变量系数一样？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SrYk0X5_U-I/AAAAAAAAAJo/kOn33VkH1aY/s72-c/image_thumb%5B2%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-7979534986460154488</id><published>2009-09-13T01:06:00.001+08:00</published><updated>2009-09-13T01:07:11.677+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-固定样本'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-协方差分析'/><title type='text'>如何分析固定样本数据？</title><content type='html'>&lt;p&gt;H @ 20009-09-08:&lt;/p&gt;  &lt;p&gt;我在分析一个固定样本 (panel sample) 的数据，其中每个人被调查了两次，因变量是定距变量、自变量既有定距也有定类变量。我是第一次做Panel，参考了你在《传播统计学》第15章中“固定样本分析的主要步骤”一节，其中建议当因变量为定距变量、自变量即有定距也有定类变量、数据时点为2时，最简便的是使用回归分析、或者使用协方差分析，其结果应该是完全相同的（第405页）。我尝试了SPSS中GLM模型中的Univariate和Repeated Measures两种方法，以下是我用的指令 (其中Y1和Y2是因变量、X是定距自变量、Z是定类自变量)，&lt;/p&gt;  &lt;p&gt;UNIANOVA y2 BY z WITH y1 x/Design.&lt;/p&gt;  &lt;p&gt;GLM y1 y2 BY z WITH x/WSFACTOR = y 2 Polynomial/WSDESIGN = y/DESIGN.&lt;/p&gt;  &lt;p&gt;发现它们的结果并不相同，不知问题出在哪里？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-09-12: &lt;/p&gt;  &lt;p&gt;一、你用的UNIANOVA, 正式名字叫做 ANOVA with lagged dependent variable as a covariate（“含有因变量过去值的协方差分析”，简称ANCOVA，也就是我们书上说的协方差分析）。这种方法，与书上公式15-6的OLS regression with lagged department variable as an independent variable（“含有因变量过去值的经典回归分析”），在数学上完全一样，其结果当然也完全一样（参见前文&lt;a href="http://zjz06.blogspot.com/2009/02/glm.html"&gt;回归与GLM的分析结果真的不同吗？&lt;/a&gt;）。&lt;/p&gt;  &lt;p&gt;两者相比，协方差分析在操作上有一个好处：可以直接输入定类自变量，而在做回归分析前，则必须先将定类自变量转换成dummy variables (哑变量)。&lt;/p&gt;  &lt;p&gt;不管用协方差还是回归分析，最重要的是要明确被检验的零假设是什么？以本例来说，被检验的是以下的零假设：&lt;/p&gt;  &lt;p&gt;1. Y1对Y2没有显著影响；&lt;/p&gt;  &lt;p&gt;2. X对Y2没有显著影响；&lt;/p&gt;  &lt;p&gt;3. Z对Y2没有显著影响。&lt;/p&gt;  &lt;p&gt;注意，因为你用的“DESIGN”指令中没有任何自变量，说明你只想检验Y1、X和Z对Y2的main effects（主影响）而不建议三者之间的交互影响，也许这是你的理论问题所需，当然没有问题，而且也简化了这里的讨论。&lt;/p&gt;  &lt;p&gt;从这三个假设来看，假设1只是技术性需要（控制Y1与Y2之间的自相关），虽然绝大多数情形下两者会高度相关，但没有什么理论价值，所以不必介意。假设2和3是核心，分别显示在控制了Y1对Y2的影响之后，X和Z各自对Y2有无显著影响（请记住这句话）。&lt;/p&gt;  &lt;p&gt;二、你用的GLM，正式名字是Repeated Measures ANCOVA with two dependent variables （“含有因变量前后测量值的协方差分析”，简称RM-ANCOVA）。这种方法与上述的协方差或回归的不同之处在于其将Y1和Y2同时当做因变量，你将其取名为“Y”（注意，这里的Y是只存在于这个协方差分析之中的一个虚拟变量；并注意这个Y与我们书中405页上公式15-5中的因变量ΔY (= Y2 - Y1) 不是一回事，而是与multilevel（多层分析）第一层分析的思路是一致的）。&lt;/p&gt;  &lt;p&gt;我们也来看看这里检验的是哪些零假设：&lt;/p&gt;  &lt;p&gt;1. Y1与Y2之间没有显著差别 (即一种Test of Within-subjects Effects)；&lt;/p&gt;  &lt;p&gt;2. Y1与Y2之间的差别与X没有显著关系（即Y和X对从Y1到Y2变化的交互影响，也是一种Test of Within-subjects Effects）；&lt;/p&gt;  &lt;p&gt;3. Y1与Y2之间的差别与Z没有显著关系（即Y和Z对从Y1到Y2变化的交互影响，也是一种Test of Within-subjects Effects）；&lt;/p&gt;  &lt;p&gt;4. X对Y（即Y1和Y2的均值）没有显著影响（这是一种Test of Between-subjects Effects）；&lt;/p&gt;  &lt;p&gt;5. Z对Y（即Y1和Y2的均值）没有显著影响（也是一种Test of Between-subjects Effects）。&lt;/p&gt;  &lt;p&gt;上述零假设中，1与ANCOVA或回归分析的1相仿，检验自相关而已；4和5的意义不大（因为求Y1和Y2的均值没什么理论意义）；假设2和3也是核心，分别检验了X或Z对从Y1到Y2的变化的影响，与ANCOVA的假设2和3分别检验Y2有所不同：前者是一种Within-subjects Effects (前后变化)，而后者是一种Between-subjects Effects（横向比较）。当然，由于两个模型鉴于同样的数据，所以如果X或Z对Y的前后变化没有显著影响时，其对Y2也不会有显著影响。反之亦然。&lt;/p&gt;  &lt;p&gt;两者之间，究竟选用那种模型或报告那种结果，取决于你的研究问题。我个人觉得RM-ANCOVA提供的信息更丰富或更接近一般研究问题，但是其结果的解读更复杂，所以需要有对GLM模型比较深入的理解，否则还是以回归分析或ANCOVA为准。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-7979534986460154488?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/7979534986460154488/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=7979534986460154488' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7979534986460154488'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/7979534986460154488'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/09/blog-post_13.html' title='如何分析固定样本数据？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-6721177413278180152</id><published>2009-09-05T19:20:00.001+08:00</published><updated>2009-09-05T19:20:29.085+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>为何不同模型的路径系数和拟合度相同？</title><content type='html'>&lt;p&gt;Anonymous @ 2009-08-31：&lt;/p&gt;  &lt;p&gt;老师您好! 我也刚开始尝试使用SEM做中介效应分析,看了您的几个相关帖子,受益匪浅。恕我愚钝,还有几个问题不明白,还望进一步指教。&lt;/p&gt;  &lt;p&gt;1). 您在&amp;quot;&lt;a href="http://zjz06.blogspot.com/search?q=如何检验两个中介变量的效应"&gt;如何检验两个中介变量的效应&lt;/a&gt;&amp;quot;的帖子中提到：中介效应需要满足三个或者四个条件,其中包括:X或Z(自变量)对Y(因变量)的间接影响大于其直接影响（即 γAX × βYA &amp;gt; βYX 或 γBZ × βYB &amp;gt; βYZ ）。我不明白为什么一定要满足这个条件？如果是这样，是否意味着中介模型中间接效应都大于直接效应，或者说中介效应的比例大于50%。可我经常看到一些文献说，某某变量的中介效应比例为多少多少（低于50%），难道这是错误？&lt;/p&gt;  &lt;p&gt;2). 最近我也做了一个中介效应的模型，概念模型类似于6月30日“如何在模型拟合度和模型合理性之间选择？”帖子中的模型。首先用软件跑了模型1，所有系数都显著，模型的拟合度也可接受；接着跑了模型2，结果是所有路径系数也都显著，模型也可接受。我不理解的问题是：a.两个模型不一样，为什么拟合度都可接受；b.两个模型种，W和Z到X的路径系数尽然完全一样，模型都不一样了，怎么路径系数还会相同？其中，X到Y的系数，模型2要比模型1小？C.模型2中，数据显示 βwx * βxy &amp;lt; βwy ,请问这还存在中介效应吗？&lt;/p&gt;  &lt;p&gt;不好意思，一下子问了好多问题，也许许多问题还非常初级，见笑了。不慎感激！    &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-09-05:&lt;/p&gt;  &lt;p&gt;1). 为了理解你的问题，我重读了一项&lt;a href="http://zjz06.blogspot.com/search?q=如何检验两个中介变量的效应"&gt;原文&lt;/a&gt;，发现其中的直接影响符号写错了（现已改正），应该是γ&lt;sub&gt;YX&lt;/sub&gt;和γ&lt;sub&gt;YZ&lt;/sub&gt;或而不应该是β&lt;sub&gt;YX&lt;/sub&gt;和β&lt;sub&gt;YZ&lt;/sub&gt;（图中的符号是对的）。也就是说，你问题中提到的为何“γAX × βYA &amp;gt; βYX 或 γBZ × βYB &amp;gt; βYZ” 应该是“γAX × βYA &amp;gt; γYX 或 γBZ × βYB &amp;gt; γYZ&amp;quot;。（当然，你对原文的理解没有错。） &lt;/p&gt;  &lt;p&gt;我在原文中说过，严格的中介效应模型要求直接影响（即γYX 或 γYZ）彻底消失。这时，间接影响（γAX × βYA或 γBZ × βYB）自然大于直接影响。如果直接影响不等于0但小于间接影响，那么可以认为这是一种让步或妥协的微弱版（weak version）。如果再推一步，直接影响不但不等于0而且大于间接影响，那么直接影响是主流或中心路径(central route)、间接影响只是支流或边缘路径（peripheral route)，那么中介效应的原始意义就大大打折扣了。这是一个理论问题、不是纯粹的统计问题（意思是，间接影响还存在，但没有必要强调其涉及的“mediation process”了）。 &lt;/p&gt;  &lt;p&gt;我还没看到过你提到的&amp;quot;中介效应的比例大于50%&amp;quot;，是指间接影响的值至少为直接影响的值的一半吗？如果这样，那是对上述微弱版的进一步弱化。 &lt;/p&gt;  &lt;p&gt;2a). 你的两个模型不同（模型2多了四个系数、少了四个自由度）、但拟合度都可以接受的现象很正常和普遍，因为各自检验的零假设相同，都是模型与数据之间没有显著差别。但是，你还要检验一个零假设，就是两个模型的拟合度之间没有显著差别：如果两者确无差别（即由于增加了间接影响而提高的误拟合度被损失了的自由度所抵消了），则说明间接影响（即中介效应）并不显著；反之则说明存在显著的间接影响（中介效应）。&lt;/p&gt;  &lt;p&gt;2b). 你问“两个模型中，W和Z到X的路径系数尽然完全一样，模型都不一样了，怎么路径系数还会相同？”其中的W从何而来？估计你将我另一帖了的符号（其中也许W和Z是自变量、X是中介变量）混着用了。但是如果是这样的话，X不应出现在模型1.而你却说“X到Y的系数，模型2要比模型1小”相矛盾。难以理解。最简单的方法是提供两个表格，一是模型1的变量及其系数、二是模型2的变量及其系数。&lt;/p&gt;  &lt;p&gt;2c). 你问的就是：当一个间接影响小于直接影响时，是否还有必要和价值讨论中介效应？我上面已经讨论过。按经典的定义和学术界的主流看法，至少是意义不大。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-6721177413278180152?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/6721177413278180152/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=6721177413278180152' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6721177413278180152'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6721177413278180152'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/09/blog-post_05.html' title='为何不同模型的路径系数和拟合度相同？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-6071575665826756738</id><published>2009-09-05T17:43:00.001+08:00</published><updated>2009-09-05T17:43:11.925+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何理解“中介性模型是一个因果模型"?</title><content type='html'>&lt;p&gt;z @ 2009-08-31: &lt;/p&gt;  &lt;p&gt;我的研究假设包含一个中介变量而我的数据来自一次性调查(one-shot survey)，我用SEM分析，结果拟合的很好。但审稿人批评说，虽然模型拟合了，但并没有证明该模型的因果关系，如自变量先于中介变量、中介变量又先于因变量。 &lt;/p&gt;  &lt;p&gt;我在“中介关系之父”David Kenny的网上(&lt;a href="http://davidakenny.net/cm/mediate.htm"&gt;http://davidakenny.net/cm/mediate.htm&lt;/a&gt;)读到一句话“a moderational model is a causal model”（“中介性模型是一个因果模型”）。是否可以用来为自己辩护？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-09-05:&lt;/p&gt;  &lt;p&gt;恕我直言，你对Kenny的理解，可以说是典型的断章取义。以下是他原话的完整段落：&lt;/p&gt;  &lt;p&gt;“Note that a mediational model is a causal model. For example, the mediator is &lt;em&gt;presumed&lt;/em&gt; to cause the outcome and not vice versa.&amp;#160; If the presumed model is not correct, the results from the mediational analysis are of little value.&amp;#160; Mediation is not defined statistically; rather statistics can be used to evaluate a presumed mediational model.&amp;#160; The reader should consult the section below on&amp;#160; Specification Error.” （“中介性模型是一个因果模型。例如，假定中介变量影响因变量而不是反过来。如果这种前提假定并不成立，那么中介分析的结果就是毫无价值的。中介影响不能通过统计分析来证明，统计分析只能用来检验以中介性为前提的模型。读者应该参考以下有关模型设定中的错误。”）&lt;/p&gt;  &lt;p&gt;相信你一定学过因果关系的三项条件：自变量和因变量之间具有相关性；两者的产生又有先后之别；不存在导致这种因果关系的其它变量。在中介性模型中，这三项条件需要扩展一下：自变量(X)和中介变量(M)之间、中介变量和因变量(Y)之间各有相关性；三者之间的产生又各有先后之别(X-&amp;gt;M和M-&amp;gt;Y)；不存在导致这种因果链(X-&amp;gt;M-&amp;gt;Y)关系的其它变量。&lt;/p&gt;  &lt;p&gt;Kenny的话指的是在上述条件二存在的前提下，SEM或其它统计分析方法可以检验条件一（甚至条件三，如果你的模型中包括了“一切可能的第三者”）的合理性。如果条件二不存在（如一次性调查数据）的话，拟合得再好的SEM也只证明了X和M之间以及M和Y之间的相关、并没有证明X-&amp;gt;M-&amp;gt;Y的先后次序。也就是说，哪怕X和M以及M和Y各自高度相关，三者之间的因果链还有X-&amp;gt;Y-&amp;gt;M、M-&amp;gt;X-&amp;gt;Y、M-&amp;gt;Y-&amp;gt;X、Y-&amp;gt;M-&amp;gt;X、Y-&amp;gt;X-&amp;gt;M等五种其它可能性！&lt;/p&gt;  &lt;p&gt;如果你继续读一下Kenny有关“模型设定中的错误”一节的话，就会知道他在那段的开始还在强调上述（我演绎）的思想：&lt;/p&gt;  &lt;p&gt;“Mediation is a hypothesis about a causal network.&amp;#160; …&amp;#160; The conclusions from a mediation analysis are valid only if the causal assumptions are valid.”（“中介影响是一种有关因果网络的假设。 … 中介分析的结论只有在有关因果条件存在之下才能是正确的。”）&lt;/p&gt;  &lt;p&gt;还是那句老话，变量之间的因果次序是由数据的采集过程来决定的、而不是由统计分析（包括SEM）来决定的。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-6071575665826756738?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/6071575665826756738/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=6071575665826756738' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6071575665826756738'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/6071575665826756738'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/09/blog-post.html' title='如何理解“中介性模型是一个因果模型&amp;quot;?'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4184194588371159822</id><published>2009-08-30T23:03:00.001+08:00</published><updated>2009-08-30T23:06:29.351+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-Excel'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-软件比较'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-Fisher转换'/><title type='text'>如何在EViews或Stata里计算Finsher转化值？</title><content type='html'>&lt;p&gt;旭 @ 2009-07-23：&lt;/p&gt;  &lt;p&gt;祝老师您好！我是一个学经济学的学生，目前正在做毕业论文，是关于跨国GDP与消费之间相互关系的研究。看了您的“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!954.entry"&gt;如何检验两个相关系数的差别&lt;/a&gt;？”一文，感觉受益匪浅，帮助很大。因为这就是我要做的东西：把各国之间GDP与消费增长率的相关系数算出来，然后把对应的GDP与消费增长率的相关系数（如中美之间GDP增长率的相关系数和中美之间消费增长率的相关系数）做费雪转化，求出Z值看他们之间的区别显不显著。在文章里您给出来算费雪Z值的一个EXCEL公式，可以算出结果。但是我的导师说EXCEL不是一个ACCEPTABLE统计软件，让我用EVIEWS或者STATA软件做这个结果，想请教下您，能不能在这两个软件里做上述分析结果呢？如果可以，该怎么做呢？     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-08-30:&lt;/p&gt;  &lt;p&gt;任何软件只要其公式一样，结果应该是一样的，不存在高贵低贱之分。我曾说过，SPSS是傻瓜机而Excel是智能机，因为前者一般只报告计算结果而不显示计算步骤，而Excel是让你自己一步一步算出结果。就这意义上说，其它统计软件（包括EViews、Stata、SAS等）也是傻瓜机。当然，就本案的如何计算Fisher z-transformation而言，我在原文中教大家的是直接套用Excel提供的函数FISHER()，那也是一个傻瓜工具。但你也可以根据我原文中的公式&lt;/p&gt;  &lt;blockquote&gt;&lt;img style="display: inline; margin-left: 0px; margin-right: 0px" align="left" src="http://byfiles.storage.msn.com/y1px4UThI9BXgx_KqDyBxxqAxEyKDDvxEr8R5xCZO535bOJSctHCJpVwvDbJMjWxUp8A_Q6G-7MzRk16s7X07RiMg?PARTNER=WRITER" /&gt; &lt;/blockquote&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;写出如下的Excel计算公式：=0.5*LN((1+A2)/(1-A2))&lt;/p&gt;  &lt;p&gt;注，其中“A2”是你的相关系所在格。你也可以先用函数求、再用手工来验证。难道这样的结果还不acceptable？&lt;/p&gt;  &lt;p&gt;如果一定要用高贵的EViews、Stata或其它软件来计算，道理一样。首先，你要建一个新文件，将你的相关系数作为一个变量放到一个column里，然后写一句类似上述Excel公式的指令，如&lt;/p&gt;  &lt;p&gt;F = 0.5*LN((1+R)/(1-R))&lt;/p&gt;  &lt;p&gt;其中F是转换后的值，R是原始相关系数。我手头没有EViews和Stata的手册，不知它们是有LN还是其它符号来代表自然对数函数。&lt;/p&gt;  &lt;p&gt;再次呼吁：同学们大家起来，不要做统计软件的奴隶！&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4184194588371159822?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4184194588371159822/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4184194588371159822' title='3 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4184194588371159822'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4184194588371159822'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/08/eviewsstatafinsher.html' title='如何在EViews或Stata里计算Finsher转化值？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8806393540105212305</id><published>2009-08-30T00:21:00.001+08:00</published><updated>2009-08-30T00:23:26.786+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='研究报告写作'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>如何解读一个交互影响显著而简单斜率不显著的回归模型？</title><content type='html'>&lt;p&gt;Anonymous @ 2009-07-30:&lt;/p&gt;  &lt;p&gt;Hi, Dr ZHU, I may want introduce myself first, I am a Phd Candidate from your university majoring in xxx (EDITED BY 庄主). I find your forum by accident and I have read some reviews on it, I really feel it is a good place to know more statistics knowledge. &lt;/p&gt;  &lt;p&gt;I want to ask one question about the interaction effects of two independent variables (or we may also can say the moderating effect of one independent variable and one moderator, I may name them &amp;quot;A&amp;quot; and &amp;quot;B&amp;quot;) on one dependent variable (I may name it &amp;quot;C&amp;quot;). I first use the traditional method, OLS- multiple linear regression in SPSS to run the produced term A*B's effect on C, I got a significant result, the T value is around 2.2 thus the P&amp;lt;0.05.&lt;/p&gt;  &lt;p&gt;Then I further explore the internal mechanism of the interaction effect by using Cohen and Cohen (1983), Aiken and West (1991) and Dawson and Richter’s (2006) Simple Slopes Test [this method is designed for interpretation of the interaction effects of two continuous predictor variables, by this way one could interpret the significance level of the causal relationships between independent variable and dependent variable under high or low level of the moderator. To illustrate and test the significant interaction effects, separate regression lines were computed, plotted, and tested with one standard deviation below the mean on the moderating variables as well as one standard deviation above the mean of them.], this time I find the causal relationship between A and C is insignificant both under high B and low B level, in fact the coefficients take the opposite direction. Under high B level the coefficient between A and C is negative but insignificant, under low B level the coefficient between A and C is positive but insignificant.&lt;/p&gt;  &lt;p&gt;I originally explain the significant moderating effect is: although under both high and low B level the causal relationship between A and C is insignificant, but because of the opposite coefficient, thus the moderating effect (A*B) may still be significant. But current one famous professor rejected my explanation; he told me that the results were inconsistent: 1. from one side, the moderating effect is insignificant. 2. form the other side, both under high and low B level, the causal relationship between A and C is insignificant thus can be treated as no relationship. How can you say them taking moderating effect first and later told us the effects were equal (A and C have no relationship) under both conditions (high and low B level)? Thus I am a little confused, as you know, in many cases, run the linear regression will meet such question as I described, so commonly how can we explain this phenomenon to cope with the journal reviewers' critique on this issue? &lt;/p&gt;  &lt;p&gt;Many thanks! &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-08-29:&lt;/p&gt;  &lt;p&gt;Thanks for the detailed explanations of your question.&amp;#160; It’s satisfying to know that someone of my own institution also reads this blog. Sorry for the delayed response as I’ve been traveling in the summer. To benefit other readers who might not be efficient in English, please allow me to reply in Chinese.&lt;/p&gt;  &lt;p&gt;先简单回顾一下你的问题。你有模型1&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;C = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;A + b&lt;sub&gt;2&lt;/sub&gt;B + b&lt;sub&gt;3&lt;/sub&gt;AB&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (1)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中A、B和C都是定距变量。你用OLS回归检验，发现b&lt;sub&gt;3&lt;/sub&gt;（还是b&lt;sub&gt;1&lt;/sub&gt;或b&lt;sub&gt;2&lt;/sub&gt;？）的t值 = 2.2 (p &amp;lt; 0.05)，即AB对C有显著的交互影响。为了进一步理解这种交互关系的“内在机制”，你采用了Cohen &amp;amp; Cohen等推荐的“简单斜率检验法”(test of simple regression slope)，即根据模型1的结果，将B的均值±1个标准差的值（分别记为B&lt;sub&gt;H&lt;/sub&gt;和B&lt;sub&gt;L&lt;/sub&gt;）代人模型1，来算出以下两个简单回归模型的斜率：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;C = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;A + b&lt;sub&gt;2&lt;/sub&gt;B&lt;sub&gt;L&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;AB&lt;sub&gt;L&lt;/sub&gt; = (b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;2&lt;/sub&gt;B&lt;sub&gt;L&lt;/sub&gt;) + &lt;font color="#0000ff"&gt;(b&lt;sub&gt;1&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;B&lt;sub&gt;L&lt;/sub&gt;)&lt;/font&gt;A&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (2)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;和&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;C = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;A + b&lt;sub&gt;2&lt;/sub&gt;B&lt;sub&gt;H&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;AB&lt;sub&gt;H&lt;/sub&gt; = (b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;2&lt;/sub&gt;B&lt;sub&gt;H&lt;/sub&gt;) + &lt;font color="#0000ff"&gt;(b&lt;sub&gt;1&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;B&lt;sub&gt;H&lt;/sub&gt;)&lt;/font&gt;A&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; (3)&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;说明：因为B&lt;sub&gt;H&lt;/sub&gt;和B&lt;sub&gt;L&lt;/sub&gt;均是一个常数（而原来的B是一个变量），所以它们代入模型1后而得到的模型2和3，经过整理以后，都成为只含自变量A的一元（或简单）回归模型，而模型2中的b&lt;sub&gt;1&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;B&lt;sub&gt;L&lt;/sub&gt;和模型3中的b&lt;sub&gt;1&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;B&lt;sub&gt;H&lt;/sub&gt;就是你说的的简单斜率（就是我用蓝色标明的部分）。这时，你发现模型2的简单斜率b&lt;sub&gt;1&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;B&lt;sub&gt;L&lt;/sub&gt;成了负值而模型3的简单斜率b&lt;sub&gt;1&lt;/sub&gt;+ b&lt;sub&gt;3&lt;/sub&gt;B&lt;sub&gt;H&lt;/sub&gt;仍是正值。你进一步对这两个斜率作了显著检验，发现两者均不显著。你的结论是“虽然A在调节变量B的不同条件下对C都没有显著影响，但是A和B的显著交互影响仍然存在”。但是，一位著名教授不同意你的说法，理由是：一、你的交互影响不显著（我不理解这句话，因为它与你说的模型1中的t = 2.2有矛盾）；二、A在B的不同条件下对C的影响都不显著。（不知我的上述理解是否有误？）&lt;/p&gt;  &lt;p&gt;好了，现在谈谈我的看法。&lt;/p&gt;  &lt;p&gt;首先，我有两处不清楚：一、如我已在上面问过，模型1中显著的是b&lt;sub&gt;3&lt;/sub&gt;还是其它系数？二、你还没有提到，模型1中的A、B和AB是否为各自的centered values（“取中值”，以避免或降低AB与A、AB与C之间的相关程度）？鉴于你已读过Cohen &amp;amp; Cohen, Aiken &amp;amp; West等经典文献，应该熟悉检验交互影响的基本步骤，所以我的回答是基于以下假定的：一、你说的模型1中t = 2.2的显著系数是b&lt;sub&gt;3&lt;/sub&gt;；二、模型1中AB与A、AB与C之间并不相关（这点很重要，不然、假定一是没有意义的）。&lt;/p&gt;  &lt;p&gt;如果上述两个条件成立，那么你的A和B在样本中对C就是确实具有显著的交互影响。当然，因为你的t值接近临界值（1.96或更大），AB的交互影响应该是marginal（相当勉强）的，所以要审慎对待，至少要检查一下A的数据中是否存在异常值；如有异常值，则需要剔除后再次检验模型1，看看AB的影响是否继续保持显著，已确保该模型的robustness（“鲁棒性”）。&lt;/p&gt;  &lt;p&gt;你的主要困惑（也是你教授理由之二）在于：为什么在模型1的b&lt;sub&gt;3&lt;/sub&gt;显著的前提之下，模型2和3的斜率不显著？这里存在一个许多教科书上没有明确解释、但初学者往往容易误解的事实，即AB之间的显著交互关系只是说明自变量(A)对因变量(C)的主影响(main effects)将随着调节变量(B)的取值而变化，但并不保证在B的不同取值上A的所有主影响都是显著的（但至少有一个取值上A的主影响是显著的，否则AB不可能显著）。用英语说，A significant interaction effect ensures not only the main effect of an independent variable on a dependent variable varies across different levels of a moderator variable, but also at least one of the main effects is significantly different from zero. However, the significant interaction doesn’t guarantee all main effects of the independent variable on the dependent variable to differ significantly from zero. 我们很容易用以下的图示来说明这个道理。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SplVdSN7TiI/AAAAAAAAAJU/8Ba65oQiYzc/s1600-h/image%5B63%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; margin: 0px 10px 0px 0px; display: inline; border-top: 0px; border-right: 0px" title="image" border="0" alt="image" align="left" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SplVd0GitdI/AAAAAAAAAJY/B7xCdE13chM/image_thumb%5B43%5D.png?imgmax=800" width="400" height="250" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;左图是我随手画的，其中有五条回归线，但都是根据同一模型（如你的模型1）而取B的最大值(Max)、最小值(Min)、均值(Mean)、均值减一个标准差（你的模型2）、均值加一个标准差（你的模型3）而画出的。虽然没有实际数据，但可以大致猜出五条回归线所依据的模型1的b&lt;sub&gt;1&lt;/sub&gt;和b&lt;sub&gt;3&lt;/sub&gt;的取值范围，即b&lt;sub&gt;1&lt;/sub&gt;（即A的总斜率）应该等于0，b&lt;sub&gt;3&lt;/sub&gt;（即AB的交互影响）则明显大于0（因为A对C的影响是放射的、即随着B的增加而增加）。当然，我们并不知道（也无必要知道）b&lt;sub&gt;0&lt;/sub&gt;和b&lt;sub&gt;2&lt;/sub&gt;的取值范围，因为它们与本案毫无关系。&lt;/p&gt;  &lt;p&gt;图中B=均值的回归线显然是一条水平线，所以是不显著的(即斜率等于0)。而B=均值加/减标准差的两条线，虽然并非水平线，但也很接近，考虑到各自的抽样误差（注意，不要与标准差相混淆了）而其斜率与0没有显著差别（也许你的数据就是这种情况）。但是，B=极大值/极小值的两条线的斜率显然不等于0。如果我们再添加B=均值+/-2个标准差的两条线，可以想象它们的斜率也会不等于0。结论：当A和B对C有显著影响时，A对C的影响随着在B的取值而变化，有些显著而有些可能不显著。&lt;/p&gt;  &lt;p&gt;以上是直观的解释。我们还需要略正规一点地总结一下。回到模型2和3，注意其中的蓝色部分（即各自的斜率）。它们是否=0，是由下述公式来检验的：&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh3.ggpht.com/_bRlHaHZqzNE/SplVeOG5UCI/AAAAAAAAAI0/25XiFUkeQfo/s1600-h/image%5B54%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; margin-left: 0px; border-left-width: 0px; margin-right: 0px" title="image" border="0" alt="image" align="left" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SplVevtPsAI/AAAAAAAAAI4/TBRYmqwshIU/image_thumb%5B36%5D.png?imgmax=800" width="253" height="60" /&gt;&lt;/a&gt; &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;和&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SplVe8aZakI/AAAAAAAAAI8/5FR2scEenwg/s1600-h/image%5B61%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; margin-left: 0px; border-left-width: 0px; margin-right: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SplVgOKDwgI/AAAAAAAAAJA/ASRI047LG8c/image_thumb%5B41%5D.png?imgmax=800" width="262" height="60" /&gt;&lt;/a&gt; &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中Var&lt;sub&gt;b&lt;sub&gt;1&lt;/sub&gt;&lt;/sub&gt;和Var&lt;sub&gt;b&lt;sub&gt;2&lt;/sub&gt;&lt;/sub&gt;分别是b&lt;sub&gt;1&lt;/sub&gt;和&lt;sub&gt;2&lt;/sub&gt;的方差、Cov&lt;sub&gt;b&lt;sub&gt;1&lt;/sub&gt;b&lt;sub&gt;3&lt;/sub&gt;&lt;/sub&gt;是b&lt;sub&gt;1&lt;/sub&gt;和&lt;sub&gt;2&lt;/sub&gt;的协方差。我们略过如何计算系数的方差和协方差的技术细节，而来看一下如何使得t&lt;sub&gt;L&lt;/sub&gt;和t&lt;sub&gt;H&lt;/sub&gt;达到显著水平（即大于2）。不言而喻的是分子要大而分母要小。就分子而言，从表面上看b&lt;sub&gt;1&lt;/sub&gt;、b&lt;sub&gt;3&lt;/sub&gt;和B&lt;sub&gt;H&lt;/sub&gt;或B&lt;sub&gt;L&lt;/sub&gt;三者均要越大越好，但更重要的是要三者取同样方向，否则会互相抵消（这不容易做到，尤其是当数据经过中心化处理之后，B&lt;sub&gt;L&lt;/sub&gt;一定是负的，而b&lt;sub&gt;1&lt;/sub&gt;或b&lt;sub&gt;3&lt;/sub&gt;的方向也会因A或B的中心化而与原始数据的方向相反）。而且，调节变量的取值(B&lt;sub&gt;L&lt;/sub&gt;或B&lt;sub&gt;H&lt;/sub&gt;)也不是越大越好，因为同时也会扩大分母。结论：t&lt;sub&gt;L&lt;/sub&gt;和t&lt;sub&gt;H&lt;/sub&gt;的取值受到很多正反因素的影响，很难做到永远显著。但是，这与b&lt;sub&gt;1&lt;/sub&gt;是否显著没有一一对应关系。&lt;/p&gt;  &lt;p&gt;最后，你问如何使得期刊的reviewers接受你的解释。是的，有些（如果我用“很多”的话，大家可能会觉得我太狂妄，但是事实上“有些”不是一个小数目）reviewers也会将交互影响等同于主影响，所以你不仅要自己弄得很清楚，而且要说得很明白易懂，这时，公式和图表就是必要的辅助工具了。如何写好交互影响的报告，确是一个挑战。多读几遍Cohen &amp;amp; Cohen吧（他们的第三版就邀Aiken和West加盟合写了）。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8806393540105212305?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8806393540105212305/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8806393540105212305' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8806393540105212305'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8806393540105212305'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/08/blog-post_30.html' title='如何解读一个交互影响显著而简单斜率不显著的回归模型？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SplVd0GitdI/AAAAAAAAAJY/B7xCdE13chM/s72-c/image_thumb%5B43%5D.png?imgmax=800' height='72' width='72'/><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-929059228763802052</id><published>2009-08-22T21:30:00.001+08:00</published><updated>2009-08-22T21:33:07.879+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='研究报告写作'/><title type='text'>给SSCI期刊投稿应该先投后改还是先改后投？</title><content type='html'>&lt;p&gt;P @ 2009-08-20:&lt;/p&gt;  &lt;p&gt;您怎么看下面两位SCI/SSCI期刊审稿人的对话？有人也建议过我先送出去审，拿到意见再修改。&lt;/p&gt;  &lt;p&gt;甲：投稿又撤稿，特别是给出修改建议之后再撤稿，有点不厚道。我遇到很多次，写的审稿意见不比文章短，从字词到如何布局，那些内容如何做，都写到审稿意见里。善意地给了revise &amp;amp; resubmit的意见。实际上，按照标准，reject一句话就是了。可是，过几个月后发现发表在另外一个杂志上。这种做法可以理解，但是不厚道，至少应该想办法感谢审稿人。&lt;/p&gt;  &lt;p&gt;乙：我审稿也通常善意地给revise &amp;amp; resubmit的意见，很累，有些投稿者把审稿人当成论文加工把关人，不厚道。于是也慢慢的拒绝审一些稿件，或者直接reject。&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-08-22：&lt;/p&gt;  &lt;p&gt;我看了之后的第一个感觉就是我们有些同胞真聪明，知道如何玩这个游戏！但是事实上，将草草急就章的文章投出去，往往拿不到什么真正有价值的反馈。上面乙某说的就是一例。我亦是如此。刚开始做审稿人时，不分良莠，每篇文章都写较详尽的修改意见。记得最多一次密密麻麻用单行写了5页，应该有3000字吧（但跟别人相比，还不算很长，下面引述的研究中最长的意见有6000多字呢）。但后来慢慢地就变得区别对待了，仍然愿意给“好”文章（不仅理论和方法好，而且写得通顺）提建设性意见、而对“差”文章（或者理论/方法差，或者写作差、包括完全不顾APA style规则的，），则草草几句“锯”了。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/So_y9G8eqPI/AAAAAAAAAIc/l42IPf6mOV0/s1600-h/Seven%20Sins%5B7%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; margin: 0px 10px 10px 0px; display: inline; border-top: 0px; border-right: 0px" title="Seven Sins" border="0" alt="Seven Sins" align="left" src="http://lh4.ggpht.com/_bRlHaHZqzNE/So_y9u1Os3I/AAAAAAAAAIg/s7BMeGQrFes/Seven%20Sins_thumb%5B5%5D.png?imgmax=800" width="640" height="440" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;前不久读了Russell Neuman等人在JOC上发表的“传播研究中的七宗罪”一文，得知上述乙某和我的做法确实是大部分审稿人的习惯。Newman等分析了JOC的审稿人给100余篇投稿（包括采纳和拒绝的）写的具体意见，其中表四（见左）的数据展现的是审稿人对每篇来稿定的“罪名”数目。粗粗一看，被拒绝的稿件（白条）的罪名数少于被发表的稿件（黑条），如被发表的文章每篇平均有16条“表述不清”的罪名而被拒绝的文章每篇则有7条此类罪名。但是，这并不说明被拒的文章写得更好。恰恰相反，那些文字是too bad to be rescued（朽木不可雕），审稿人懒得多费心思。&lt;/p&gt;  &lt;p&gt;Neuman等还做了一个多元回归分析，发现审稿人给每篇投稿写的意见长短是预测该文是否被采纳的重要指标之一。具体而言，意见每多1000字，有关文章的发表率就提高9%！所以，当你收到投稿的反馈时，如果是数十的批评，应该暗暗庆幸，该文很有希望。&lt;/p&gt;  &lt;p&gt;以下是Neuman等的原文(下划线是我加的)：&lt;/p&gt;  &lt;p&gt;“We find a dramatically larger number of negative comments on average for accepted papers, especially on the dimensions of clarity, methodology, and completeness. On closer examination, it turns out to make sense in terms of the psychology of the hard-working volunteers called upon to provide the reviews. &lt;strong&gt;I&lt;/strong&gt;&lt;u&gt;f the overall importance and theoretical integration of a submission is weak, the reviewers simply do not bother to spend a lot of time&lt;/u&gt; with constructive but negative comments on such things as clarifying an argument and strengthening the methodological presentation. On papers likely to be published, reviewers may go to greater length to indicate how the authors might be more complete and clear in their presentation.” (p. 229)&lt;/p&gt;  &lt;p&gt;“This appears to be the academic journal review equivalent to the hoped-for thick envelope from a favored college to which one has applied—&lt;u&gt;the more the reviewers say, positive and negative, the more interest in the submitted paper&lt;/u&gt;. So we examined the cross-tabulation of the total number of reviewer words and the likelihood of publication and ran a rudimentary linear least squares and determined that &lt;u&gt;roughly for every additional 1,000 words of reviewer comments (including all dimensions), one’s chance of acceptance increases approximately 9%&lt;/u&gt;.” (p. 229).&lt;/p&gt;  &lt;p&gt;Reference&lt;/p&gt;  &lt;p&gt;Neuman, W. R., Davidson, W., Joo, S. H., Park, Y. J., &amp;amp; Williams, A. E. (2008). The seven deadly sins of communication research. &lt;em&gt;Journal of Communication&lt;/em&gt;, 58, 220–237.&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-929059228763802052?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/929059228763802052/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=929059228763802052' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/929059228763802052'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/929059228763802052'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/08/ssci.html' title='给SSCI期刊投稿应该先投后改还是先改后投？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/_bRlHaHZqzNE/So_y9u1Os3I/AAAAAAAAAIg/s7BMeGQrFes/s72-c/Seven%20Sins_thumb%5B5%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4798459753330652034</id><published>2009-08-20T22:02:00.001+08:00</published><updated>2009-08-20T22:02:05.057+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='抽样'/><category scheme='http://www.blogger.com/atom/ns#' term='调查方法'/><category scheme='http://www.blogger.com/atom/ns#' term='研究报告写作'/><title type='text'>如何解读这个调查报告？</title><content type='html'>&lt;p&gt;ANY @ 2009-08-19: &lt;/p&gt;  &lt;p&gt;今年XX单位做了一个YY方面的调查，报告出炉后争议很大。我呢，虽没参与争议之中，因专业之故，很是关注。就我个人意见，我非常不理研究者组使用RDD法抽取了647人来代表全体北京人口，给各媒体排名。我极其质疑它使用的抽样技术。我认为非概率抽样中的配额抽样可能更适合做这个调查。&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-08-20 答: 我没看到那个报告。请进一步说明清楚，你质疑的是样本量太小、还是RDD（随机电话号码抽样）原则、或者其它问题？&lt;/p&gt;  &lt;p&gt;你建议用配额抽样，我可以肯定地说配额抽样一定不适合。&lt;/p&gt;  &lt;p&gt;ANY问：&lt;/p&gt;  &lt;p&gt;我首先质疑的是调查组的抽样方法。我和研究者联系，希望得到更多细节，比如是随机拨号法，还是集群拨号法，但无法得到。 刚巧收到了回复，说：“抽样方法采用的是RDD，先通过不等概抽样（pps）确定前面四位局号，后面四位是随机选号（北京电话号码是8位），抽样是座机。”在此之前的争议中，有人怀疑的是647个样本来代表2000多万北京人的代表性。&lt;/p&gt;  &lt;p&gt;庄主答：&lt;/p&gt;  &lt;p&gt;你的怀疑和批判精神值得提倡。当然，如果对抽样基本原理有比较清楚的理解，则可以避免在怀疑和批判时犯常识性错误。&lt;/p&gt;  &lt;p&gt;第一、样本大小涉及的是调查结果的精确度问题、而与代表性无关。样本越大、结果越精确，反之亦然。精确度有公式可以计算，即抽样误差。当N = 647而可信度 = 95%时，抽样误差 = ±3.8%。这个精确度是否足够？答案取决于具体的研究问题。如果被排序的两个媒体之间相差8%或更大，那么它们的高低是可靠的；反之则不然。&lt;/p&gt;  &lt;p&gt;第二、抽样误差与总体大小无关。所以无论北京人口是2千万还是2亿，样本为647的抽样误差大小是不变的。&lt;/p&gt;  &lt;p&gt;第三、样本的代表性取决于抽样是否随机、而与样本大小无关。如果一个非随机样本N=10000，虽然其抽样误差 &amp;lt; ±1.0%，但仍然没有代表性。一个没有代表性的大样本比一个精确度低的小样本更无价值。&lt;/p&gt;  &lt;p&gt;ANY问：如果是抽取座机号码的话，我现在也高度怀疑样本的代表性。因为有很多在北京的人，终其一生不用座机。据经验推测的话，许多有北京户口的人也不见得使用座机。而上一次人口普查是把大量北漂计入了北京人口的。把大量无座机电话的人排除在总体之外，这意味着什么呢？而这是为什么我觉得配额抽样更好的缘故。&lt;/p&gt;  &lt;p&gt;庄主答：&lt;/p&gt;  &lt;p&gt;同意。如果上述调查的RDD是严格执行的话，那么其代表的是北京有座机的家庭人口。也就是说，该调查的Study Population（研究总体）是北京有座机的家庭人口、而不是北京所有家庭人口。研究者在报告时应该说明这一点。当然，研究总体限于“北京有座机的家庭人口”的一个调查是否有价值，即取决于其与北京所有家庭人口之比（你知道到底有多少人被排除之外的吗？）、也取决于研究目的。如果有关媒体（或广告商）更关心有座机家庭人口，那么也是无可非议的。商业调查毕竟不是民意测量。&lt;/p&gt;  &lt;p&gt;配额抽样不是随机抽样，调查结果毫无价值。现在考考你：为什么配额不是随机抽样？&lt;/p&gt;  &lt;p&gt;ANY问：&lt;/p&gt;  &lt;p&gt;研究者用盖洛普1932年用1000个样本代表美国人预测了总统选举来证明其647人样本有代表性。我觉得这是个外行的支持。&lt;/p&gt;  &lt;p&gt;庄主答：&lt;/p&gt;  &lt;p&gt;你觉得我上面的回答是否已经解决了这个问题？如无，我再啰嗦几句。&lt;/p&gt;  &lt;p&gt;ANY问：&lt;/p&gt;  &lt;p&gt;问卷是看不到的。我个人看法，即使是RDD法，考虑分众化和个人媒介使用的多样性，问卷设计应当是一套很复杂的问卷。 &lt;/p&gt;  &lt;p&gt;庄主答：&lt;/p&gt;  &lt;p&gt;抽样、问卷设计和调查（即问答过程）代表了每项调查的三个主要误差来源：抽样误差、工具误差和测量误差。每一项都要小心处理，并应在报告（或技术附件中）详细透露。如抽样方法、问卷原文、调查过程（尤其是最后一步的个人是如何被抽取的），以便读者对其研究结果的质量作出自己的判断。&lt;/p&gt;  &lt;p&gt;ANY问：&lt;/p&gt;  &lt;p&gt;我的问题纯出于专业上的兴趣。我非常想弄清楚这个问题。再次感谢您！&lt;/p&gt;  &lt;p&gt;庄主答：&lt;/p&gt;  &lt;p&gt;我是出于同样的原因而回答你的问题。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4798459753330652034?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4798459753330652034/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4798459753330652034' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4798459753330652034'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4798459753330652034'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/08/blog-post.html' title='如何解读这个调查报告？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-1510758732255821736</id><published>2009-08-02T17:13:00.001+08:00</published><updated>2009-08-02T23:40:43.737+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='数据整理'/><category scheme='http://www.blogger.com/atom/ns#' term='SPSS Syntax'/><title type='text'>如何在SPSS里删除重复ID的个案？</title><content type='html'>&lt;p&gt;L @ 2009-08-01: &lt;/p&gt;  &lt;p&gt;如果在SPSS数据库里有一个变量是对case的编号，现在有可能某些case 是重复出现的，我想要将重复出现的case只保留一个，其余重复则删除掉，怎么完成这个任务？(除了手动的以外。） &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-08-02: &lt;/p&gt;  &lt;p&gt;SPSS13版或之后的Data菜单下有一个“Identifying Duplicate Cases”的程序，应该可以解决你的问题。但我没有用过那个程序，而是用下述的syntax写一个程序来做，自己写的程序放心一点，不会错杀无辜的个案。（注：以下syntax其中的“ROW”和“ROW2”是两个临时变量，事后可以删去。如果你case的编号变量名不叫“ID”，请修改ID。） &lt;/p&gt;  &lt;p&gt;sort cases by ID.    &lt;br /&gt;compute ROW=$casenum.     &lt;br /&gt;aggregate outfile 'c:\temp.sav'/break ID/ROW2=first(ROW).     &lt;br /&gt;match files file */table 'c:\temp.sav'/by ID.     &lt;br /&gt;select if ROW=ROW2.     &lt;br /&gt;delete variable ROW ROW2.     &lt;br /&gt;exe.&lt;/p&gt;  &lt;p&gt;强烈建议你运行前，请先用下述模拟数据试一下，以检验上述程序是否对（即没有放过任何需要删的个案、也没有错删任何需要保留的个案）。 &lt;/p&gt;  &lt;p&gt;input program.    &lt;br /&gt;loop #i=1 to 10.     &lt;br /&gt;loop #j=1 to 3.     &lt;br /&gt;compute ID=#i.     &lt;br /&gt;end case.     &lt;br /&gt;end loop.     &lt;br /&gt;end loop.     &lt;br /&gt;end file.     &lt;br /&gt;end input program.     &lt;br /&gt;sort cases by ID.     &lt;br /&gt;compute ROW=$casenum.     &lt;br /&gt;aggregate outfile 'c:\temp.sav'/break ID/ROW2=first(ROW).     &lt;br /&gt;match files file */table 'c:\temp.sav'/by ID.     &lt;br /&gt;select if ROW=ROW2.     &lt;br /&gt;delete variable ROW ROW2.     &lt;br /&gt;exe.&lt;/p&gt;  &lt;table&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td align="center"&gt;数据a&lt;/td&gt;        &lt;td align="center"&gt;数据b&lt;/td&gt;        &lt;td align="center"&gt;数据c&lt;/td&gt;        &lt;td align="center"&gt;数据d&lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SnWzbZpVPDI/AAAAAAAAAH0/8m6PSOYbF2I/s1600-h/image%5B24%5D.png"&gt;&lt;img style="border-right-width: 0px; margin: 0px 5px 0px 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SnWzb2ZAZEI/AAAAAAAAAH4/efve68SGW2I/image_thumb%5B16%5D.png?imgmax=800" width="207" height="480" /&gt;&lt;/a&gt; &lt;/td&gt;        &lt;td&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SnWzcYd-iiI/AAAAAAAAAH8/idS_pxQT7D8/s1600-h/image%5B37%5D.png"&gt;&lt;img style="border-right-width: 0px; margin: 0px 5px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SnWzc3W4eNI/AAAAAAAAAIA/LQXeNpyNrKM/image_thumb%5B25%5D.png?imgmax=800" width="225" height="240" /&gt;&lt;/a&gt; &lt;/td&gt;        &lt;td valign="top"&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SnWzdVml8NI/AAAAAAAAAIE/KSgeKyYz2ZQ/s1600-h/image%5B33%5D.png"&gt;&lt;img style="border-right-width: 0px; margin: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SnWzd9ykWII/AAAAAAAAAII/jG12YRUDZJU/image_thumb%5B23%5D.png?imgmax=800" width="267" height="480" /&gt;&lt;/a&gt; &lt;/td&gt;        &lt;td&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SnWzeSkPaaI/AAAAAAAAAIM/c-B2qnOzRJs/s1600-h/image%5B41%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: inline; border-top: 0px; border-right: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SnWzegV1HxI/AAAAAAAAAIQ/Rfj0JiBXRGw/image_thumb%5B27%5D.png?imgmax=800" width="164" height="240" /&gt;&lt;/a&gt; &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;上述syntax的第1-11句生成一个含有两个变量（ID和ROW）、30个个案（其中仅10个独立个案，但每个个案重复3次）的数据（见下图数据a）。第12句将数据a中每三个重复个案中的第一条记录的ID和行序号ROW抽出来保存到临时文件temp.sav中（见数据b）。第13句将数据a和数据b合并成数据c。第14句将数据c中的ROW（即数据a中的行序号）与ROW2（即数据b中的每个个案第一行的行序号）相等者选出；也就是说，将ROW和ROW2不相等者（即每个个案的重复行）删除。最后，第15句将临时变量ROW和ROW2删除，结果就是你想要的数据d。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-1510758732255821736?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/1510758732255821736/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=1510758732255821736' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/1510758732255821736'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/1510758732255821736'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/08/spssid.html' title='如何在SPSS里删除重复ID的个案？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/SnWzb2ZAZEI/AAAAAAAAAH4/efve68SGW2I/s72-c/image_thumb%5B16%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-2399365290606927509</id><published>2009-07-19T10:31:00.001+08:00</published><updated>2009-07-19T10:31:16.489+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>为何回归系数这么小?</title><content type='html'>&lt;p&gt;Anonymous @ 2009-07-15: &lt;/p&gt;  &lt;p&gt;我在做一个简单的多因素回归，96个cases, 13 个自变量。 回归结果显示全部coefficients 小于0.005， 其中部分变量p值显著。为什么会这样？这个结果该如何改善或解释呢？急，多谢！ &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-07-19: &lt;/p&gt;  &lt;p&gt;这个问题的答案较简单。如果你说是非标准化回归系数，则反映出你的自变量取值很大或因变量取值很小；如果你说的是标准化回归系数，则反映出你的样本很大（但实际上你的n = 96）或自变量之间有共线性。这两种情况的本质不同，需要分别简述。 &lt;/p&gt;  &lt;p&gt;&lt;strong&gt;非标准化系数&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;其定义为 the exact amount of change in the dependent variable as the independent variable goes up by one unit when other independent variables are held constant（恕我不翻，我觉得任何中译都不够原文明了精确）。这里的&amp;quot;exact amount of change”的单位，是由自变量和因变量的测量单位决定。假定你的一个自变量自变量是年龄，而因变量是身高，样本为青少年（12-17岁），如果年龄以年为单位，身高以厘米为单位，非标准化系数 =&amp;#160; 10，则说明在这段年龄中，每增加1岁，身高长10公分。但是如果年龄以天为单位，其非标准化系数则 = 0.027（=10/365）。相反，如果年龄以岁为单位，身高以毫米为单位，其系数 = 100 (=10x10)，等等。你可以变换两者的各种取值单位，可以得到小到5-6位小数、大到5-6位整数的系数，但其相关程度永远是一样的。希望你能够因此而举一反三，得出如果解释你的结果之方法。 &lt;/p&gt;  &lt;p&gt;&lt;strong&gt;标准化系数&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;其定义为the exact amount of change in the standardized dependent variable as the independent variable goes up by one standardized unit when other independent variables are held constant（只是多了standardized一词）。这时，无论自变量或因变量取何单位，其系数的值不会变化。如果标准化系数 = 0.005，反映的则是一种很弱的相关关系。为什么还会显著？上面已提到，原因一为样本（巨）大，这时该关系虽然有统计显著意义、但缺乏实际（即理论）意义；原因二是（部分）自变量之间高度相关，导致（部分）系数的标准误差人为变小而达到统计显著，这种结果更有误导之效。你的数据是小样本而多变量，更容易发生第二种情况。一般说来，每个自变量需要有30左右的个案。你有13个自变量，需要400个案。如果只有96个案，则只能用3个左右变量（可以讲高度相关的自变量组成因子来减少自变量个数）。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-2399365290606927509?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/2399365290606927509/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=2399365290606927509' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2399365290606927509'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/2399365290606927509'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/07/blog-post.html' title='为何回归系数这么小?'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3756995341097315063</id><published>2009-06-30T17:47:00.001+08:00</published><updated>2009-06-30T17:54:34.853+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何在模型拟合度和模型合理性之间选择？</title><content type='html'>&lt;p&gt;hz @ 2009-06-25: 我对四个变量之间的关系做了SEM检验，从拟合指数看第一个模型略优于第二个模型；两个模型路径系数显著性如图所示，实线代表通过显著检验，虚线代表没有。你觉得四个变量之间的关系应该如何解释比较好？&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SknggUGjb1I/AAAAAAAAAHs/IvtQen6yxEo/s1600-h/image%5B17%5D.png"&gt;&lt;img title="image" style="border-right: 0px; border-top: 0px; display: block; float: none; margin-left: auto; border-left: 0px; margin-right: auto; border-bottom: 0px" height="159" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SknggzF28FI/AAAAAAAAAHw/T90Vw748lOQ/image_thumb%5B11%5D.png?imgmax=800" width="640" border="0" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt; 庄主 @ 2009-06-30:&lt;/p&gt;  &lt;p&gt;从逻辑上说，模型2是合理的、而模型1是有问题的，因为模型1没有检验W和Z对YL的直接影响，而只是假定X是前两者的中介变量。&lt;/p&gt;  &lt;p&gt;从实证结果（比较模型1和模型2）来看，Z对Y有直接影响、而X即不是一个中介变量、甚至也不是一个对Y有影响的自变量。这些发现，说明模型1中的X -&amp;gt; Y的显著影响其实是一个由于遗落了Z这个“第三者”而造成的 spurious（虚假）关系。&lt;/p&gt;  &lt;p&gt;你提到，模型2的拟合度不如模型1。这是因为模型2比模型1多用了2个自由度。如果去掉W –&amp;gt; Y 和X –&amp;gt;Y这两对不显著的关系之后，两个模型的拟合度应该相似。但是，其实没有必要节省这2个自由度。如果少了2个自由度而使得原先可以拟合（即p &amp;gt; 0.05）的模型变成不可拟合（p &amp;lt; 0.05），说明你的样本太小，原先可以拟合的模型也是在边缘线上挣扎。&lt;/p&gt;  &lt;p&gt;我们检验模型拟合度的目的是看该理论模型与实证数据之间的差别是否小到可以接受的程度、而不是追求模型的最佳拟合度。其实后者很容易通过其它不值得提倡的方法来做到（参见我前些日子的有关帖子）。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3756995341097315063?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3756995341097315063/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3756995341097315063' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3756995341097315063'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3756995341097315063'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/06/blog-post_30.html' title='如何在模型拟合度和模型合理性之间选择？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SknggzF28FI/AAAAAAAAAHw/T90Vw748lOQ/s72-c/image_thumb%5B11%5D.png?imgmax=800' height='72' width='72'/><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-1681296085780797483</id><published>2009-06-27T23:17:00.002+08:00</published><updated>2009-12-30T22:16:18.686+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><title type='text'>如何在SEM中处理dummy变量和显示R平方？</title><content type='html'>&lt;p&gt;月出 @ 2009-06-09: &lt;/p&gt;  &lt;p&gt;祝老师,您好!您的伯克真的很好，blogspot我一直登不上。我初学LISREL，有几个问题想请教您：&lt;/p&gt;  &lt;p&gt;1、虚拟变量在SEM中一样用0、1处理吗？我在原先运行得出的模型里加入了性别变量，但就显示&lt;/p&gt;  &lt;p&gt;W_A_R_N_I_N_G: PHI is not positive definite    &lt;br /&gt;W_A_R_N_I_N_G: PSI is not positive definite     &lt;br /&gt;W_A_R_N_I_N_G: The solution was found non-admissible after&amp;#160; 50 iterations. The following solution is preliminary and is provided only for the purpose of tracing the source of the problem. Setting AD&amp;gt; 50 or AD=OFF may solve the problem. 这是怎么回事?     &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;2、子模型原先得出的变量之间的关系为什么进入母模型后显著性发生变化？路径系数的正负也反了？正常吗？怎么解释？比方说总风险和各类风险之间本来是这么个关系,加入信任置于总风险前，总风险和各类风险之间的关系就变化了。可能有什么问题存在吗？&lt;/p&gt;  &lt;p&gt;3、我怎么在LISREL中显示可决系数R平方阿? &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-06-27:&lt;/p&gt;  &lt;p&gt;1、SEM中可以包括虚拟变量（dummy variables）。一般是先用LISREL中的PRELIS工具将含虚拟变量的相关系数矩阵转化成tetrachoric correlation矩阵（参见&lt;a href="http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm"&gt;http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm&lt;/a&gt;），然后再进行分析。&lt;/p&gt;  &lt;p&gt;你得到的出错信息由很多种原因造成，可能是你模型的设置有问题（如性别要factor loading = 1、factory error = 0）、也许是性别与某些其它观测变量之间的高度相关、等等，很难一下子知道是什么原因。如果用了上述转化矩阵，仍有类似问题，那么更有可能是模型设置的问题。&lt;/p&gt;  &lt;p&gt;2、子模型的关系进入母模型之后显著性出现变化是常见的、但是如果系数方向也反了，说明母模型中含有一个disorter的第三者变量（具体参见我前些日子的有关帖子）。你也可以将先后两个模型的系数用表格的形式贴出来给大家看看。&lt;/p&gt;  &lt;p&gt;3、LISREL将R平方叫做 Sqaured Multiple Correlations (SMC)。如果你是用SIMPLIS，需要加一句“LISREL OUTPUT EF“ 来显示。需要尤其注意的是，LISRE同时给出计算Structural Form 和 Reduced Form两种结果，前者中的SMC是错的，要看后者。（具体参见Joreskog的文章 &lt;a href="http://www.ssicentral.com/lisrel/techdocs/WhatistheinterpretationofR2.pdf"&gt;What is the interpretation of R2?&lt;/a&gt;)&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-1681296085780797483?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/1681296085780797483/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=1681296085780797483' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/1681296085780797483'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/1681296085780797483'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/06/semdummyr.html' title='如何在SEM中处理dummy变量和显示R平方？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4391213306209885704</id><published>2009-06-20T12:57:00.001+08:00</published><updated>2009-06-20T12:57:06.843+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='数据整理：Power-law'/><category scheme='http://www.blogger.com/atom/ns#' term='数据整理'/><category scheme='http://www.blogger.com/atom/ns#' term='传播理论：复杂系统'/><title type='text'>如何处理Power-law(幂率)分布的数据？</title><content type='html'>&lt;p&gt;Anonymous @ 2009-06-11: &lt;/p&gt;  &lt;p&gt;祝老师：您好！看了您关于“如何在SPSS中做数据正态转化”的帖子受益匪浅。 我做的研究是关于web 2.0 的，所以数据来源都是secondary source，有很多变量的分布都是power law的形式，其中有的自变量数据有点类似count variable（0值有意义，非missing value）占了很大的比例。想就数据转化继续请教您两个问题：&lt;/p&gt;  &lt;p&gt;1。比如两个自变量IV1和IV2都是高度偏态，在对其进行对数变换后转化为正态。但是IV1和IV2可能对因变量DV存在交互影响， 那么在检测交互影响的时候interaction term是应该用lnIV1*lnIV2么？因为这里有个疑问是lnIV1+lnIV2=ln（IV1*IV2），如果lnIV1和lnIV2进入后R Squared Change显著的话是不是就代表已经存在交互影响了么？还需要继续进入lnIV1*lnIV2么？对这个问题我感觉有点钻到牛角尖里了，想了很久都不太清楚？&lt;/p&gt;  &lt;p&gt;2。另外是关于前面0值太多的自变量 （单峰非正态），有点类似于medical research里面的account variable，0代表没发生，但他们是自变量，而不是因变量， 所以感觉不能用Logistic回归。 我试着用了log之类的转换， 很难变成正态分布，目前我将其转换成了dummy variable 0 和1做了一个model，然后再选择所有不为0的obsevation做了一个model，但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-06-20:&lt;/p&gt;  &lt;p&gt;问题一较简单：交互影响模型中的自变量是否可以取对数？答案是肯定的。因为在你的模型 Y = b0 + b1ln(IV1) + b2ln(IV2) + b3ln(IV1)ln(IV2) 中的右边前两项，即IV1和IV2各有一个回归系数b1和b2，所以它们不会被约简为另一个b3ln(IV1)ln(IV2) 。&lt;/p&gt;  &lt;p&gt;同理，模型右边第三项 b3ln(IV1)ln(IV2) 简约后成为 b3 (IV1 + IV2)，也不等同于前两项 b1ln(IV1) + b2ln(IV2)。当然，第三项的变量 (IV1 + IV2 中的联合分布比IV1和IV2原先的独立分布更加不对称，即更加偏离正态分布。但是，据我的理解，当你将 ln(IV1)ln(IV2) 输入OLS回归时，计算程序是将 ln(IV1)ln(IV2) 当做一个值处理而不会将它分析成IV1 + IV2的。&lt;/p&gt;  &lt;p&gt;问题二很复杂：如何处理服从power-law（幂律）分布的数据？这种分布特征的数据，具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸（left-censored），而全部堆积在一起。也有人称其为 &amp;quot;floor effects” （“地板效应”）数据（如下图a）。初看，这些最小值（本例是1）堆起来不像是地板效应、而像 “ceiling effects”（“天花板”效应）。但如果将图a作90度旋转，就可以理解“地板”的意思。当然，这种分布的反面，即一组数据中有很多个无法更大的最大值（right-censored values），就是“天花板”了。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SjxsFdyfDJI/AAAAAAAAAHM/K4zQYaeP3no/s1600-h/image%5B4%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SjxsGDgmjzI/AAAAAAAAAHQ/bJFHqzMyppc/image_thumb%5B2%5D.png?imgmax=800" width="640" height="393" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;以上图a中的X，按三个不同的幂律值（1、2、4）而形成三种不同的“地板”分布（即P(X)=X&lt;sup&gt;-1&lt;/sup&gt;、P(X)=X&lt;sup&gt;-2&lt;/sup&gt;、和P(X)=X&lt;sup&gt;-4&lt;/sup&gt;。具体说来，当幂律=-1时，X的最小值占了总体的19%；当幂律=-2时，X的最小值占了总体的61%；而当当幂律=-3时，X的最小值占了总体的92%！在经典的“正态分布世界”(the world of normal distribution) 里，我们都是用log来转换服从幂律分布的数据。以下图b就是对图a中的三组X用log转换以后的分布形状：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SjxsGjuF4gI/AAAAAAAAAHU/bxMUTDsVvQQ/s1600-h/image%5B9%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/SjxsHUkKnaI/AAAAAAAAAHY/atCLf16v7Fg/image_thumb%5B5%5D.png?imgmax=800" width="640" height="393" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;与图a相比，图b中的三种分布的形状不那么“地板”了，但是还远远不是正态分布的。如果将X的频数（即P(X)）也作log转换，即得到一个单调递减的线性分布（图c）：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SjxsH-4iCmI/AAAAAAAAAHc/XUd59fOlTdo/s1600-h/image%5B15%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: block; float: none; margin-left: auto; border-top: 0px; margin-right: auto; border-right: 0px" title="image" border="0" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SjxsIf5P2uI/AAAAAAAAAHg/k5IlsGFZSa4/image_thumb%5B9%5D.png?imgmax=800" width="640" height="393" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;图c也不是正态分布。但在“正态世界”里，线性分布是我们对付幂律数据的（相对）最好方法了；就是说，幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗？有，那就要离开正态世界而进入“变态世界”(the world of abnormality)、做一个研究“变态行为”的“变态学者”。“变态”这个字太刺眼。做“变态研究”的绝大多数是拘谨的物理学家，当然无法承受世俗的歧视，所以将变态世界叫做“复杂系统”(complex system)。我一开始说“这个问题很复杂”，意思就是“这是一个复杂世界的问题”。当然，复杂系统也不能点石为金，将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见A. Clauset, C.R. Shalizi, and M.E.J. Newman, &amp;quot;&lt;a href="http://arxiv.org/abs/0706.1062"&gt;Power-law distributions in empirical data&lt;/a&gt;&amp;quot; &lt;i&gt;SIAM Review&lt;/i&gt;, 2009)。&lt;/p&gt;  &lt;p&gt;好了，别再继续问我变态世界的事，我刚刚开始接触他们的那些事，可能受正态世界的毒害太深，无论理智上或感情上都还没有入门。&lt;/p&gt;  &lt;p&gt;回到你的实际问题，你可以试试以下几种方法：一、对X取log之后、再取log（当然，如果log(X)有非正值、需要先对其做线性转换成正值）；二、将X转换成0-1值的dummy variable后直接进入模型（而不是用来分拆成两个模型）；三、将X与其他相关的自变量合成新的变量；等等。注意，上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4391213306209885704?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4391213306209885704/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4391213306209885704' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4391213306209885704'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4391213306209885704'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/06/power-law.html' title='如何处理Power-law(幂率)分布的数据？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SjxsGDgmjzI/AAAAAAAAAHQ/bJFHqzMyppc/s72-c/image_thumb%5B2%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-666912930602449102</id><published>2009-06-15T22:58:00.001+08:00</published><updated>2009-06-15T22:58:48.529+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='研究生学习'/><title type='text'>如何设计博士生学习计划？</title><content type='html'>&lt;p&gt;W @ 2009-06-13:&lt;/p&gt;  &lt;p&gt;我是学习传播理论方向的博士生，有志于从事科研，但非常担心自己把博士读成了“5年制的硕士研究生”，于是想做一个合理的读博计划，特别想听听您的建议与看法。我的问题如下：&lt;/p&gt;  &lt;p&gt;1、读博期间应该定一个怎样的目标？&lt;/p&gt;  &lt;p&gt;2、如何突破研究方法的局限和英语的缺陷？&lt;/p&gt;  &lt;p&gt;3、如何培养捕捉一个有创新意义的研究课题的能力？&lt;/p&gt;  &lt;p&gt;4、如果方便，很想知道您是如何度过博士生活的。&lt;/p&gt;  &lt;p&gt;5、香港的传播学博士是如何读的，您一般对他们有何要求。&lt;/p&gt;  &lt;p&gt;6、请您帮我推荐几本您认为应该读的书。&lt;/p&gt;  &lt;p&gt;庄主@ 2009-06-14：&lt;/p&gt;  &lt;p&gt;你的绸缪未雨想法很好。“博士生=五年制的硕士生”一说我还是第一次听到，但仔细想想，好像很深刻、有道理。同理，硕士生要防止做“六年制的本科生”。也许博士生还要防止做“九年制的本科生”。（申明：我没有任何贬低本科生的意思。事实上，包括我在内的很多海外教授，认为中国本科生的基础训练是非常好的，所以大家更喜欢招中国本科生做博士生。）&lt;/p&gt;  &lt;p&gt;你的六个问题涉及了博士生学习的各个方面，我都没有“权威”的答案，但愿意分享自己的体会。由于时间限制，我先简单谈谈，希望各位（包括我在的学生，其实以下很多是以他们作为对象而写的）补充和辩论。&lt;/p&gt;  &lt;p&gt;1、目标：扎实基础、广博知识之类笼统的话，我就不说了。我的基本原则：目标一定要高，取法乎上、得乎其中嘛。同时要可操作，如以下两条：一、能教三门课（分别为理论、方法和应用。应用课可以是采编写、也可以是广告策略、公关写作、网页设计、视频编辑，等等，至少能教其中之一。我最近几年每年教的课里，就有理论、方法和网页设计）；二、在高水平期刊上发表一两篇论文（如SSCI中JMCQ或更好的期刊，国内期刊则要比《新闻与传播》等更有挑战性的）。&lt;/p&gt;  &lt;p&gt;2、方法与英语的局限：一语以蔽之，只有多动手练习。方法上，对初学者来说，一定要严格遵循规则、步骤、要求，不要马虎、妥协、变通，否则不如不学。英语，对国内学生来说，标准是能写出别人看得懂的论文。最大的敌人是自己（Chinglish、汉式英文）。如何克服？找个native sepaker批改你的几篇文章，然后从中找出自己问题的规律，贴在墙上天天看。&lt;/p&gt;  &lt;p&gt;3、创新能力：除了经验，好像没有捷径。而经验来自年份。我的体会是进入学术圈（不一定是从博士生开始）后，努力工作十年后才会发生。自然科学研究也许不需要这么长的周期。社会科学中除了少数天才之外，很少有在博士生期间、甚至在毕业后几年内有真正的重大创新。所以我不把创新当做自己读博士时的目标、也不以它来要求我的学生。&lt;/p&gt;  &lt;p&gt;4、我的博士生活：与其他留美博士生一样，大部分时间在上课。我在三年八个学期（包括两个暑期）中大概修了20门课、另外旁听了4、5门课。然后通过四门资格考试（基础、方法、两个专业方向）。最后写论文（那倒是最省时的，只花了半年）。事后觉得收获最大的一是方法训练、二是英文写作、三是体验老师们的人格魅力（不通人情的认真、自我贬低的幽默感、平民的心态、凡事先质疑的精神、等等）。其它的，如看了无数的文献等，在有了wikipedia和youtube的今天，都算不了什么。&lt;/p&gt;  &lt;p&gt;5、我对自己博士生的要求：以前我是沿用美国老师教我的方法，即除了学校（和市场）的要求之外，从来没有其它特别的要求。学校的要求是最低限度的，保证能够毕业。市场（用人单位）的要求，对学生来说是看不见摸不着的。最近（在你来信之前），我已开始反思这种hands-off传统的优缺点，并计划从今年开始，给新生提些具体要求，目前想到的就是目标里的三门课、一两篇论文。当然这些只是建议，即使做不到，照样可以毕业，但很难被市场认可。&lt;/p&gt;  &lt;p&gt;6、推荐书：以下是对国内新闻传播学博士生的建议（日后也许会有补充）：&lt;/p&gt;  &lt;p&gt;方法：&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;Earl Babbie: The practice of social research, 11th ed. (清华影印版) &lt;/li&gt;    &lt;li&gt;Publication Manual of the American Psychological Association, 5th ed. (俗称APA Style，尽量不要看中译本） &lt;/li&gt;    &lt;li&gt;Jacob Cohen &amp;amp; Patricia (2002). Applied multiple regression/correlation analysis for the behavioral sciences, 3rd ed., (books.google.com上有免费的&lt;a href="http://books.google.com/books?id=fuq94a8C0ioC&amp;amp;pg=PA406&amp;amp;dq=cohen+satistics&amp;amp;hl=zh-TW"&gt;部分章节&lt;/a&gt;；或其它类似统计书，第一本看原版、也许可以接着看我们的传播统计学。)&lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;理论：&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;Denis McQuail &amp;amp; Sven WIndahl (1993). &lt;i&gt;Communication models for the study of mass communication&lt;/i&gt;, 2&lt;sup&gt;nd&lt;/sup&gt; ed. (同样，先看原版，也许可以接着看我的翻译本). &lt;/li&gt;    &lt;li&gt;Werner J. Severin &amp;amp; James W. Tankard, Jr. (2001). &lt;i&gt;Communication theories: Origins, methods, and uses in the mass media&lt;/i&gt;, 5th ed. (不要看中译本） &lt;/li&gt;    &lt;li&gt;新闻传播学实证研究的经典报告（可参见我的传播原理课程的&lt;a href="http://newmedia.cityu.edu.hk/com5101/readings.cfm"&gt;补充阅读目录&lt;/a&gt;）&lt;/li&gt; &lt;/ol&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-666912930602449102?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/666912930602449102/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=666912930602449102' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/666912930602449102'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/666912930602449102'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/06/blog-post.html' title='如何设计博士生学习计划？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-900001183087441562</id><published>2009-06-13T15:53:00.000+08:00</published><updated>2009-06-15T22:55:22.315+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何处理和解读三角关系中的扭曲变量(distorter)?</title><content type='html'>&lt;p&gt;龙猫 @ 2009-06-08: &lt;/p&gt;  &lt;p&gt;庄主好，日前在研究中遇到一难题，想请您赐教。自变量ABCD通过中介变量E影响因变量F，但加入自变量G后导致E到F的路径系数由原来的显著正相关变成了负值，不知如何解释和处理？我自己的推断是G变量对F变量的解释力过强，压制了E变量对F变量的影响，但我不确定这样推理对不对。另外，也不知如何处理这类问题。故在此请教庄主，谢谢您。（注：研究的样本量为320，    &lt;br /&gt;测题数目为30.）&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-06-13:&lt;/p&gt;  &lt;p&gt;为了便于其他读者的理解，我根据你的叙述，将你的两个模型分别复原在图1a和图1b中（注：图b中红线部分为我所加）。由于你没有说明G与A-D的关系，我假定G不是从A-D到E的另一个中介变量（如果是，问题会更复杂一些）。也因为如此，你的问题其实只涉及E、F、G的三角关系，与所以我加了一个红框，以下来集中讨论三角关系中可能出现的各种问题。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SjZgSGEp2LI/AAAAAAAAAG8/HoCPq4d6I50/s1600-h/image%5B5%5D.png"&gt;&lt;img title="image" style="border-top-width: 0px; display: block; border-left-width: 0px; float: none; border-bottom-width: 0px; margin-left: auto; margin-right: auto; border-right-width: 0px" height="281" alt="image" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SjZgSj9ItxI/AAAAAAAAAHA/A0cqBOX68WI/image_thumb%5B3%5D.png?imgmax=800" width="640" border="0" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;再重复一下你的发现：在没有控制G之前，b&lt;sub&gt;FE&lt;/sub&gt;是正值；而引入G之后，b’&lt;sub&gt;FE&lt;/sub&gt;（注意b的上标中的“’”记号）成了负值。你认为G是一个压抑变量（suppressor），不知如何处理G。&lt;/p&gt;  &lt;p&gt;先讲讲三角关系的基本原理：&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;一个第三者（G）当且仅当同时满足以下两种条件时，才会改变原有自变量（E）和因变量（F）的关系：一是G与E相关、二是G与F相关。（你的数据看来同时满足了这两条。） &lt;/li&gt;    &lt;li&gt;所谓“改变原有关系”，包括了三种不同的变化：一是改变了significance of the relationship（显著水平，即b值从不显著变显著或反之）；二是改变了strength of the relationship（强度，即b值从小变大或反之）；三是改变了direction of the relationship（方向，即b值从正变负或反之）。注意：这三种变化不是互斥而是独立的，即三者中的任何组合都可能同时发生。（你只说了你的数据中出现了方向的变化，不知原有关系的显著水平或强度是否也有变化？） &lt;/li&gt;    &lt;li&gt;所有上述三种情况的变化，都说明E和F的原有关系是spurious（虚假）、靠不住，而引入第三者G是必要和合适的。（即你的模型a是错的而模型b是对的，应该接受后者，哪怕后者否定了你原先的假设。其实，对有经验的研究者来说，后者的出现更令人振奋，因为突破也许就在其中！） &lt;/li&gt;    &lt;li&gt;第三者的角色，根据上述不同变化而分为distorter（扭曲变量）和suppressor（压抑变量）两种，当然也可能是两者兼顾（详见下表）。简单说来，扭曲变量的缺失导致了Type I的错误（如不应该显著的成了显著、微弱关系的成了强势关系、正的关系成了负的、负的成了正的，等等）；而压抑变量的缺失则导致了Type II的错误（如应该显著的成了不显著、强关系的成了弱关系、等等）。大家知道，Type I后果更严重，所以对扭曲变量的控制更有必要（也正因为如此，发现扭曲变量往往会令人兴奋甚至亢奋。） &lt;/li&gt; &lt;/ol&gt;  &lt;p align="center"&gt;表一、压抑变量与扭曲变量之一览表&lt;/p&gt;  &lt;table cellpadding="2" width="600" align="center" border="1"&gt;&lt;tbody&gt;     &lt;tr height="18"&gt;       &lt;td height="18"&gt;&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;G as a Suppressor&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;G as a Distorter&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td colspan="3" height="18"&gt;&lt;strong&gt;Change in Significance-level&lt;/strong&gt;&lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td height="18"&gt;Nonsig-&amp;gt;Sig&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Y&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;-&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td height="18"&gt;Sig-&amp;gt;Nonsig&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;-&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Y&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td colspan="3" height="18"&gt;&lt;strong&gt;Change in Strength&lt;/strong&gt;&lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td height="18"&gt;Small-&amp;gt;Large&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Y&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;&amp;#160;&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td height="18"&gt;Large-&amp;gt;Small&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;-&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Y&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td colspan="3" height="18"&gt;&lt;strong&gt;Change in Direction&lt;/strong&gt;&lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td height="18"&gt;Postive-&amp;gt;Negative&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;-&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Y&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr height="18"&gt;       &lt;td height="18"&gt;Negative-&amp;gt;Positive&lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;-&lt;/div&gt;       &lt;/td&gt;        &lt;td&gt;         &lt;div align="center"&gt;Y&lt;/div&gt;       &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p align="center"&gt;Source: J. J. H. Zhu (2009), All rights reserved.&lt;/p&gt;  &lt;p&gt;回到你的数据，很显然，G是一个扭曲变量，所以一定要引入模型，原先的b&lt;sub&gt;FE&lt;/sub&gt;是错的而b’&lt;sub&gt;FE&lt;/sub&gt;是对的（当然，假定没有其它第三者的缺失）。至于G是否也是一个压抑变量，则要看b&lt;sub&gt;FE&lt;/sub&gt;和b’&lt;sub&gt;FE&lt;/sub&gt;的数值和各自的显著水平才能知道。你不妨补充报告一下，以飨读者。&lt;/p&gt;  &lt;p&gt;也许你还会问，为什么G会改变原先关系的方向？我记得曾在以前的帖子中讲过（但一下子搜不到），G与E（即r&lt;sub&gt;EG&lt;/sub&gt;）或G与F（即b&lt;sub&gt;FG&lt;/sub&gt;）的两对关系中，必定（而其只能）有一对是负的（请你验证一下）。这是因为任何一组完整（即此外没有其它显著的第三者）的三角关系之乘积（即r&lt;sub&gt;EG&lt;/sub&gt; X b&lt;sub&gt;FE&lt;/sub&gt; X b&lt;sub&gt;FG&lt;/sub&gt;）必须为一个正值（见图2）。传播学中的cognitive dissonance理论就是据此而来的（以下12字为广告：详见我译的《大众传播模式论》）。&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SjZgTJ8i05I/AAAAAAAAAHE/gzaDBmX3qXA/s1600-h/image%5B10%5D.png"&gt;&lt;img title="image" style="border-top-width: 0px; display: block; border-left-width: 0px; float: none; border-bottom-width: 0px; margin-left: auto; margin-right: auto; border-right-width: 0px" height="193" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SjZgTgPKRjI/AAAAAAAAAHI/gLNOgqqUP6Y/image_thumb%5B6%5D.png?imgmax=800" width="640" border="0" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;如果想更进一步探讨这种三角关系的话，那么可以将G当做是一个交互变量来处理（事实上G与E的交互项往往就是显著的），其结果大多有助于解开这种扭曲现象之谜。我记不得是否曾经说过，一般说来，交互影响比中介影响更有“革命性”意义。That’s why I was excited, rather than depressed, when reading your message.&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-900001183087441562?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/900001183087441562/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=900001183087441562' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/900001183087441562'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/900001183087441562'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/06/distorter.html' title='如何处理和解读三角关系中的扭曲变量(distorter)?'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/SjZgSj9ItxI/AAAAAAAAAHA/A0cqBOX68WI/s72-c/image_thumb%5B3%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8812494399181763003</id><published>2009-05-17T23:16:00.001+08:00</published><updated>2009-05-17T23:16:15.800+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-信度'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-ICC组内相关系数'/><title type='text'>如何选择Intraclass correlation coefficient (组内相关系数) 的模型？</title><content type='html'>&lt;p&gt;Liu Yang @ 2009-05-15：&lt;/p&gt;  &lt;p&gt;祝老师：您好！经常来您这看看，获益非浅。有一个问题想向您请教。我现在在做一个关于学龄儿童健康行为问卷的重测信度研究。如在过去一周你有几天参与体力活动至少60分钟？选项 1，2，3，4，5，6，7 天。因为数据是interval level，所以打算计算ICC。根据组内效应和项目效应是否随机，Single Measure ICC有三种类型，ICC(1,1), ICC(2,1) 和 ICC(3,1)。按我的理解，学生在不同时间回答同一道问题可以认为是two same judges in different time with fixed effect，因此应该采用ICC(3,1)。但是看过去的文献，针对同一道问题，如上题，三种算法都被用过，所以比较迷惑，希望您能指点，谢谢！&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-05-17:&lt;/p&gt;  &lt;p&gt;你提到的ICC，指Intraclass Correlation Coefficient（通常翻成“组内相关系数”）。ICC在心理学和教育学研究中用得较多，但本庄大多数读者来自新闻传播学界，可能不甚了解，所以我先简单交代一下有关背景。&lt;/p&gt;  &lt;p&gt;ICC涉及到多种用途，含义各有所不同。你是将其用于检验变量的信度（reliability），所以我这里也就仅谈谈信度检验中的ICC模型问题。（但是，要真正理解ICC，还是应该放在ANOVA的框架下进行。以下涉及到一点ANOVA、但我无意从ANOVA的ABC讲起，只假定大家已经掌握了。）&lt;/p&gt;  &lt;p&gt;有人也许会问，检验信度不是已经有Cronbach’s alpha，为什么还要用ICC？这与被检验的变量之性质有关。我们通常检验的“信度”是指 the consistency between two or more concepts（两个或更多概念之间的一致性），这时我们确实是用Cronbach’s alpha，其实alpha只是根据Pearson r（即经典的相关系数）而计算出来的衍生物，而Pearson r 则是一种Interclass Correlation Coefficient（注意其中的“Interclass”，即“组间相关系数”，与ICC是相反的一对统计量）。相反，如果我们想检验的信度，涉及到的却是 the stability between two or more measures of the same concept（同一个概念的两个或多个测量指标之间的稳定性），这时Pearson r及其衍生物Cronbach’s alpha不不合适了（参见我的旧贴&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!132.entry"&gt;Difference vs. Correlation&lt;/a&gt;，虽然文中没有出现组间和组内相关的名词，但谈到的是同一问题），而可以用ICC。你面临的“健康行为”的“重测信度”，就是涉及一个概念（健康行为）的两个测量指标。内容分析中的inter-coder reliability也是一个概念（即内容分析的某个变量）的多个coders决策之间的稳定性。&lt;/p&gt;  &lt;p&gt;顺便提一下，在ICC研究的文献中，上述“同一个概念的不同测量”是被叫做“different variables of a common class”。这里所涉及到的名词，如class,cases, variable（以及可能会出现的measurements, raters, judges, items, objects等等），如果翻成中文、都很容易产生望文生义的误导。不知你的迷惑，是否与这些名词有所关系？我一开始接触有关文献时，也曾迷惑过，后来把ICC的公式（右下）与Pearson r公式（左下）比较一下，就清楚了这些名词的真正含义。所以，我们还是不能不看公式。&lt;/p&gt;  &lt;table width="60%" align="center"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td width="50%" align="center"&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/ShAqLOpIoQI/AAAAAAAAAF0/cT9SkiqGfik/s1600-h/image%5B8%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/ShAqLqPMGDI/AAAAAAAAAF4/llSgldp_-mA/image_thumb%5B4%5D.png?imgmax=800" width="240" height="114" /&gt;&lt;/a&gt; &lt;/td&gt;        &lt;td width="50%" align="center"&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/ShAqLwdGBiI/AAAAAAAAAF8/wWJt6YgtjEE/s1600-h/image%5B13%5D.png"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/ShAqMdLNgbI/AAAAAAAAAGA/Rd-Bfi01958/image_thumb%5B7%5D.png?imgmax=800" width="266" height="114" /&gt;&lt;/a&gt; &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;在r的公式中，x&lt;sub&gt;i&lt;/sub&gt;和y&lt;sub&gt;i&lt;/sub&gt;分别是概念X和Y的测量值、&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/ShAqMnT9ExI/AAAAAAAAAGE/10DOgk7ELaY/s1600-h/clip_image002%5B9%5D%5B2%5D.gif"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="clip_image002[9]" border="0" alt="clip_image002[9]" src="http://lh4.ggpht.com/_bRlHaHZqzNE/ShAqMyigvJI/AAAAAAAAAGI/eeb-H7YRjjs/clip_image002%5B9%5D_thumb.gif?imgmax=800" width="18" height="22" /&gt;&lt;/a&gt;和&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/ShAqNELEbfI/AAAAAAAAAGM/EriAjNXeim0/s1600-h/clip_image002%5B13%5D%5B2%5D.gif"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="clip_image002[13]" border="0" alt="clip_image002[13]" src="http://lh4.ggpht.com/_bRlHaHZqzNE/ShAqNU5WByI/AAAAAAAAAGQ/rzCNayPHqyU/clip_image002%5B13%5D_thumb.gif?imgmax=800" width="16" height="22" /&gt;&lt;/a&gt;分别是X和Y的均值、S&lt;sub&gt;x&lt;/sub&gt;和S&lt;sub&gt;y&lt;/sub&gt;分别是X和Y的标准差，n是样本数。（由此可见，X和Y的取值范围可以完全不一样，如X可以是从-1到1而Y可以从0到10000；两者的标准差也由此可以完全不一样。其结果根本不会影响r的值。）而在icc中，为了强调“组内”的意义，我将X改写成X&lt;sub&gt;1&lt;/sub&gt;、Y改写成X&lt;sub&gt;2&lt;/sub&gt;（当然改写前后变量并没有本质区别）。两个公式的真正区别在于均值及标准差的计算，r中的X和Y均值及标准差是分别独立计算的、而icc中的&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/ShAqNrn9CtI/AAAAAAAAAGU/UxJO7vKiZCw/s1600-h/clip_image002%5B11%5D%5B2%5D.gif"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="clip_image002[11]" border="0" alt="clip_image002[11]" src="http://lh3.ggpht.com/_bRlHaHZqzNE/ShAqOLRW3HI/AAAAAAAAAGY/jgbswTVf15E/clip_image002%5B11%5D_thumb.gif?imgmax=800" width="18" height="22" /&gt;&lt;/a&gt;是X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;的pooled mean（联合均值）、而&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/ShAqOS8OkVI/AAAAAAAAAGc/G5SK_ri25Kw/s1600-h/clip_image002%5B15%5D%5B2%5D.gif"&gt;&lt;img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="clip_image002[15]" border="0" alt="clip_image002[15]" src="http://lh6.ggpht.com/_bRlHaHZqzNE/ShAqOoav_rI/AAAAAAAAAGg/6C5s-opLE8M/clip_image002%5B15%5D_thumb.gif?imgmax=800" width="20" height="26" valign="bottom" /&gt;&lt;/a&gt;也是X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;的pooled variance（联合方差、即联合标准差之平方）。由于ICC值是每个观察值减去“联合均值”（而不是各自的独立均值）、加总后再除以“联合方差”（而不是除以各自的独立标准差之乘积），所以其计算结果反映了“组内”的相关系数。（注意，“联合方差”背后有一个更严格的要求，即X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;的方差要相等。这一要求不是很容易满足的。如果你的两次测试之间有一定的时间间隔而其中有发生过什么重要的事件，如学校开设了卫生课或召开了运动会，使得学生之间健康行为的差异缩小了或扩大了，那么就不适合用ICC了。）&lt;/p&gt; &lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/ShAqPNiBkoI/AAAAAAAAAGk/cd9OEEgiX_M/s1600-h/image%5B27%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; margin: 0px 15px 0px 0px; display: inline; border-top: 0px; border-right: 0px" title="image" border="0" alt="image" align="left" src="http://lh4.ggpht.com/_bRlHaHZqzNE/ShAqPtxVrSI/AAAAAAAAAGo/yzj_ho88iVw/image_thumb%5B17%5D.png?imgmax=800" width="360" height="256" /&gt;&lt;/a&gt;   &lt;p&gt;好了，在上述简单背景的基础上，我们来讨论你的问题：如何检验ICC？具体来说，就是如何选择合适的ICC模型。让我们从计算ICC所需要的数据结构说起（右图）。图a是最常见的结构，其中每个row（行）代表一个case（本例是ID从1到n的学生），每个column（列）是同一概念的某个观测指标（本例中是X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;前后两次观测），每个cell（格）中是每个学生的每次观测值（即上述公式中的x&lt;sub&gt;1i&lt;/sub&gt;或x&lt;sub&gt;2i&lt;/sub&gt;，在本例中取值1到7）。按ANOVA的术语，每个x&lt;sub&gt;i&lt;/sub&gt;受到三个来源的影响：一是between-columns effects（在本例中是over-time effects，但内容分析的inter-coder reliability则是两个coders之间的coder effects、等等）；二是within-columns effects（在本例中是within-subjects effects，即每个学生的特定因素）；三、无法被columns和rows所解释的残差。三者之间，残差和within-columns effects 总是（假定为）random（随机）的，前者是ANOVA能够成立的必要前提、而后者则是因为n个学生是从N总体中随机抽取的一个样本。剩下的between-columns effects则需要根据研究设计、数据采集方式等各种因素而来确定是fixed（固定）还是随机的，因此而形成了你所提到的三种模型： &lt;/p&gt;  &lt;table border="1" cellspacing="0" cellpadding="2" width="800"&gt;&lt;tbody&gt;     &lt;tr&gt;       &lt;td valign="top" width="200"&gt;Source of Variance&lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;One-way Random Model            &lt;br /&gt;ICC (1)&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Two-way Random Model            &lt;br /&gt;ICC (2)&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Two-way Mixed Model            &lt;br /&gt;ICC (3)&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="200"&gt;Within-columns effects &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Random&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Random&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Random&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;      &lt;tr&gt;       &lt;td valign="top" width="200"&gt;Between-columns effects&lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;--&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Random&lt;/p&gt;       &lt;/td&gt;        &lt;td valign="top" width="200"&gt;         &lt;p align="center"&gt;Fixed&lt;/p&gt;       &lt;/td&gt;     &lt;/tr&gt;   &lt;/tbody&gt;&lt;/table&gt;  &lt;p&gt;首先来看ICC(1)。它并不考虑X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;的区别，所以实际上是将数据表中的X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;两列数据合成一列（即图b的结构，其中共有2n行），为了说明图a和图b的相等性，我在图b中加了变量Time，但实际上ICC(1)模型是估算Time的，而是只含一个因子（即自变量）的one-way ANOVA（单因子方差分析）。其自变量是ID，当只有两个重测指标时，自变量的values（即unique的ID数）很多、但每个value下面只有2个cases（所以是个很奇怪的模型），其F值是用来检验每个学生的均值全部为零的假设。由此可见，ICC(1) 并不能检验X的重测信度（当然它有很多其它用途，尤其是作为一个基准模型）。你说看到“过去的文献，针对同一道问题，如上题，三种算法都被用过”。我很难想象这种情况。建议你搞清作者用ICC(1)检验的零假设到底是什么。&lt;/p&gt;  &lt;p&gt;回到图a的常见数据。如上所说，它可以用来同时分解columns和rows的影响，也就是ICC(2) 和 ICC(3) 所需要的数据。所以ICC(1) 和 ICC(2) 都可以用来检验重测信度。两者的区别在于如何看待我开始时说的“同一概念的各种测量指标”的产生机制。这不是一个统计问题、而是研究设计问题或数据采集方法问题，即取决于每个研究的具体情况。一般而言，如果X&lt;sub&gt;1&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;是该概念的所有可能测量指标（最极端的例子是“匹配”样本，如夫妻、双胞胎、师生、上下级等“对子”对同一问题的回答），那么它们应该是fixed。反之，如果该概念除了X&lt;sub&gt;k&lt;/sub&gt;和X&lt;sub&gt;2&lt;/sub&gt;之外，还可以有X&lt;sub&gt;3&lt;/sub&gt;、… X&lt;sub&gt;k&lt;/sub&gt;指标，那么它们应该是random的。同理，检验在内容分析的inter-coder reliability时，coders应该都是从一个理论上无限大的总体中抽出来的样本，所以也应该是random的。你说你的两次测试是“two same judges in different time with fixed effect”，我没有足够信息来否定你，但直觉上感到它们是无限空间中的两个时间样本点，所以为什么不是random的？&lt;/p&gt;  &lt;p&gt;我们还可以从模型结果的使用来理解between-columns effects到底是fixed还是random的。如果你只想（或只能）将其结果限制在本研究的具体时空中（如这两个特定测量时间点、这两个特定coders、等等），那么可以采用fixed模型（3）；反之如果你希望将结果推及其它时间或空间（其它任何测量时点、任何coders、等等），那么就应该用random模型（2）。&lt;/p&gt;  &lt;p&gt;除了between-columns effects的不同选择之外，ICC还涉及其它两个层面的选择，一是估算的ICC是consistency还是absolute agreement（两者的差别就是我上面提到的旧帖中描述的correlation与difference），二是single 还是average。这些分别涉及到一些新的问题，暂且不谈了。&lt;/p&gt;  &lt;p&gt;如果谁真的要用ICC，应该认真读一下ICC的权威文献：K. O. McGraw &amp;amp; S. P. Wong (1996). &lt;a href="http://www3.uta.edu/faculty/ricard/COED/McGraw%20(1996)%20Forming%20inferences%20about%20ICCs.pdf"&gt;Forming inferences about some intraclass correlation coefficients&lt;/a&gt;、以及该文的&lt;a href="http://psycnet.apa.org/index.cfm?fa=buy.optionToBuy&amp;amp;id=1996-06601-006"&gt;纠错补充&lt;/a&gt;。&lt;/p&gt;  &lt;p&gt;最后，想说几句感受。常有网友在此问及各种进阶的统计问题、如SEM、multilevel、ICC等等。我是又喜又愁。喜的是后生可畏，敢于玩前沿。愁的是（从提问中推测），有关网友缺乏必要的基础知识，借助于统计软件而捷径上山、一步到顶峰。定量分析与其它绝大多数知识不同，只能循序渐进、一个台阶一个台阶往上爬。如果对进阶的方法不甚了了，与其大胆试用（大部分情况下会用错，而且错了还不知道原因何在），我强烈建议使用熟悉的经典方法，如回归、方差、crosstabs等等。经典方法也许用到你的数据上会有些问题、但那是已知的问题，而新方法可能带来的风险是无法预知。如果医生不了解某一新药，绝不敢乱用，而会使用已知作用有限并有副作用的旧药。我们是给数据看病的Data Doctor，也要有如此的基本医德。共勉。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8812494399181763003?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8812494399181763003/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8812494399181763003' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8812494399181763003'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8812494399181763003'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/05/intraclass-correlation-coefficient.html' title='如何选择Intraclass correlation coefficient (组内相关系数) 的模型？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/ShAqLqPMGDI/AAAAAAAAAF4/llSgldp_-mA/s72-c/image_thumb%5B4%5D.png?imgmax=800' height='72' width='72'/><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-589482115377488531</id><published>2009-05-10T18:19:00.001+08:00</published><updated>2009-05-10T18:19:37.755+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><title type='text'>不要做Modification Indices的奴隶！</title><content type='html'>&lt;p&gt;Erin @ 2009-05-07:&lt;/p&gt;  &lt;p&gt;有时在Lisrel的out文件中，有条message说“No Non-zero Modification Indices for PHI”，有时得到“No Non-zero Modification Indices for Lambda-x”或“No Non-zero Modification Indices for Lambda-y”。没有给出MI是因为什么？是因对相应的矩阵的设定么？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-05-11:&lt;/p&gt;  &lt;p&gt;理解这个问题的关键是弄懂Modification Indices (MI，修正指数) 到底是个什么东西，如它从何而来、说明什么、如何解读、等等？&lt;/p&gt;  &lt;p&gt;简单说来，MI是将你现有模型的拟合度（Chi-squares）与如果你对某一没有被估计的参数（即fixed parameter，如PHI、Lambda等）作出估计（即改成free parameter）后模型的拟合度之间作比较的差别，其值也是一个Chi-squares值。(这句话也许用英文来表达更容易理解：A modification index tells the difference in the goodness-of-fit (as measured in Chi-squares) between an existing model and a modified model in which a fixed parameter (such as PHI or Lambda) is free to be estimate.）&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SgaqNjBItaI/AAAAAAAAAFs/7xyqrT09dn0/s1600-h/image%5B12%5D.png"&gt;&lt;img style="border-right-width: 0px; margin: 0px 15px 0px 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" title="image" border="0" alt="image" align="left" src="http://lh5.ggpht.com/_bRlHaHZqzNE/SgaqOCg6w5I/AAAAAAAAAFw/GO35SihcNwU/image_thumb%5B8%5D.png?imgmax=800" width="480" height="332" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;左图是一个范例。假定你根据理论而设置了一个含X、Y和Z三个隐含因子的测量模型，其中X是观测变量X1-X3的来源、Y是观察变量Y1-Y3的来源、Z是观测变量Z1-Z3的来源，而三个因子之间容许存在一定的相关程度（注意X、Y和Z之间的双向箭头）。你在LISREL或AMOS里，用该模型对某数据做了拟合，发现其拟合度为显著（即模型与数据有显著差别）。为了改进模型的拟合度，你查看了LISREL或AMOS给出的MI结果，看到上述的“No Non-zero Modification Indices for PHI”，但是在 Modification Indices for LAMBDA-X（以下简称LMI）和Modification Indices for THETA-DELTA（以下简称TDMI）中，各有一组数值。比如，LMI中最大的是Lambda&lt;sub&gt;y1X &lt;/sub&gt;= 10.555、TDMI中最大的是Delt&lt;sub&gt;z2z3 &lt;/sub&gt;= 12.222，其次是Theta&lt;sub&gt;x3z1 &lt;/sub&gt;= 8.333。它们分别说明，如果你将Y1加到因子X上去，修正后的模型的Chi-squares会减去10.555；或者如果你在Z2和Z3的残差项之间建立相关关系，新模型的Chi-squares会减去12.222；或者如果你容许X3和Z1的残差项之间相关，新模型的Chi-squares会减去8.333。（注意：如果你同时做两项或三项修正，新模型的Chi-squares不一定会减少10.555+12.222+8.333之和那么多。）我们知道，在一个自由度的条件下，Chi-squares的显著性临界值为3.84，也就是说，如果一个MI的值大于4，就值得注意了。&lt;/p&gt;  &lt;p&gt;那么，为什么LISREL或AMOS有时会“罢工”，不报告MI呢？简单说来有两种情况：一是你的“所有可估计参数”(all estimable parameter）已被全部用完。注意，这里的“所有可估计参数”不等于“所有参数”。如上例的理论模型共有45个自由度（如果你不能一眼看出来，说明还得看点书再来玩SEM），其中估计了21个参数（如果你连这个也看不出来，那就麻烦了），还有24个自由度，也就是说还可以估计24个参数。但是，在PHI矩阵（外生因子的方差-协方差，详见“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!150.entry"&gt;LISREL的八个矩阵&lt;/a&gt;”）中已经没有可用的参数了，因为X、Y、Z三者之间的三对相关关系已经用尽了其所有的信息。所以，如上所述，LISREL或AMOS已经发了No Non-zero Modification Indices for PHI的“罢工通知”。事实上，除了PHI之外，结构模型的其它参数（other parameters of structural model），如GAMMA（外生因子对内生因子的影响）、BETA（内生因子对内生因子的影响）、PSI（内生因子的方差-协方差）等，也经常没有MI，因为它们多半已按理论模型的假定而被用尽。说到底，结构模型参数是绝大多数研究的最终目的，谁会将它们闲置在一边，等到看过MI之后再做决定是否进行估价？（我还会回到这一点的。）&lt;/p&gt;  &lt;p&gt;但是，测量模型的参数（parameters of measurement model）还有大量闲置的参数。如本例中的LAMBDA矩阵中，还有18个可被估计的参数（包括X对Y1-Y3、X对Z1-Z3、Y对X1-X3、Y对Z1-Z3、Z对X1-X3、Z对Y1-Y3），THETA-DELTA中则有更多（36个）参数可以被估计。 当然，你不可能将它们（总共54个）穷尽，因为你只有24个自由度。你甚至不应该将自由度全部用掉（见后面的讨论）。这里先回答一下，为什么LISREL或AMOS有时不提供其中某些参数的MI？这是没有MI的两种可能之二，即你的原始模型虽然拟合得不太好、但相比任何一种其它的修正模型来说，它的拟合度是最好的，这往往是观测变量之间缺乏任何关系造成的。当然，这种情况较罕见，尤其是你的模型有两个或以上隐含因子时，总会有某个没被估计的测量模型参数可以修正的吧？总之，一切从自由度出发，做任何事前先看看你还有多少自由度？这些自由度存放在哪个矩阵里？&lt;/p&gt;  &lt;p&gt;总之，如果LISREL或AMOS没有提供某一参数或某一矩阵（某类参数的的集合）的MI，说明该个或该组参数或者无法估计（结构性的问题）或被估计之后并不能给现有模型带来任何改进（实证性的问题）。由此看来，MI是个不错的工具，它可以帮助我们找到改进模型拟合度的“捷径”。但是，盲目使用MI，也会造成很多错觉或谬误。在我看来，不知情者对MI的误用和知情者对MI的滥用，是SEM应用中的一个主用问题。何谓“误用”、何谓“滥用”？我无意写篇论文来讨论，仅以上图中的三条虚线为例，说一下我的看法。&lt;/p&gt;  &lt;p&gt;1、一般情况下，不要碰LAMBDA，即不要仅仅根据MI而增添cross-factor loading（跨因子负荷？），如上图中根据Lambda&lt;sub&gt;y1X &lt;/sub&gt;的值而将Y1挂到X上去。估计跨因子负荷是EFA的做法，也是EFA为人诟病的一大原因。Y和X可以相关（如图中已做到了）。但是，如果再将Y1连到X上去，确实可以改进模型的拟合度，但同时牺牲了Y（以及X）因子的效度，得不偿失。也许有人说，我的理论要求Y1同时受X和Y的影响，怎么办？记住：everything is related to everything的理论一般不是好理论。&lt;/p&gt;  &lt;p&gt;2、在任何情况下，绝对不要碰DELTA（或EPS），即不要在一个因子内部的各变量之间增添correlated errors within a factor ，如上图中的Delt&lt;sub&gt;z2z3 &lt;/sub&gt;，不管其值有多少，也不能将其释放出来估计。一个因子中的各变量之间的相关部分，已经充分反映在它们在该因子的负荷之上，如果再将各变量的残差连起来，说明该因子之内还有因子，这在理论上是说不通的。当然，如果一个因子下各变量之间出现很大的MI值，说明这个因子模型有问题，也是该因子不是unidimensional的、也许是某变量有异常值（或者严重偏离正态分布）、等等。这些问题，需要通过清理数据或调整模型、而不是简单的在因子内变量残差建立相关关系。&lt;/p&gt;  &lt;p&gt;3、在一定条件下，可以考虑估计THETA中correlated errors between corresponding observed variables cross factors（跨因子对应变量残差之间的相关系数），如在上图中的Theta&lt;sub&gt;x3z1 &lt;/sub&gt;。这里的“一定条件下”的“对应变量”，往往指不同因子之间的两（或多）个变量之间是采用相同的测量方法（如问卷中相同的提问及回答）、或者同一变量在不同时间点上的测量值、等等。这时，建立其残差的相关关系，就相当于在各因子之间建立一个测量方法之共同因子（或者为MMMT模型的做法）。&lt;/p&gt;  &lt;p&gt;总之，正确使用MI的关键，取决于我们的目的是什么？是为了提高模型的拟合度以便能够发表、还是为了改进模型的结构参数以降低Type II误差？如果仅是为了前者，即使能够蒙过审稿人、也无法混过所有读者的仔细阅读。而如果为了后者，那么我开始时的叙述其实已经暗示了，MI对结构参数往往没有什么帮助。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-589482115377488531?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/589482115377488531/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=589482115377488531' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/589482115377488531'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/589482115377488531'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/05/modification-indices.html' title='不要做Modification Indices的奴隶！'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/SgaqOCg6w5I/AAAAAAAAAFw/GO35SihcNwU/s72-c/image_thumb%5B8%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-641169070171762070</id><published>2009-05-01T16:48:00.001+08:00</published><updated>2009-05-01T16:48:43.125+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何检验一个同时为调节和中介的变量？</title><content type='html'>&lt;p&gt;Anonymous @ 2009-04-22：&lt;/p&gt;  &lt;p&gt;祝老师您好： 我想请问两个困扰很久的问题：1.是否可能存在着这样的情形：在变量a对变量b有影响的前提下，变量c对它们之间关系的中介效应和调节效应同时存在？2.在用SEM做全显变量路径分析时，应该怎样看待这些拟合指数，是否和做CFA或结构模型的标准完全一样？ &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-05-01:&lt;/p&gt;  &lt;p&gt;我还没有见到过这种理论或这类数据。我估计，如果有某理论能合理假设出这种情形（你能否举个例子？），test（检验）并不难（见以下讨论），但却很难verify（证明），因为交互关系和中介关系各自都是不容易验证的小概率事件、而两个小概率事件交将是一个特小概率事件（传说中的“黑天鹅”事件？）。&lt;/p&gt;  &lt;p&gt;说说如何检验交互关系+中介关系吧。当然需要借助公式和图像来说明。为了与为我其它帖子使用的符号一致，我将你的a、b、c分别改为X（自变量）、Y（因变量）和Z（调节和中介变量），并生成XZ（交互变量）。以下分别是交互关系、中介关系和交互+中介关系的模型：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/Sfq3ZkEDWwI/AAAAAAAAAFk/sf8QQ2X3mGY/s1600-h/image%5B21%5D.png"&gt;&lt;img style="border-bottom: 0px; border-left: 0px; display: inline; border-top: 0px; border-right: 0px" title="image" border="0" alt="image" src="http://lh4.ggpht.com/_bRlHaHZqzNE/Sfq3acDAc_I/AAAAAAAAAFo/D-dgvjHrV5M/image_thumb%5B13%5D.png?imgmax=800" width="960" height="304" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;注意：为了简便起见，三个模型都省却了常数项。模型a和模型c中的X、Z、XZ之间都假定为0相关。模型2和模型3中的b1也都假定为0。&lt;/p&gt;  &lt;p&gt;模型1和模型2是用来说明模型3的来历，而模型3是需要被检验的模型，具体步骤为：&lt;/p&gt;  &lt;p&gt;1、中介关系的检验：估计模型3（包括b1）、然后设b1为0，比较两者的拟合度，如果没有显著差别，则说明b1=0；如果b2和b4同时显著地不等于0，并且b2b4显著地大于b1，则中介关系成立（具体参见&lt;a href="http://zjz06.blogspot.com/2009/04/blog-post_25.html"&gt;如何检验两个中介变量的效应?&lt;/a&gt;和其它帖子）；&lt;/p&gt;  &lt;p&gt;2、交互关系的检验：估计模型3（包括b1)、然后设b3为0，比较两者的拟合度，如果没有显著差别，则说明b3=0、反之，如果有显著差别，则说明b3不等于0、即Z对X与Y的关系有交互作用（具体参见以前发过的好些交互影响帖子）。&lt;/p&gt;  &lt;p&gt;如果X、Y、Z都是直接观测变量，那么上述模型只是不含测量模型的路径分析，可以在SEM来做、也可以用经典的OLS回归来做（即分别执行图c标题中的两个公式就是了），其结果完全一样。SEM的拟合度可以用卡方值或R平方、而回顾的拟合度则用R平方。但是，这时的SEM的卡方值与CFA的卡方值之含义完全不同，前者是结构模型中因子之间的关系而后者是测量模型中因子与观测变量之间的关系。&lt;/p&gt;  &lt;p&gt;如果X、Y、Z中有带观测变量的隐含因子，问题就复杂了很多，因为现有的SEM模型对交互项（XZ）没有完善的处理方法，一般是采用分组方法，即将样本按Z的不同值分成若干组，分别估计图b，然后通过比较各组b3的差别来验证Z的交换作用。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-641169070171762070?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/641169070171762070/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=641169070171762070' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/641169070171762070'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/641169070171762070'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/05/blog-post_5041.html' title='如何检验一个同时为调节和中介的变量？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/_bRlHaHZqzNE/Sfq3acDAc_I/AAAAAAAAAFo/D-dgvjHrV5M/s72-c/image_thumb%5B13%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5670336472298019949</id><published>2009-05-01T15:11:00.001+08:00</published><updated>2009-05-01T15:11:55.967+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-因子权重'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何确定综合指数的构成权重？</title><content type='html'>&lt;p&gt;Anonymous ＠ 2009-04-29：&lt;/p&gt;  &lt;p&gt;祝老师，您好！我现在在写硕士毕业论文，想请教您几个小问题。    &lt;br /&gt;我让主管给下属的三种绩效（任务绩效、情境绩效和反生产绩效）做出评分，然后对员工的总体绩效（与前面相独立的量表）做出评分，然后用三种绩效的得分对总体绩效得分进行回归，这样得出三个回归系数。前两个系数显著，后一个不显著。这三种绩效的系数可以视为主管在评价员工总体绩效时更看重哪种绩效，即一种权重。我想考查哪种绩效在总体绩效评分中更受主管重视，我还需要进行两个系数的显著性差异的检验吗？如果要，如何做？ &lt;/p&gt;  &lt;p&gt;Anonymous @ 2009-04-29（也许是另一读者）：&lt;/p&gt;  &lt;p&gt;他的意思应该是这样说,已经有若干个观测变量，这些变量为了测量隐含变量(总体满意度)。但由于理论上不同的观测变量对总体变量的影响程度是不一样的，对隐含变量的贡献程度不一样，系数也就不一样，不能通过全体简单的平均得出结果。那么,得通过什么方法来确定每个观测量的权重，再配合每个观测变量的均值来求得最终的隐含变量呢？结构方程中的路径系数是否可以作为这个权重来理解呢？&lt;/p&gt;  &lt;p&gt;我也想顺便问一下，相关系数R平方是否也可以作为权重？回归系数呢？有的文章是通过因子分析，用共同度来作为对总体的权重系数，这个处理方法合理吗？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-05-02：&lt;/p&gt;  &lt;p&gt;上述两个问题应该是不同的。匿名一（大家提问时能否留个名？当然假名虚名浪名都可以，以便区分）的问题是一组supervised数据，即总体绩效是一个观测到的变量，而匿名二的问题中因为总体绩效是没有观测的隐含因子、所以是一组unsupervised数据。两者之间当然后者更常见，但前者含有更多信息、因此可以研究更多问题。&lt;/p&gt;  &lt;p&gt;一、先讨论匿名一的问题。他（她？）的模型应该是（见最后的注释）&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y = b0 + b1y1 + b2y2 + b3y3 + e&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式一）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;用来检验y1 - y3各自对Y的影响（即其所说的“考查哪种绩效在总体绩效评分中更受主管重视”）。是否需要对b1与b2、b1与b3、b2-b3三对系数之间的差别做显著检验？当然要。如何做？请参见前贴“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1016.entry"&gt;如何检验两个回归系数的差别？&lt;/a&gt;”。&lt;/p&gt;  &lt;p&gt;二、匿名二提出的是一个含三个观测变量的测量模型（measurement model），即&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;y = Λ&lt;sub&gt;y&lt;/sub&gt;η + ε&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式二）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中y = y1，y2，y3，η是隐含因子、Λ&lt;sub&gt;y&lt;/sub&gt; 是η对各y的影响（也即权重），ε是各y中不受η影响的独自变异（也即误差）。显然，公式一与公式二很不一样：总体绩效在公式一中是因变量（等号的左边）而在公式二中是自变量（等号的右边）；公式一中的b1 - b3无论在理论上还是在数值上都与公式二中的Λ&lt;sub&gt;1 &lt;/sub&gt;- Λ&lt;sub&gt;3&lt;/sub&gt;是不同的。&lt;/p&gt;  &lt;p&gt;三、现在分别讨论匿名二提到的四种确定y之权重的方法：&lt;/p&gt;  &lt;p&gt;1、结构方程中的路径系数：英文为path coefficients of the structural model，但本案没有path coefficients、只有factor loadings of the measurement model（测量模型的因子负荷，即公式二的Λ&lt;sub&gt;1 &lt;/sub&gt;- Λ&lt;sub&gt;3&lt;/sub&gt;）。答案是肯定的，因子负荷就是被当做y1 - y3的权重的。&lt;/p&gt;  &lt;p&gt;2、相关系数R平方：不清楚你指的是y1 - y3之间的两两相关系数之平方，还是公式二的R平方？前者与匿名一的研究问题无直接关系。后者就是Λ&lt;sub&gt;1 &lt;/sub&gt;- Λ&lt;sub&gt;3&lt;/sub&gt;的平方。&lt;/p&gt;  &lt;p&gt;3、回归系数：同样不清楚你指哪个“回归模型”？如是公式一，你没有直接观测的Y，无法估计。如是公式二，就与你的方法1相同。&lt;/p&gt;  &lt;p&gt;4、因子分析的共同度(commonality)：这里指的应该是exploratory factor analysis，既然现在有理论导向的confirmatory factor analysis（即公式二），就不必再用数据导向的EFA了。&lt;/p&gt;  &lt;p&gt;四、有心的读者也许会想到将匿名一的supervsied数据和匿名二的unsupervised数据（两者中的y1 - y3是相同的）合在一起考虑，就是说，先用公式二构建隐含因子η，然后再检验其与观测变量Y之间的相关关系。一般说来，η与Y是正相关的，但其相关程度不一定是很强烈的、甚至不一定是显著的（如果样本小的话）。其背后有两种可能性：一是方法上的问题：虽然η没有测量误差、但Y含有一定的测量误差（但无法估计），二是理论上的问题：η与Y不一定是一个概念（如η也许是一个多维的因子，其中某些维度与Y无关），即confirmatory validaity问题。如果数据中只有Y和y1 - y3四个变量，我们无法将这两种原因分开。如果有其它“第三者”变量（在理论上与Y或测量误差有关），则可以进一步解析下去（重大突破往往就在眼前了）。但是，即使只有这四个变量，据此而发现的η与Y的相关关系，已经提供了很多信息（如对η效度的独立验证）。 &lt;/p&gt;  &lt;p&gt;最后，讲一讲语言的精确性问题（应该是已讲过多次的老话了）。匿名一说“用三种绩效的得分对总体绩效得分进行回归”，这句话大概是说倒了的，而本意应该是“用总体绩效得分对三种绩效的得分进行回归”（即公式一）。而匿名二的本意才是“用三种绩效的得分对&lt;strong&gt;&lt;font color="#0000ff"&gt;虚拟的&lt;/font&gt;&lt;/strong&gt;总体绩效得分进行回归”（公式二），但他（她）提到的方法3又和公式一混起来了。思想的迷惑往往与语言的含混互为因果。如何避免？用公式和英文。在英文里描述回归模型的句型是&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;regress Y on X controlling for Z，或者Y is regressed on X with Z controlled&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中Y、X和Z分别指因变量、自变量和控制变量。这使我联想起前几天与一些学生聊天的情景，当时我建议他们学研究方法时不要看中文书，因为中文语言不够严密，不料遭到强烈质疑，要我举例证明。这里是又一例。如果依靠他们的中文描述，很难将匿名一和匿名二之区别弄清楚的。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5670336472298019949?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5670336472298019949/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5670336472298019949' title='11 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5670336472298019949'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5670336472298019949'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/05/blog-post_01.html' title='如何确定综合指数的构成权重？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>11</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8691276015689741576</id><published>2009-04-25T02:00:00.007+08:00</published><updated>2009-09-05T18:23:55.575+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-SEM'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-中介变量'/><title type='text'>如何检验两个中介变量的效应?</title><content type='html'>&lt;p&gt;flyingzjt @ 2009-04-21：&lt;/p&gt;&lt;p&gt;经常看贴，收益良好，今天请教一个问题：X影响Y的关系中有两个中介变量A，B，如果A与B相关，那么其中介效应如何确定，其大小可以比较吗？如果有两个自变量X，Z，中介变量仍为A，B，可能的影响为X－A－Y，同时Z－B－Y，且A与B相关，X与Z相关，那么两个中介变量的效应又如何确定，如果上述变量均为潜变量，如何用LISREL与AMOS检验中介效应？多谢多谢！&lt;/p&gt;&lt;p&gt;庄主 @ 2009-04-25:&lt;/p&gt;&lt;p&gt;你的问题叙述出来好像挺复杂，但如果先画个图（见下图b）再来看，就属常见并较简单的模型之一了。（注意，为了与我在“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!150.entry" target="_blank"&gt;八大矩阵&lt;/a&gt;”中用的符号一致，我用γ表示从X和Z出来的影响而用β表示从A和B出来的影响；其它的系数如φ、ψ、ξ等也来自“八大矩阵”。）&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SfH_4jES6aI/AAAAAAAAAFU/e_0aJr6wD2s/s1600-h/image%5B31%5D.gif"&gt;&lt;img style="BORDER-BOTTOM: 0px; BORDER-LEFT: 0px; BORDER-TOP: 0px; BORDER-RIGHT: 0px" border="0" alt="image" align="left" src="http://lh4.ggpht.com/_bRlHaHZqzNE/SfH_46uTBkI/AAAAAAAAAFY/JdVBnZ9Ozps/image_thumb%5B23%5D.gif?imgmax=800" width="480" height="360" /&gt;&lt;/a&gt; &lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/SfH-HnlA1HI/AAAAAAAAAEs/ANOViFooKZg/s1600-h/image%5B17%5D.gif"&gt;&lt;img style="BORDER-RIGHT-WIDTH: 0px; BORDER-TOP-WIDTH: 0px; BORDER-BOTTOM-WIDTH: 0px; BORDER-LEFT-WIDTH: 0px" border="0" alt="image" align="left" src="http://lh4.ggpht.com/_bRlHaHZqzNE/SfH-IHYO5BI/AAAAAAAAAE0/sXBSfgw5FPA/image_thumb%5B13%5D.gif?imgmax=800" width="480" height="360" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;br /&gt;&lt;p&gt;我估计你已经知道，中介效应需要满足以下条件：&lt;/p&gt;&lt;ol&gt;&lt;li&gt;在中介变量（A或B）没有起作用之前（如图a），自变量（X或Z）对因变量（Y）有显著的direct effects（直接影响，即β&lt;sub&gt;YX&lt;/sub&gt;或β&lt;sub&gt;YZ&lt;/sub&gt; ≠ 0）； &lt;/li&gt;&lt;li&gt;当A或B出现之后（图b），X或Z通过A或B而对Y有显著的indirect effects（间接影响，即γ&lt;sub&gt;AX&lt;/sub&gt;或γ&lt;sub&gt;BZ&lt;/sub&gt; ≠ 0以及β&lt;sub&gt;YA&lt;/sub&gt;或β&lt;sub&gt;YB&lt;/sub&gt; ≠ 0）； &lt;/li&gt;&lt;li&gt;X或Z对Y的间接影响大于其直接影响（即γ&lt;sub&gt;AX&lt;/sub&gt; × β&lt;sub&gt;YA&lt;/sub&gt; &amp;gt; γ&lt;sub&gt;YX&lt;/sub&gt; 或γ&lt;sub&gt;BZ&lt;/sub&gt; × β&lt;sub&gt;YB&lt;/sub&gt; &amp;gt; γ&lt;sub&gt;YZ&lt;/sub&gt; ）；&lt;/li&gt;&lt;li&gt;当A或B起作用之后，X或Z对Y的直接影响随之彻底消失（即γ&lt;sub&gt;YX&lt;/sub&gt;或γ&lt;sub&gt;YZ&lt;/sub&gt; = 0，这就是为什么我在图b中用虚线表示相关的线条）， &lt;/li&gt;&lt;/ol&gt;&lt;p&gt;注：如果只满足条件1-3，则可认为存在weak version （弱版本）的中介效应；而如果条件1-4均被满足，得到的则是strong version（强版本）的中介效应。&lt;/p&gt;&lt;p&gt;根据上述条件，我们可以很容易地在SEM中检验中介效应。在本例中，由于涉及两个中介变量，可以分以下几步做：&lt;/p&gt;&lt;ol&gt;&lt;li&gt;检验“直接影响”模型（图a），如果其中的γ&lt;sub&gt;YX&lt;/sub&gt; 或γ&lt;sub&gt;YZ&lt;/sub&gt; 为显著，则条件1成立；&lt;/li&gt;&lt;li&gt;加入A和B而构成一个full model（“全模型”，图b），如果其中的γ&lt;sub&gt;AX&lt;/sub&gt; 和β&lt;sub&gt;YA&lt;/sub&gt;同时显著、或γ&lt;sub&gt;BZ&lt;/sub&gt; 和β&lt;sub&gt;YB&lt;/sub&gt;同时显著，则说明条件2成立；&lt;/li&gt;&lt;li&gt;如果全模型中的γ&lt;sub&gt;AX&lt;/sub&gt; × β&lt;sub&gt;YA&lt;/sub&gt; &amp;gt; γ&lt;sub&gt;YX&lt;/sub&gt; 或γ&lt;sub&gt;BZ&lt;/sub&gt; × β&lt;sub&gt;YB&lt;/sub&gt; &amp;gt; γ&lt;sub&gt;YZ&lt;/sub&gt; （前者即LISREL、AMOS等软件中报告的X或Z的间接影响值、而后者则是报告的X或Z的直接影响值），如果两者有显著差别，则说明条件3成立；&lt;/li&gt;&lt;li&gt;如果全模型中的γ&lt;sub&gt;YX&lt;/sub&gt; 或 γ&lt;sub&gt;YZ&lt;/sub&gt; 不显著，则说明条件4成立。&lt;/li&gt;&lt;/ol&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8691276015689741576?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8691276015689741576/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8691276015689741576' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8691276015689741576'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8691276015689741576'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/04/blog-post_25.html' title='如何检验两个中介变量的效应?'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh4.ggpht.com/_bRlHaHZqzNE/SfH_46uTBkI/AAAAAAAAAFY/JdVBnZ9Ozps/s72-c/image_thumb%5B23%5D.gif?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5258581541222559463</id><published>2009-04-19T18:21:00.001+08:00</published><updated>2009-04-19T18:29:15.293+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-时间序列'/><title type='text'>如何检验时间序列数据中的自相关？</title><content type='html'>&lt;p&gt;happyle @ 2009-02-22: &lt;/p&gt;  &lt;p&gt;关于一元线性回归的问题    &lt;br /&gt;用一次考试的成绩预测另一次考试成绩，建立回归方程。。。显著性检验。。。     &lt;br /&gt;F检验、T检验都有统计学意义     &lt;br /&gt;回归标准化残差直方图正态分布     &lt;br /&gt;P-P图正态分布     &lt;br /&gt;因变量与回归标准化预测值散点图呈直线趋势。。。     &lt;br /&gt;但是。。。     &lt;br /&gt;D.W.=.815     &lt;br /&gt;这表明残差之间正相关，不是相互独立的     &lt;br /&gt;所以请问下，这时候考虑DW值是否有意义？&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-04-18:&lt;/p&gt;  &lt;p&gt;首先要抱歉没有及时回复你的问题。我写帖子的时间不多，每次从收到的问题中按我对读者的兴趣判断挑一个。你的问题有一定的技术含量、但比不上近期的其它题目更有普遍兴趣。&lt;/p&gt;  &lt;p&gt;其次提个建议：以后能否将你的问题用sentences（句子）而不是bullet points（词汇排列）表达出来？不知是否受到PPT讲义的影响，越来越多的学生提问时采用这种方法。虽然简要，但如果简略到意义残缺，就适得其反了。准确地描述问题，是学好定量分析的基本功之一。&lt;/p&gt;  &lt;p&gt;好了，回到你的问题。先为其他读者介绍一下背景：DW（Durbin-Watson）值是检验一组时间序列数据中&lt;strong&gt;自相关&lt;/strong&gt;(autocorrelation) 程度的统计量。更准确地说，DW检验的是零假设为：一个为时间序列的因变量Y&lt;sub&gt;t&lt;/sub&gt;在对若干（1至k个）自变量作回归之后的每个时间点的residual（残差，记为e&lt;sub&gt;t&lt;/sub&gt;）与其前一时间点的残差（e&lt;sub&gt;t-1&lt;/sub&gt;）之间的相关（记为 Cor(e&lt;sub&gt;t&lt;/sub&gt;, e&lt;sub&gt;t-1&lt;/sub&gt;)）= 0。这种自相关，也被称为 first-order autocorrelation，简称AR1，中译&amp;#8220;&lt;strong&gt;一阶自相关&lt;/strong&gt;&amp;#8221;，这里的所谓&amp;#8220;一阶&amp;#8221;是指两个残差之间相差一个时间点。&lt;/p&gt;  &lt;p&gt;这里涉及好几个概念和问题：什么是残差（比较容易理解），什么是自相关（有点难度），一阶与高价自相关有什么差别（也有点难），自相关不等于0会有什么问题？等等。我只谈最后一个问题，因为与你问题直接有关，而其它留待以后有机会再谈。&lt;/p&gt;  &lt;p&gt;简单说来，如果 Cor(e&lt;sub&gt;t&lt;/sub&gt;, e&lt;sub&gt;t-1&lt;/sub&gt;) = 0, 那就违反了OLS回归的基本要求之一（即残差之间的独立性）。如果残差之间有自相关，虽然不会影响回归系数的值，但会影响（低估）回归系数的标准误差（即自变量对因变量的显著程度，从而犯了Type I错误）。这是少数不可饶恕的&amp;#8220;死罪&amp;#8221;之一，而DW值就是判断是否犯了此罪的判决书。&lt;/p&gt;  &lt;p&gt;DW值与Pearson r或其它相关系数不同，其取值在0至4之间，其中当DW值=2时，说明自相关=0；如果DW（明显）小于2，反映有&lt;strong&gt;正的自相关&lt;/strong&gt;(positive AR)；如果DW（明显）大于2，反映有&lt;strong&gt;负的自相关&lt;/strong&gt;(negative AR)。两者相比，前者（正相关）更为常见。这里又出现一些新的概念和问题，如什么是正的自相关、什么是负的自相关、怎样才算明显小于或大于2，等等。这里只谈最后一个问题，即DW对2的偏离到达什么程度，就是&amp;#8220;明显&amp;#8221;或&amp;#8220;显著&amp;#8221;差别了。&lt;/p&gt;  &lt;p&gt;与其它许多统计检验的做法（一般是将统计值除以其标准误差）不同，DW的统计检验比较复杂和繁琐。Durbin与Watson编制了一套检验表，分别对应于不同的数据时间点、不同的自变量个数和不同的显著水平（分为0.01和0.05两种），提供两个临界值，分别记为D&lt;sub&gt;L&lt;/sub&gt;（下限，低于其者则绝对有自相关）和D&lt;sub&gt;U&lt;/sub&gt;（上限，低于其者&amp;#8220;也许&amp;#8221;有自相关）。具体使用如下：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/Ser8-DlagSI/AAAAAAAAAEI/JSWKrsYNrTQ/s1600-h/image%5B9%5D.png"&gt;&lt;img style="border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; margin: 0px 0px 0px 10px; border-right-width: 0px" height="369" alt="image" src="http://lh6.ggpht.com/_bRlHaHZqzNE/Ser7P3Jo4tI/AAAAAAAAAEM/Tvz3B5VT6BM/image_thumb%5B7%5D.png?imgmax=800" width="600" align="right" border="0" /&gt;&lt;/a&gt; &lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;观察到的DW值小于2（即正自相关）时：      &lt;ol type="a"&gt;       &lt;li&gt;如果DW大于D&lt;sub&gt;U&lt;/sub&gt;，说明总体中的Cor(e&lt;sub&gt;t&lt;/sub&gt;, e&lt;sub&gt;t-1&lt;/sub&gt;) = 0，即可以接受回归分析结果； &lt;/li&gt;        &lt;li&gt;如果 DW小于D&lt;sub&gt;L&lt;/sub&gt;，说明总体中的Cor(e&lt;sub&gt;t&lt;/sub&gt;, e&lt;sub&gt;t-1&lt;/sub&gt;) &amp;#8800; 0，即不能接受回归分析结果（因为自变量与残差之独立性被破坏而使得回归结果不可靠）； &lt;/li&gt;        &lt;li&gt;如果DW落在D&lt;sub&gt;L&lt;/sub&gt;和D&lt;sub&gt;U&lt;/sub&gt;之间，则是一个灰色地带，需要进一步根据你的自变量分布是否均匀（即X在自己的各个取值上是否平均分配）来决定。如是，则按1b办；如否，则按1a办。 &lt;/li&gt;     &lt;/ol&gt;   &lt;/li&gt;    &lt;li&gt;观察到的DW值大于2（即负自相关）时：      &lt;ol&gt;       &lt;li&gt;如果DW小于4-D&lt;sub&gt;U&lt;/sub&gt;，则如同1a，即总体中的Cor(e&lt;sub&gt;t&lt;/sub&gt;, e&lt;sub&gt;t-1&lt;/sub&gt;) = 0而可以接受回归分析结果； &lt;/li&gt;        &lt;li&gt;如果DW大于4-D&lt;sub&gt;L&lt;/sub&gt;，则如同1b，即总体中的Cor(e&lt;sub&gt;t&lt;/sub&gt;, e&lt;sub&gt;t-1&lt;/sub&gt;) &amp;#8800; 0而需要拒绝回归分析结果； &lt;/li&gt;        &lt;li&gt;如果DW落在4-D&lt;sub&gt;L&lt;/sub&gt;和4-D&lt;sub&gt;U&lt;/sub&gt;之间，则如同1c，是一个灰色地带，需要进一步根据你的自变量分布是否均匀而决定是参照2a还是2b。 &lt;/li&gt;     &lt;/ol&gt;   &lt;/li&gt; &lt;/ol&gt;  &lt;p&gt;上图是我从DW表中选出的三组临界值，其显著水平均为p = 0.05，时间点在10至100个之间，自变量个数分别为2、4和6个。从图中可以看出如下规律：一、当时间点小于20而自变量为4个以上，D&lt;sub&gt;U&lt;/sub&gt;接近甚至大于2（即数据一定有自相关），而且D&lt;sub&gt;L&lt;/sub&gt;与D&lt;sub&gt;U&lt;/sub&gt;之间存在巨大的灰色地带；二、随着时间点增加至30以上，D&lt;sub&gt;U&lt;/sub&gt;变得相当稳定，而D&lt;sub&gt;L&lt;/sub&gt;与D&lt;sub&gt;U&lt;/sub&gt;之间的灰色地带逐渐缩小；三、D&lt;sub&gt;L&lt;/sub&gt;与D&lt;sub&gt;U&lt;/sub&gt;之间的差距并不是对称的。这些都有助于我们理解时间序列分析的基本要求（如数据时间点至少要30个以上、自变量个数不能多）的来源，同时也说明一些&amp;#8220;常规说法&amp;#8221;（如DW值不能小于1.0）其实并不准确。&lt;/p&gt;  &lt;p&gt;你做的是一元回归方程，说明有1个自变量，得到的DW值为0.815，显示存在正的自相关。你没有交代数据的时间点，但可以从上图的红线中看出，你的DW值一定是低于临界点下限的。&lt;/p&gt;  &lt;p&gt;你问：这时候考虑DW值是否有意义？当然有意义：你数据中有显著的自相关。我猜你的原意是&amp;#8220;这时候回归分析结果（如回归系数达到显著水平）是否还可靠？&amp;#8221;前面提到，在显著的自相关下，回归系数的标准误差被人为缩小而显著水平被人为提高，所以也是不可靠的。&lt;/p&gt;  &lt;p&gt;当然，你的数据也许不是时间序列 (Y&lt;sub&gt;t&lt;/sub&gt; = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;X&lt;sub&gt;t&lt;/sub&gt;) 而是panel数据 (Y&lt;sub&gt;it&lt;/sub&gt; = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;X&lt;sub&gt;it&lt;/sub&gt;) ，因为你说用&amp;#8220;考试成绩2预测考试成绩1&amp;#8221;，暗示该数据中只有两个时间点，但应该有i个人。如果是这种i x t的数据（注意panel公式中的下标），不能用上述经典的DW检验，而应改用修正过的DW公式。SAS、Stata等软件中有，但SPSS13版（我不知14版以后的情况）并不提供这一统计量。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5258581541222559463?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5258581541222559463/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5258581541222559463' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5258581541222559463'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5258581541222559463'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/04/blog-post_19.html' title='如何检验时间序列数据中的自相关？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh6.ggpht.com/_bRlHaHZqzNE/Ser7P3Jo4tI/AAAAAAAAAEM/Tvz3B5VT6BM/s72-c/image_thumb%5B7%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5233750356840591375</id><published>2009-04-13T17:12:00.001+08:00</published><updated>2009-04-13T17:12:05.900+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>共同影响与交互影响是一回事吗？</title><content type='html'>&lt;p&gt;LH @ 2009-04-03:&lt;/p&gt;  &lt;p&gt;我看了你最近的博客&lt;b&gt;&lt;a href="http://zjz06.blogspot.com/2009/03/blog-post_6245.html"&gt;如何处理和报告含高度相关自变量的回归分析？&lt;/a&gt;&lt;/b&gt;，有一个疑问，如下：&lt;/p&gt;  &lt;p&gt;Y = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;A + b&lt;sub&gt;2&lt;/sub&gt;B + b&lt;sub&gt;3&lt;/sub&gt;AB + e&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （公式六）&lt;/p&gt;  &lt;p&gt;得到R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;。这个跟R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;是什么关系呢？R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;不应该是包含了A的贡献，B的贡献和AB交互贡献的总的公式吗？&lt;/p&gt;  &lt;p&gt;假如我的研究问题是想搞清楚AB的共同影响，您的原文中说&amp;#8220;&amp;#916;&lt;sub&gt;3&lt;/sub&gt; = R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;- R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;5&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;&amp;#8221;，&amp;#8220;&amp;#916;&lt;sub&gt;3&lt;/sub&gt;反映了A和B的共同影响&amp;#8221;，那么R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;- R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;5&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;又是什么呢？&lt;/p&gt;  &lt;p&gt;我是不是搞混了&amp;#8220;交互作用&amp;#8221;和&amp;#8220;共同影响&amp;#8221;？&lt;/p&gt;  &lt;p&gt;b&lt;sub&gt;3&lt;/sub&gt;AB中的b&lt;sub&gt;3&lt;/sub&gt;是&amp;#8220;交互作用&amp;#8221;，而&amp;#916;&lt;sub&gt;3&lt;/sub&gt;是共同影响？&lt;/p&gt;  &lt;p&gt;或者这两个词是一回事，我在别的地方弄错了。&lt;/p&gt;  &lt;p&gt;您看这样的理解对不对：对b&lt;sub&gt;3&lt;/sub&gt;AB中的b&lt;sub&gt;3&lt;/sub&gt;关注的是AB交互对回归系数的影响（放大或者缩小），而对&amp;#916;&lt;sub&gt;3&lt;/sub&gt;的关注是关注AB对回归方程effect size的影响。而对&amp;#916;&lt;sub&gt;3&lt;/sub&gt;研究effect size影响的时候，应该采用公式一Y = b&lt;sub&gt;0&lt;/sub&gt; + b&lt;sub&gt;1&lt;/sub&gt;A + b&lt;sub&gt;2&lt;/sub&gt;B + e ，而非公式六？&lt;/p&gt;  &lt;p&gt;但愿我没有越说越糊涂。&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-04-12:&lt;/p&gt;  &lt;p&gt;一、公式1与公式6之区别：原文公式1（Y = b0 + b1A + b2B + e ）只含A和B的main effects（主影响），而公式6加入了A X B的interactions（交互影响）。所以，前者是&amp;#8220;主影响模型&amp;#8221;而后者是&amp;#8220;交互影响模型&amp;#8221;。显然，这两者是nested，即前者是后者在b3（即交互影响）=0时的一个特例。所以，我们是通过(R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;- R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;)/R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;来检验交互项是否显著的。&lt;/p&gt;  &lt;p&gt;二、R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;- R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;5&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;又是什么呢：公式4和公式5都是公式1的一个特例。公式4（Y = b0 + b2B + e）是公式1在A的net effects（独立影响）=0时的特例而公式5（Y = b0 + b1A + e）在B的独立影响=0时的特例。因此，两者也是公式6的一个特例。R&lt;sub&gt;6&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;- R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;5&lt;/sub&gt;&lt;sup&gt;2&amp;#160; &lt;/sup&gt;= 交互影响 + A和B共同影响。&lt;/p&gt;  &lt;p&gt;三、交互影响与共同影响之区别：两者是完全独立的两个概念，不要搞混了。（当然，你即不是世上第一个、也绝不会是最后一个混淆两者的人。）由于经常与人辩论这个问题，我最后找到一个简单而又有力的例子：含A和B两个自变量的&lt;strong&gt;factorial experiment&lt;/strong&gt;（&lt;strong&gt;正交实验&lt;/strong&gt;），在此条件下，A和B是完全无关的（为什么？考考你），即两者对因变量只有独立影响而无共同影响（即&lt;sup&gt; &lt;/sup&gt;&amp;#916;&lt;sub&gt;3&lt;/sub&gt;= 0）；然而，分析正交实验数据时，我们一定要检验A和B之间的交互影响，结果有时显著、有时不显著，这就不说明交互影响与共同影响是无关的两回事吗？（我好像写过一个类似的帖子，但一下子查不到了。知道的读者帮帮忙吧）&lt;/p&gt;  &lt;p&gt;四、共同影响是什么东东：我写过N个帖子讲交互影响，你的上述理解是对的。这里讲几句什么是共同影响。首先，这个名词容易误导。英文中不是&amp;#8220;common effects&amp;#8221;，而是confounding effects, overlapped effects, shared effects（干扰、重合、共享等等）。它并不是什么好东西，甚至连&amp;#8220;东西&amp;#8221;都不是，因为它不含任何信息，只是一个即属于A也属于B的混沌世界（但真正的混沌是有信息、可以解的），也许称为&amp;#8220;灰色地带&amp;#8221;更准确（相信很多读者对在政策灰色地带中生活有深切感觉）。&lt;/p&gt;  &lt;p&gt;当然，&amp;#8220;灰色地带&amp;#8221;有多种来源，如A和B缺乏discriminant validity（差异效度）、A和B受到第三者变量的影响下、A和/或B中含有偏向对方的系统性误差，等等。不管来源为何，其直接影响了模型的理论解释力（当然并不影响模型的预测能力），所以一般是想方设法减小（而不是&amp;#8220;研究&amp;#8221;）AB之间的&amp;#8220;共同影响&amp;#8221;。&lt;/p&gt;  &lt;p&gt;你的最后一段文字，大意对、但表述不准确。如果按我上述说法，应该如何改一下呢？&lt;/p&gt;  &lt;p&gt;附录：&lt;/p&gt;  &lt;p&gt;为了演示&amp;#8220;交互影响与共同影响是完全独立的两个概念&amp;#8221;，我用SPSS设计了一个正交实验的模拟数据，样本N=400，A和B完全独立、而且A、B与其交互项AB也完全独立，同时A、B、AB分别解释了Y的三分之一变差（当然只有在模拟的理想世界中才可能发生）。你运行一下，查看输出的相关矩阵和回归结果来验证一下。最后，如果你琢磨一下crosstabs的结果，应该可以找到我上面有关为何正交实验的自变量之间是完全独立的原因。&lt;/p&gt;  &lt;p&gt;set seed=123.    &lt;br /&gt;input program.     &lt;br /&gt;loop #i=1 to 400.     &lt;br /&gt;compute ID=#i.     &lt;br /&gt;end case.     &lt;br /&gt;end loop.     &lt;br /&gt;end file.     &lt;br /&gt;end input program.     &lt;br /&gt;do if ID&amp;lt;=100.     &lt;br /&gt;compute A=-.5.     &lt;br /&gt;compute B=-.5.     &lt;br /&gt;else if ID&amp;gt;100 and ID&amp;lt;=200.     &lt;br /&gt;compute A=-.5.     &lt;br /&gt;compute B=.5.     &lt;br /&gt;else if ID&amp;gt;200 and ID&amp;lt;=300.     &lt;br /&gt;compute A=.5.     &lt;br /&gt;compute B=-.5.     &lt;br /&gt;else if ID&amp;gt;300.     &lt;br /&gt;compute A=.5.     &lt;br /&gt;compute B=.5.     &lt;br /&gt;end if.     &lt;br /&gt;cross A by B.     &lt;br /&gt;compute AB=A*B.     &lt;br /&gt;compute Y=AB*.5+A*.25+B*.25. &lt;/p&gt;  &lt;p&gt;cor A B AB. &lt;/p&gt;  &lt;p&gt;*Model 1 (R-square=.667).    &lt;br /&gt;reg dep=Y/enter A B. &lt;/p&gt;  &lt;p&gt;*Model 4 (R-square=.333).    &lt;br /&gt;reg dep=Y/enter B. &lt;/p&gt;  &lt;p&gt;*Model 5 (R-square=.333).    &lt;br /&gt;reg dep=Y/enter A. &lt;/p&gt;  &lt;p&gt;*Model 6 (R-square=1.000).    &lt;br /&gt;reg dep=Y/enter A B AB.&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5233750356840591375?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5233750356840591375/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5233750356840591375' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5233750356840591375'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5233750356840591375'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/04/blog-post_7569.html' title='共同影响与交互影响是一回事吗？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-8585188569680993174</id><published>2009-04-12T11:58:00.001+08:00</published><updated>2009-04-12T12:00:56.108+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计-定序变量'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-Logistic回归'/><title type='text'>如何做“有序Logistic回归”？</title><content type='html'>&lt;p&gt;patricia @ 2009-04-12:&lt;/p&gt;  &lt;p&gt;祝老师, 你好, 我想问个关于回归的问题. 对照组病灶数0, 病例组病灶数为1,2,3. 现在想了解几个危险因素和病灶数的关系, 是不是应该用有序logistic回归来分析. 能不能概括一下步骤, 看了一些资料, 还是感觉茫然! 谢谢!&lt;/p&gt;  &lt;p&gt;庄主 @ 2009-04-12:&lt;/p&gt;  &lt;p&gt;我对医学知之甚少，不知取值从0到3的&amp;#8220;病灶&amp;#8221;应该是一个定距 interval) 还是一个定序 ordinal) 的变量？既然你已考虑用有序logistic回归(ordinal logistic regression，以下简称OLR)，说明你是确定病灶为定序变量的。&lt;/p&gt;  &lt;p&gt;logistic regression（LR）用于分析因变量为定类或定序的数据。其中分为三个分支：一是因变量为二分组的binary LR（通常在LR一词之前不注明binary），二是因变量为多项分组的multinomial logistic regression（MLR），三是这里谈的OLR。显然，MLR和OLR相似，唯一的区别是前者因变量各组之间只有性质的区别而后者各组之间有大小之别。&lt;/p&gt;  &lt;p&gt;我用过MLR，但没有用过OLR（所以以下部分纯属&amp;#8220;知识&amp;#8221;而不是经验之谈），刚才查看了一下SPSS中的OLR程序（SPSS中叫做PLUM，但不是可口的李子噢），觉得它的操作及输出结果与MLR大致相仿（其实前者比后者更简单，这也许是好事），主要要多了一项&amp;#8220;Test of parallel items&amp;#8221;的输出，用于检验因变量各组之间的预测值（即根据自变量而模拟的logistic曲线）是否平行。 &lt;/p&gt;  &lt;p&gt;你希望了解一下操作步骤，我觉得你既然知道选择OLR，操作对你来说应该没有任何困难。如在SPSS里，将定类的自变量当作Factor、定距的自变量当作Covariate，如果需要检验自变量之间的交互影响，在Location中指定。以下是基本的Syntax（假定有两个定类自变量x1、x2和一个定距自变量z，其中x1和x2、x1和z被假设有交互关系）：&lt;/p&gt;  &lt;p&gt;PLUM y BY x1 x2 WITH z/LOCATION=x1 x2 z x1*x2 x1*z/PRINT=FIT PARAMETER SUMMARY TPARALLEL.&lt;/p&gt;  &lt;p&gt;其中PRINT=TPARALLEL就是检验y各组预测值的平行性（注：如果不平行，并不是说明它们之间有交互影响）。&lt;/p&gt;  &lt;p&gt;我猜你参阅了其它资料后的困惑，主要在于对其输出结果的解读上。这是在对定类因变量做多元分析时使用各种LR或者Loglinear时普遍出现的问题。（曾有一位学生问我，是否需要选修一门专讲Loglinear Analysis的课，我强烈推荐，说哪怕你以后从不用Loglinear，懂得如何解读定类因变量的多元分析结果就终身受用了。）这种困惑，与你已有如何处理定类变量的其它经验直接有关（注意，我不用知识，因为一般知识在这里帮不了你）。如果你会在各种回归中设置和解读定类自变量，就应该会将其原理推广到如何设置和解读BLR中定类因变量、并进一步推广到如何设置和解读MLR中的定类因变量或OLR中的定序因变量了。我在本庄已写过多个有关如何设置和解读定类自变量的帖子，请查询一下。如果你读后还是觉得无从下手，说明你还只获得了一下（简单）知识，需要从那里开始动手做，以积累必要的经验，然后循序渐进、最后才来做OLR，定量分析很难一步到位的。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-8585188569680993174?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/8585188569680993174/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=8585188569680993174' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8585188569680993174'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/8585188569680993174'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/04/logistic_12.html' title='如何做“有序Logistic回归”？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5437856698542584901</id><published>2009-04-11T22:24:00.000+08:00</published><updated>2009-04-12T22:27:45.344+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>分样本比总样本的回归分析更准确吗？</title><content type='html'>&lt;p&gt;罗拉@2009-03-30:&lt;/p&gt;&lt;p&gt;祝老师，1.这个问题是上次“如何检验男女两组回归系数之间的差别？”的延续，性别是调节变量，影响了自变量和因变量关系的方向，生成性别和其他两个变量的交互项进行统计解释率为21%，但是分性别统计时，女生为20%，男生为33%，这时是不是分性别统计更准确呢？&lt;/p&gt;&lt;p&gt;2.自变量为两个分类变量（性别，年级），因变量为二分变量（稳定，不稳定），我现在用RC表统计的，但是如果要考虑性别和年级在因变量上的交互效应该如何做呢？&lt;/p&gt;&lt;p&gt;庄主@2009-04-11:&lt;/p&gt;&lt;p&gt;先叙述一下罗拉的问题1：他/她想检验的模型为&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Y&lt;sub&gt;i&lt;/sub&gt; = b0 + b1X1&lt;sub&gt;i&lt;/sub&gt; + b2X2&lt;sub&gt;i&lt;/sub&gt; + b3Z&lt;sub&gt;i&lt;/sub&gt; + b4X1&lt;sub&gt;i&lt;/sub&gt;Z&lt;sub&gt;i&lt;/sub&gt; + b5X2&lt;sub&gt;i&lt;/sub&gt;Z&lt;sub&gt;i&lt;/sub&gt;         （公式1，i = 1 ~ N）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;其中Y是因变量、X1和X2是自变量、Z是作为调节变量的性别，用于某一样本（记为N），其回归方程的R平方（记为R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;）为0.21。如果将样本N按男女分成两个分样本（N1和N2），分别用以下模型做回归&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Y&lt;sub&gt;i&lt;/sub&gt;= b0 + b1X1&lt;sub&gt;i&lt;/sub&gt; + b2X2&lt;sub&gt;i&lt;/sub&gt;                                                 （公式2, i = 1 ~ N1）&lt;/p&gt;&lt;/blockquote&gt;&lt;blockquote&gt;&lt;p&gt;Y&lt;sub&gt;i&lt;/sub&gt;= b0 + b1X1&lt;sub&gt;i&lt;/sub&gt; + b2X2&lt;sub&gt;i&lt;/sub&gt;                                                 （公式3, i = 1 ~ N2）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;（注意：性别Z在两个子样本中都是一个常数，即在男性中=1、女性中=0，所以公式2中没有b3Z、b4X1Z和 b5X2Z三项。）其R平方（分别记为R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;2&lt;/sub&gt;和R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;3&lt;/sub&gt;）分别为0.20和0.33，前者略小于R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;、但后者则明显大于R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;。&lt;/p&gt;&lt;p&gt;（罗拉及其他网友：如果下次你有疑问，能否将问题按类似的详尽程度叙述出来？这次我完全看懂罗拉的问题、但担心有些读者看不懂，所以详细写出来；但有时我也不大或完全看不懂问题。）&lt;/p&gt;&lt;p&gt;罗拉的结论“分性别统计更准确”涉及几个误解。第一，就R&lt;sup&gt;2&lt;/sup&gt;而言，R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;2&lt;/sub&gt;和R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;3&lt;/sub&gt;合在一起与R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;是等值的，这是因为R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;是R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;2&lt;/sub&gt;和R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;3&lt;/sub&gt;的&lt;strong&gt;加权平均数&lt;/strong&gt;（weighted mean）。本例中R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;非常接近女性组的R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;3&lt;/sub&gt;而遥遥远离男性组的R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;2&lt;/sub&gt;，这应该是女性人数明显多于男性人数而造成的。&lt;/p&gt;&lt;p&gt;注意：上述公式1和公式2+公式3是等值的；但是如果在公式1中拿掉与Z有关的b3-b5三项，即&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Y&lt;sub&gt;i&lt;/sub&gt; = b0 + b1X1&lt;sub&gt;i&lt;/sub&gt; + b2X2&lt;sub&gt;i&lt;/sub&gt;                                                  （公式4, i = 1 ~ N）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;公式4与公式2+公式3是不等值的。公式1是一个含交互项变量的模型。公式2+公式3是公式1的分拆，所以是一组隐含交互项的模型。而公式4只含主影响，R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;4&lt;/sub&gt;会小于R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;或R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;2&lt;/sub&gt;和R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;3&lt;/sub&gt;的加权均值。大家不要将公式1与公式4混淆了。&lt;/p&gt;&lt;p&gt;第二、虽然分样本的R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;2&lt;/sub&gt;和R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;3&lt;/sub&gt;与总样本的R&lt;sup&gt;2&lt;/sup&gt;&lt;sub&gt;1&lt;/sub&gt;等值，但是由于分样本的个案数（N1和N2）小于总样本数，所以总样本的回归结果要比两个分样本的结果更精确（即样本大则误差小）。&lt;/p&gt;&lt;p&gt;第三、虽然对两个分样本的b0、b1或b2作比较很直观，但是这种比较并不能告诉我们两者之间是否存在显著差别，而总样本（即公式1）中的b4和b5分别直接检验了Z与X1及Z与X2的交互影响（详细参见&lt;a href="http://zjz06.blogspot.com/2009/02/blog-post_28.html"&gt;如何检验男女两组回归系数之间的差别？&lt;/a&gt;）。&lt;/p&gt;&lt;p&gt;罗拉的问题2，与问题1的唯一区别是因变量是dummy变量，自然不能用经典的OLS回归而应该用Logistic Regression等工具。但是对两个自变量（其实是一个自变量和一个调节变量）之间的交互影响的检验和展示，与问题1以及本庄有关交互影响的三、五个帖子完全一样，恕不赘言。&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5437856698542584901?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5437856698542584901/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5437856698542584901' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5437856698542584901'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5437856698542584901'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/04/blog-post_12.html' title='分样本比总样本的回归分析更准确吗？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3159594802939361104</id><published>2009-04-11T19:24:00.001+08:00</published><updated>2009-04-11T19:24:04.709+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><category scheme='http://www.blogger.com/atom/ns#' term='统计-交互影响'/><title type='text'>如何绘制调节效应的图形？</title><content type='html'>&lt;p&gt;无名氏 @ 2009-04-09:&lt;/p&gt;  &lt;p&gt;我是一名应届毕业生，人力资源管理专业，目前在做关于调节作用的毕业论文。向您请教一个问题，&amp;#8220;如何绘制调节效应的图形&amp;#8221;？谢谢您，祝开心！ &lt;/p&gt;  &lt;p&gt;庄主 @ 2009-04-10:&lt;/p&gt;  &lt;p&gt;这个问题，其实就是如何用图形表示交互关系。而最常见的图形则是直线图（line chart，相信你多半见过），其中Y轴是因变量、X是自变量、图中至少有两条线，每条线代表调节变量（moderator variable）的一个组（更精确地说，是X与Y在该组数据中的关系）。这种图很容易画，可能的难点在于如何设定每条线的斜率，解决方法是先解析出每条线所对应的回归方程，余下的步骤就是小菜一碟了。以下举几个例子来说明。&lt;/p&gt;  &lt;p&gt;一、调节变量是一个二分的定类变量(dichotomized nominal variable)：&lt;/p&gt; &lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SeB9zEJIb-I/AAAAAAAAADY/GuPs28DMcNQ/s1600-h/image%5B19%5D.png"&gt;&lt;img height="294" alt="image" src="http://lh6.ggpht.com/_bRlHaHZqzNE/SeB9zejcCaI/AAAAAAAAADc/V4y3-UZCUns/image_thumb%5B13%5D.png?imgmax=800" width="480" align="right" /&gt;&lt;/a&gt;   &lt;p&gt;假定你的回归方程是 Y = b0 + b1X + b2Z + b3XZ，其中Z是调节变量、含有两个组别（如男女，分别取值1和0，当然也可取1和2或其它数值，但如下述，取1和0会简化结果的解读和制图）。再假定你的回归结果是b0 = 9.7, b1 = 0.3, b2 = 9.7, b3 = -9.1（这里的系数都是为了制图方便而编出来的），那么，男女两组的方程分布是 Y = 19.4 + 0.6X 和 Y = 9.7 + 0.3X（具体过程略过，但你应该逐步演算一遍，以确保理解男女分组方程的来历以及各自与总方程的异同、如女性组方程的b0和b1与总方程的b0和b1相同，女性b0与男性b0之间的差别就是总方程的b2，女性b1与男性b1之间的差别就是总方程的b3，等等）。有了这两个方程，就可以分别算出男女两组在X的最大和最小值时Y的预测值（这一步可以搬到Excel里做，比SPSS方便）。假定X在1-100之间变化，那么当X=1时，男性的Y = 19.4 + 0.6 x 1 = 20、女性的Y = 9.7 + 0.3 x 1 = 10；而当X=100时，男性的Y = 19.4 + 0.6 x 100 = 80、女性的Y = 9.7 + 0.3 x 100 = 40。根据这四组数据（1、20；100、80；1、10；100、40），就可以画出图1了。&lt;/p&gt;  &lt;p&gt;二、调节变量是一个三分的定类变量(trichotomized nominal variable)：&lt;/p&gt;  &lt;p&gt;如果调节变量Z是一个含三个组的定类变量（或含三个层次的定序变量、但被当作定类变量处理；如果你想将其当作定距变量处理，见下例），需要先为Z构建两个取值分别为1和0的二分变量（见上例），分别记为Z1和Z2，而回归方程则为Y = b0 + b1X + b2Z1 + b3Z2 +b4XZ1 + b5XZ2。假定Z是职业，Z1是白领 = 1、其他 = 0；Z2是退休 = 1、其它 = 0；蓝领是基准组、在Z1和Z2上都取0。为了省事,我将图1中的男性数据改为白领、女性数据改为蓝领、只增加退休组的数据。而回归结果为 b0 = 9.7, b1 = 0.3, b2 = 9.7, b3 = 50.7, b4 = -9.1, b5 = -51.1。如上例一样，现在可以根据b1-b5的系数以及Z1和Z2的取值，求出三个职业组各自的方程：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SeB9z-XKpjI/AAAAAAAAADg/VbkltdP77sc/s1600-h/image%5B38%5D.png"&gt;&lt;img height="294" alt="image" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SeB90Jg2btI/AAAAAAAAADk/ybgT3GycP_E/image_thumb%5B26%5D.png?imgmax=800" width="480" align="right" /&gt;&lt;/a&gt;白领组（即Z1 = 1、Z2 = 0）：Y = 19.4 + 0.6X&lt;/p&gt;  &lt;p&gt;蓝领组（即Z1 = 0、Z2 = 0）：Y = 9.7 + 0.3X&lt;/p&gt;  &lt;p&gt;退休组（即Z0 = 1、Z2 = 1）：Y = 60.4 -0.4X&lt;/p&gt;  &lt;p&gt;最后用画图1的方法画出图2（具体步骤略过，但希望你自己演绎一遍）。其中前两组与图1相同（因为我就是用同一批数据构建的），而退休组因含有一个负值的b1所以呈现向下的趋势。&lt;/p&gt;  &lt;p&gt;三、调节变量是一个定距变量：&lt;/p&gt;  &lt;p&gt;定距变量往往有很多个值，不可能也不必要对每个值画一条线，一般是取两、三个&amp;#8220;代表性&amp;#8221;(representative或illustrative）的值各画一条线。如果是取两个值，一般取Z的平均数的正负一个标准差的值（即Z值上第16%位和第84%位的值）；如果取三个值，则将平均数作为第三个值。假定这里的Z是年龄，其平均值 = 40，标准差 = 20，而回归系数b0 = 20, b1 = -0.067, b2 = 0.50, b3 = 0.008，我们取Z的均值（40）、大于均值一个标准差（60）和小于均值一个标准差（20），分别得到以下三个方程：&lt;/p&gt;  &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/SeB90vPjW5I/AAAAAAAAADo/NTXe1AOhVcc/s1600-h/image%5B37%5D.png"&gt;&lt;img height="294" alt="image" src="http://lh6.ggpht.com/_bRlHaHZqzNE/SeB9067qd3I/AAAAAAAAADs/ob9X2G1uAro/image_thumb%5B25%5D.png?imgmax=800" width="480" align="right" /&gt;&lt;/a&gt;60岁老年：Y = 50 + 0.39X&lt;/p&gt;  &lt;p&gt;40岁中年：Y = 40 + 0.24X&lt;/p&gt;  &lt;p&gt;20岁青年：Y = 30 + 0.08X&lt;/p&gt;  &lt;p&gt;然后用与图1和图2相同的方法画出图3（具体略过）。&lt;/p&gt;  &lt;p&gt;四、其它各种可能性：&lt;/p&gt;  &lt;p&gt;如果Z是一个中心化（centralized，见）的值（这时，X也应该是一个中心化的值），那么需要在解析出上述公式后，再将Z（和X）的值减去其平均值而得到其&amp;#8220;原始值&amp;#8221;，并在图形中以原始值来设定X轴和Z的斜率。&lt;/p&gt;  &lt;p&gt;如果有两个或更多的调节变量，分组方程的解析并不困难、但画图就有点复杂了，一般是用k个图来表示，其中k等于其中一个调节变量的组别数。假定一个调节变量是性别、另一个是年龄。可以用两个图来分别显示：一是 男性中年龄、二是自变量X的交互效应和女性中年龄与自变量X的交互效应。或者用三个图来分别显示年龄与自变量X在老年、中年和青年中的交互效应。究竟用性别还是用年龄作为第一层的分组指标（其实也就是调节变量的调节变量），取决于你的研究假设：你最终想比较的是什么？&lt;/p&gt;  &lt;p&gt;最后，如果你用的是方差分析，上述原则同样全部适用。其实SPSS方差分析也可以产生回归系数的。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3159594802939361104?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3159594802939361104/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3159594802939361104' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3159594802939361104'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3159594802939361104'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/04/blog-post.html' title='如何绘制调节效应的图形？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh6.ggpht.com/_bRlHaHZqzNE/SeB9zejcCaI/AAAAAAAAADc/V4y3-UZCUns/s72-c/image_thumb%5B13%5D.png?imgmax=800' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-5917690571503166570</id><published>2009-03-28T21:07:00.003+08:00</published><updated>2009-04-14T08:43:07.388+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何处理和报告含高度相关自变量的回归分析？</title><content type='html'>&lt;p&gt;Michael @ 2009-03-27: &lt;/p&gt;&lt;p&gt;祝老师您好，我看到很多多元线性回归没有报告自变量之间的相关性，是否只需要通过共线性检验就可以忽略自变量之间的相关性呢？另，我想分析两个高度相关(相关系数＝0.8)的自变量A、B与Y的关系；CFA分析显示A、B具有显著差异(卡方值变化)，我能否先用其中一个变量如A作用因变量，B作为自变量构建一个回归模型F，然后，用B和F模型形成的残差与Y回归呢？还是直接把AB放入回归模型？非常感谢！&lt;/p&gt;&lt;p&gt;庄主 @ 2009-03-28:&lt;/p&gt;&lt;p&gt;一、是否需要报告自变量之间相关程度？据我所知，绝大部分期刊确实没有将其作为必须报告之信息，也许是因为这一信息并不影响读者对回归模型的总解释力（即R平方）的理解。当然，高度相关的自变量即使能通过共线性检验，其统计显著性甚至系数的正负符号还是有可能受到影响（参见“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!237.entry" target="_blank"&gt;如何在回归分析中检验和解读交互影响&lt;/a&gt;”和其他前贴）。所以，作为作者，不但有责任报告自变量之间的相关程度（但并不一定需要一个表格，用一两句话注明那些相关系数高于0.5的自变量即可），更需要根据R平方之变化值（“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1042.entry"&gt;如何用block方法检验交互影响？&lt;/a&gt;”）或semi-partial R平方（“&lt;a href="http://zjz06.ycool.com/post.1206136.html"&gt;ΔR2与Semipartial R2&lt;/a&gt;”）等结果来检验和解读有关自变量的显著性。&lt;/p&gt;&lt;p&gt;二、如何将高度相关的自变量输入回归模型？一般的做法是将所有自变量（即你的A和B）同时引入回归分析，然后用上述方法来检验各自的显著性和独立贡献程度。这些方法不但在统计理论是成熟的，而且在解读时也是便利的。你建议的方法，其实就是将A和B之间的共同影响部分全部划归为B（这种做法与我在block方法中讲的先引入B、再引入A的结果一模一样），这就需要你有充分的理论根据（如B是A的自变量）才有意义，不然会导致人为夸大B的影响而缩小A的影响。&lt;/p&gt;&lt;p&gt;为了便于其他读者理解我们这里的讨论，让我用几个公式来说明一下。你的回归模型是&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Y = b0 + b1A + b2B + e （公式一）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;其中e是Y中无法被A和B解释的残差。因为A和B高度相关（r = 0.8），你打算分两步来检验公式一：&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;A = c0 + c1B + f （公式二）&lt;/p&gt;&lt;p&gt;Y = b0' + b1'f + b2'B + e' （公式三）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;其中公式二中的f是A中无法被B解释的残差（也即A与B无关的部分），因此当作一个自变量进入公式三。如果用R平方来考察上述模型，其与block方法中的部分结果是一样的。在block方法中，你可以先检验&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Y = b0 + b2B + e （公式四）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;得到R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;，它反映了B对Y的影响（其中包括了B和A的共同影响），然后再加入A（即检验公式一）而得到R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;，而ΔR = R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;的差即反映了A对Y的独立影响。&lt;/p&gt;&lt;p&gt;注意，R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;，与公式三的R&lt;sub&gt;3&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;应该是等值的、e和e'也应该相同；但b0和b'0、b1和b'1、b2和b'2则有可能不同，一般来说，b2'会大于b2、b1'则小于b1，因此我认为你的方法可能会“人为夸大B的影响而缩小A的影响”。当然，这种风险在上述的（不完整）block方法中也同样存在。&lt;/p&gt;&lt;p&gt;那么，应该如何处理呢？我在上述的几贴中已详细介绍过，这里只简单重复一下。先分别检验公式一、四和五（见下），&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Y = b0 + b1A + e （公式五）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;然后分别计算Δ&lt;sub&gt;1&lt;/sub&gt; = R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;、Δ&lt;sub&gt;2&lt;/sub&gt; = R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;5&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;和Δ&lt;sub&gt;3&lt;/sub&gt; = R&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;- R&lt;sub&gt;4&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt; - R&lt;sub&gt;5&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;，其中Δ&lt;sub&gt;1&lt;/sub&gt;反映了B的独立影响；Δ&lt;sub&gt;2&lt;/sub&gt;反映了A的独立影响；Δ&lt;sub&gt;3&lt;/sub&gt;反映了A和B的共同影响。如果A和B完全无关，Δ&lt;sub&gt;3&lt;/sub&gt;则为0，但在本例中，因为A和B高度相关，所以Δ&lt;sub&gt;3&lt;/sub&gt;可能远远大于Δ&lt;sub&gt;1&lt;/sub&gt;和Δ&lt;sub&gt;2&lt;/sub&gt;。因此，这部分影响归功于谁，是十分重要而又复杂的问题，不能随意处置。&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-5917690571503166570?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/5917690571503166570/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=5917690571503166570' title='4 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5917690571503166570'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/5917690571503166570'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/03/blog-post_6245.html' title='如何处理和报告含高度相关自变量的回归分析？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>4</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-4107807537936390202</id><published>2009-03-21T14:59:00.001+08:00</published><updated>2009-03-21T15:02:23.180+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='数据整理'/><title type='text'>如何运用缺省值分析(MVA)方法？</title><content type='html'>&lt;p&gt;wjgxm:&lt;/p&gt;  &lt;p&gt;有几个关于缺失值处理的问题想请教祝老师：&lt;/p&gt;  &lt;p&gt;我在用little&amp;#8217;s MCAR检验时发现，以往不少国内的研究在用此检验时，大多数时候并非是针对整个问卷进行的，而是选取部分指标进行检验，如：1、只针对几个缺失较严重的选；2、只针对问卷中核心部分的指标；3、将问卷分为几个部分，如基本情况项目、满意度量表、其它情况项目等，分别检验。&lt;/p&gt;  &lt;p&gt;我对自己的问卷（包括三个部分：基本情况项、5级量表、其它项）分别进行了几次检验，结果如下：1、全部选项纳入检验，结果Sig. = .044；2、只检验5级量表项，结果Sig. = .083；3、剔除最后的4个跳选项，结果结果Sig. = .398。这些结果差异较大，大于或小于0.05的都有。我对little&amp;#8217;s MCAR检验的适用性感到一定困惑，因为我是非统计学的学生，非常的业余。&lt;/p&gt;  &lt;p&gt;此外，我对跳选项的处理也非常困惑，我的问卷是做关于居民满意度的，最后5项如下：    &lt;br /&gt;1、你对XXX的总体满意度？1、很不满意；2、较不满意；3、一般；4、较满意；5、很满意&lt;/p&gt;  &lt;p&gt;如果满意：    &lt;br /&gt;(1)你会xxxxx？1、一定不会；2、....；5、一定会     &lt;br /&gt;(2)你会xxxxx？1、一定不会；2、....；5、一定会     &lt;br /&gt;如果不满意：     &lt;br /&gt;(1)你会XXXXX？1、一定不会；2、....；5、一定会     &lt;br /&gt;(2)你会XXXXX？1、一定不会；2、....；5、一定会&lt;/p&gt;  &lt;p&gt;我现在觉得这些跳选项设计的非常没头脑，感到懊恼，因为不管是否满意，居民都应该可能会有这双方面的行动的！问题是，正常情况下，如何处理这些跳选项？我现在首先要做的是缺失处理，后期还要用到SEM，关于这个问题思考的非常之艰难，因为身边没有可帮助之人，网络搜索和学术论文搜索也难解惑，特向您求助！&lt;/p&gt;  &lt;p&gt;庄主：&lt;/p&gt;  &lt;p&gt;我读过Missing Value Analysis（MVA，缺省值分析）的文献，但从来没有用过，没有第一手的经验或教训可以分享，所以我只简略回答你的问题。（我的原则是，对于自己没有第一手体验的问题，回答尽量简略，以免误人子弟。）&lt;/p&gt;  &lt;p&gt;为了便于其他读者的理解，先简介一下MVA。缺省值指调查、实验、内容分析等实证数据中&amp;#8220;拒答&amp;#8221;、&amp;#8220;不知道&amp;#8221;、&amp;#8220;无意见&amp;#8221;等没有实际信息的值。传统的数据分析是将其排除在外，或者用均值或中位数来取代。MVA是一种data-driven（数据导向）而非theory-driven的方法，即根据那些不含缺省值的个案（&amp;#8220;样本一&amp;#8221;）中的相关信息来预测（即填补）含缺省值的个案（&amp;#8220;样本二&amp;#8221;）中的缺省值。&lt;/p&gt;  &lt;p&gt;我至所以不用MVA，主要是对其的基本假定（即缺省值是完全随机或基本随机产生、或样本一和二没有本质差别）存有很大疑虑。这种疑虑，即来自传统文献，也源于我自己的实证研究。我曾用中国大陆的十来个调查、共几万个案的数据做过一个item non-responses（INR，问题拒答）的研究（Zhu, 1996），发现INR不是随机的、而是受到问卷设计、问题性质、调查环境以及被访者特征等各个层面变量的影响。既然如此，我们应该而且可以根据具体数据的情况（即INR与上述自变量的关系）来决定如何处理INR，如有时应该将INR当作neutral position（中立立场）、有时则应将其当作真正的缺省值而从分析中剔除，而不应盲目和机械地依赖SPSS或其它软件中的MVA工具来替我们做这个重要决定。（同学们大家起来，我们不要做SPSS的奴隶！）&lt;/p&gt;  &lt;p&gt;当然，我的上述看法也许是过分保守和落伍。如果你的样本太小，如果不用MVA来&amp;#8220;拯救&amp;#8221;（？）那些缺省值，有效个案（即样本一）所剩无几，无法做分析，你应该对做MVA之前（即样本一）和之后（即样本一+样本二）的数据分别检验你的理论假设，然后比较两者的参数（如均值、回归或相关系数等）、但不必比较两者的标准误差或显著程度（因为两者样本大小不一而自然不同）。如果两者有明显区别，说明样本二不是样本一的一个随机子样本、而是另一个具有系统差别的样本（但要害问题是我们不知道这种系统从何而来和如何纠正）。在这种情况下，我会放弃样本二。只依靠样本一的代价是Type II误差（即可能拒绝了真实的差别或关系）；加入了有系统偏差的样本二，虽然减少了Type II误差、但同时大大提高了Type I误差（可能接受了虚假的差别或关系）。前者的后果是害己（无法发表）；后者则是害人（最终也害己）。两害之间，我们应该取其轻者。&lt;/p&gt;  &lt;p&gt;我基本认同你对国内运用MVA时的流行做法的批评。既然MVA完全依赖样本一中各变量之间的关系，那么变量越多、其中的信息也就越多，所以应该尽量利用所有现有的变量来做MVA。但是（非常重要的条件），假定你要通过MVA填补的是因变量中的缺省值，你就绝对不应该包括你的理论假设或模型中的所有自变量。否则，你用了自变量填补了因变量中的缺省值，然后再检验两者的相关关系，不就成了自我循环了吗？&lt;/p&gt;  &lt;p&gt;你在介绍你的三种检验结果时，没有讲清楚其&amp;#8220;显著&amp;#8221;差别的意思是什么：是指你用三者不同的MVA方法生成三个新数据（即三个上述的样本一+样本二），然后分别检验你的理论假设的结果？如是，它们之间的差别就与我上一段讲的有关了。你&amp;#8220;全部纳入&amp;#8221;的问题中也许也包含了自变量，所以其关系容易显著。其实，在没有弄清你的样本二是否为随机样本之前，这种变量之间的比较没有意义。你需要的是我前一段中讲的个案之间的比较。&lt;/p&gt;  &lt;p&gt;对于你的第二个问题，即如何填补你的那些被跳过的问题的值。这种想法很大胆、很有创意，但可惜没有道理、非常危险。这里，你不是在填补缺省值、而是在凭空制造新数据。&lt;/p&gt;  &lt;p&gt;Zhu, J. H. (1996). &amp;quot;I don't know&amp;quot; in public opinion surveys in China: Individual and contextual causes of item non-response. &lt;i&gt;Journal of Contemporary China&lt;/i&gt;, 5, 223-244.&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-4107807537936390202?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/4107807537936390202/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=4107807537936390202' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4107807537936390202'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/4107807537936390202'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/03/mva.html' title='如何运用缺省值分析(MVA)方法？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-594777111213875880</id><published>2009-03-15T21:06:00.001+08:00</published><updated>2009-03-15T21:06:35.243+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何用block方法检验交互影响？</title><content type='html'>&lt;p&gt;阳阳：&lt;/p&gt;  &lt;p&gt;祝老师，您好！读了您的《如何在回归分析中检验和解读交互影响？》，我大受启发，非常感谢！关于调节变量的检验我还有一个问题想请教您。我的毕业论文有一个调节变量是&amp;#8220;年龄阶段&amp;#8221;（共分为三个年龄阶段，即是一个包含三个水平的类别变量），自变量（X）和因变量（Y）各是一个连续变量。我的考虑是把调节变量转化为虚拟变量(D1,D2)，则最后要检验的方程为：Y=a+bX+cD1+dD2+eX*D1+fX*D2。我的疑问是，在检验中，是把X、D1、D2构成&amp;#8220;Block 1&amp;#8221;，而X*D1和X*D2一起构成&amp;#8220;Block 2&amp;#8221;？还是&amp;#8220;Block 1&amp;#8221;不变，把X*D1构成&amp;#8220;Block 2&amp;#8221;，而X*D2构成&amp;#8220;Block 3&amp;#8221;呢？另外，我的假设是&amp;#8220;X与Y负相关，而处于不同年龄阶段（即调节变量）的个体，这种负相关的强度有区别，具体为：年龄阶段二 &amp;gt; 年龄阶段一 &amp;gt; 年龄阶段三&amp;#8221;，第一次使用spss，我只会解读包含两个水平的调节作用，心里很着急，期盼您的指导！非常感谢！&lt;/p&gt;  &lt;p&gt;庄主： &lt;/p&gt;  &lt;p&gt;你没有说清第一个问题（是把X*D1和X*D2当作一个block还是两个block进入回归）的目的，但我估计是想因此来检验e和f的统计显著性。你的思路应该是受到stepwise regression（逐步回归）的影响。如果你查看一下我的前贴（大部分还在&lt;a href="http://zjz06.ycool.com"&gt;http://zjz06.ycool.com&lt;/a&gt;或&lt;a href="http://zjz06.spaces.live.com"&gt;http://zjz06.spaces.live.com&lt;/a&gt;上，还没有转过来），就会知道我是强烈反对用逐步回归来做显著性检验的（逐步回归可以用了做预测模型的构建，但那完全是另外一种研究）。&lt;/p&gt;  &lt;p&gt;你应该采用的是full-1的思想。即通过比较你的full model与full-1 (减掉一个交互项）model之间的差别来检验被减掉的交互项之显著性。在你的案例中，首先估算full model： &lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y=a+bX+cD1+dD2+eX*D1+fX*D2&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （模型1）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;然后估计两个partial models，分别为： &lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y=a+bX+cD1+dD2+eX*D1&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （模型2）&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;和 &lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;Y=a+bX+cD1+dD2+fX*D2&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160;&amp;#160; （模型3） &lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;最后分别比较模型1与模型2、模型1与模型3的R平方之间的差别，从而决定e和f分别是否显著。即，&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;img style="border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px" height="48" alt="clip_image002" src="http://lh5.ggpht.com/_bRlHaHZqzNE/Sbz9T8PB7OI/AAAAAAAAACU/MDqy7Rthrhg/clip_image002_thumb%5B1%5D.gif?imgmax=800" width="174" border="0" /&gt;&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;和&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;&lt;a href="http://lh6.ggpht.com/_bRlHaHZqzNE/Sbz9UELd5GI/AAAAAAAAACY/iBqCT-z4Pi4/s1600-h/clip_image002%5B5%5D%5B3%5D.gif"&gt;&lt;img style="border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px" height="48" alt="clip_image002[5]" src="http://lh3.ggpht.com/_bRlHaHZqzNE/Sbz9USLt6wI/AAAAAAAAACc/h_omDqCCs1o/clip_image002%5B5%5D_thumb%5B1%5D.gif?imgmax=800" width="174" border="0" /&gt;&lt;/a&gt;&lt;/p&gt; &lt;/blockquote&gt;  &lt;p&gt;其中&lt;a href="http://lh4.ggpht.com/_bRlHaHZqzNE/Sbz9U0zgVfI/AAAAAAAAACg/GttuNuCPXrE/s1600-h/clip_image002%5B7%5D%5B3%5D.gif"&gt;&lt;img style="border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px" height="24" alt="clip_image002[7]" src="http://lh6.ggpht.com/_bRlHaHZqzNE/Sbz9VbsgfnI/AAAAAAAAACk/lCsBMac-0A4/clip_image002%5B7%5D_thumb%5B1%5D.gif?imgmax=800" width="22" border="0" /&gt;&lt;/a&gt;、&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/Sbz9VjPGSGI/AAAAAAAAACo/8iPYx-yohHE/s1600-h/clip_image004%5B4%5D.gif"&gt;&lt;img style="border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px" height="24" alt="clip_image004" src="http://lh5.ggpht.com/_bRlHaHZqzNE/Sbz9V88N5sI/AAAAAAAAACs/smTOWR6OViw/clip_image004_thumb%5B1%5D.gif?imgmax=800" width="22" border="0" /&gt;&lt;/a&gt;和&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/Sbz9WXwDn0I/AAAAAAAAACw/So2Jea9GJVI/s1600-h/clip_image006%5B4%5D.gif"&gt;&lt;img style="border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px" height="26" alt="clip_image006" src="http://lh4.ggpht.com/_bRlHaHZqzNE/Sbz9WkHZM5I/AAAAAAAAAC0/VFCkLUsReb8/clip_image006_thumb%5B1%5D.gif?imgmax=800" width="24" border="0" /&gt;&lt;/a&gt;分别是模型1-3的R平方，&lt;i&gt;K&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;、&lt;i&gt;K&lt;sub&gt;2&lt;/sub&gt;&lt;/i&gt;和&lt;i&gt;K&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt;分别是模型1-3的自变量个数（在你的案例中，分别为5、4、4），N为样本个数。上述比较结果均服从以（&lt;i&gt;K&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;&lt;i&gt;-K&lt;sub&gt;2&lt;/sub&gt;&lt;/i&gt;）和（N-&lt;i&gt;K&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;-1）和（&lt;i&gt;K&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;&lt;i&gt;-K&lt;sub&gt;3&lt;/sub&gt;&lt;/i&gt;）和（N-&lt;i&gt;K&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt;-1）为自由度的F分布，所以可以通过查阅F值表来决定模型1与2或模型1与3之间是否有显著差别。如果有差别，即说明被省略的该交互项是显著的（因为省略之后模型的拟合度或解释力有了显著的退步）。&lt;/p&gt;  &lt;p&gt;你的第二个问题，是通过比较e和f的值及其方向来完成的。鉴于你的假设为&amp;#8220;年龄阶段二 &amp;gt; 年龄阶段一 &amp;gt; 年龄阶段三&amp;#8221;，你应该将年龄组1作为基准组，即在D1和D2两个dummy变量中取0，而年龄组2在D1中取1、年龄组3在D2中取1。SPSS syntax为：&lt;/p&gt;  &lt;p&gt;IF AGE=2 D1=1.   &lt;br /&gt;IF AGE=1 D1=0.    &lt;br /&gt;IF AGE=3 D1=0.    &lt;br /&gt;IF AGE=3 D2=1.    &lt;br /&gt;IF AGE=1 D2=0.    &lt;br /&gt;IF AGE=2 D2=0. &lt;/p&gt;  &lt;p&gt;如果前述检验结果显示模型1与模型2有显著差别、而且e是正值（即年龄组2大于基准组），那么假设一成立；如果模型1与3有显著差别而且f是负值（年龄组3小于基准组），那么假设二成立。&lt;/p&gt;  &lt;p&gt;其实上述道理与只有一个dummy交互项相仿，你如有志从事科学研究，应该加强训练自己的举一反三能力。&lt;/p&gt;  &lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-594777111213875880?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/594777111213875880/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=594777111213875880' title='6 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/594777111213875880'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/594777111213875880'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/03/block.html' title='如何用block方法检验交互影响？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh5.ggpht.com/_bRlHaHZqzNE/Sbz9T8PB7OI/AAAAAAAAACU/MDqy7Rthrhg/s72-c/clip_image002_thumb%5B1%5D.gif?imgmax=800' height='72' width='72'/><thr:total>6</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-3609609183206500415</id><published>2009-02-14T15:46:00.002+08:00</published><updated>2009-02-28T15:43:53.990+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何检验两个回归系数的差别？</title><content type='html'>&lt;p&gt;X君 @ 2009-01-23: &lt;/p&gt;&lt;p&gt;曾经看过你的有关“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!954.entry" target="_blank"&gt;如何检验两个相关系数之差别&lt;/a&gt;”的帖子，很有启发。最近看了你另外的帖子&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1008.entry" target="_blank"&gt;“如何检验两组回归系数之间的差别&lt;/a&gt;”，又有新的收获。其实我还有一个问题，即如何比较一个回归模型中两个定距自变量的影响之差别。我猜想你的上述两个帖子大概已经间接回答了这个问题，但是我还是无法靠自己解决这个问题。&lt;/p&gt;&lt;p&gt;具体例子是我在一个回归分析中的因变量为知识水平，两个定距自变量分别为媒体使用时间和人际沟通时间。很多书上都说，比较一个回归分析中不同系数的大小，要用标准化系数（BETA）。我的回归中BETA分别为0.22和0.15。我原本以为这些数据已经足以证明媒体影响大于人际影响，但是看了你的两个帖子之后，我不知道是否还要用什么公式来检验两者的差别？谢谢。&lt;/p&gt;&lt;p&gt;庄主 @ 2009-02-14:&lt;/p&gt;&lt;p&gt;同一回归模型中的两个Beta（标准化回归系数）之区别，仅仅告诉我们该样本中这两个自变量影响大小的不同，并不说明两者的区别可以推及研究总体。如同所有其它统计检验问题一样，比较同一回归模型中各系数之间的区别也需要经过如下的统计检验过程：&lt;/p&gt;&lt;p&gt;&lt;strong&gt;1. 设立零假设&lt;/strong&gt;：如果有关的回归模型是 Y = b0 + b1X + b2Z，那么检验其中两个回归系数之差别的零假设是：&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;b1 = b2 (公式一）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;或者其等价公式 &lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;b1 - b2 = 0 (公式二）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;其中的b1和b2是非标准化系数。 &lt;/p&gt;&lt;p&gt;&lt;strong&gt;2. 确定检验统计量&lt;/strong&gt;：由于b1-b2只反映了样本的情况，如要推及总体，需要同时考虑它们的抽样误差，也就是说，要将b1-b2的差别除以两者的&lt;strong&gt;Join Standard Error&lt;/strong&gt; (联合标准误差)，即&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SZfITCrN33I/AAAAAAAAABM/qHqftCW1gPU/s1600-h/clip_image00254.gif"&gt;&lt;img height="46" alt="clip_image002[5]" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SZfITuxFebI/AAAAAAAAABQ/kPOy4-1biJ4/clip_image0025_thumb2.gif?imgmax=800" width="50" /&gt;&lt;/a&gt; (公式三）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;其中se&lt;sub&gt;12&lt;/sub&gt;就是b1和b2的联合标准误差，公式三的结果服从一个以n-k-1的t分布（即用t检验）。这些已在“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1008.entry"&gt;如何检验男女两组回归系数之间的差别&lt;/a&gt;”一文的第1点中说过。两文之间的不同之处是，如果b1和b2来自两个回归模型（如前文的男女分组样本），我们无法得知se&lt;sub&gt;12&lt;/sub&gt;的。而如果b1和b2来自同一模型（如本例），就就可以用如下公式来求出se&lt;sub&gt;12&lt;/sub&gt;了：&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;&lt;a href="http://lh5.ggpht.com/_bRlHaHZqzNE/SZfITz8aEKI/AAAAAAAAABU/HjOE32kzZMI/s1600-h/clip_image0024.gif"&gt;&lt;img style="BORDER-TOP-WIDTH: 0px; BORDER-LEFT-WIDTH: 0px; BORDER-BOTTOM-WIDTH: 0px; BORDER-RIGHT-WIDTH: 0px" height="30" alt="clip_image002" src="http://lh3.ggpht.com/_bRlHaHZqzNE/SZfIUWMS14I/AAAAAAAAABY/iNyrKk2WkvI/clip_image002_thumb1.gif?imgmax=800" width="178" border="0" /&gt;&lt;/a&gt; （公式四）&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;其中se&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;和 se&lt;sub&gt;2&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;分别是b1和b2的variance（方差，也就是标准误差之平方），cov&lt;sub&gt;12&lt;/sub&gt;是b1和b2的covariance（协方差）。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;3. 设置统计显著水平&lt;/strong&gt;：即alpha值，一般为0.05。如果样本数据的实际显著水平（即p值）小于0.05，我们就拒绝零假设，即认为b1和b2在总体中也是不同的。反之，如果p值大于0.05，我们就无法拒绝零假设，而维持b1与b2在总体中相等的假定。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;4. 计算统计量的值&lt;/strong&gt;：SPSS（或其它统计软件）回归分析结果中自然有b1和b2的值，但却并不会直接给出se&lt;sub&gt;12&lt;/sub&gt;的值，我们需要先用SPSS算出公式四中的se&lt;sub&gt;1&lt;/sub&gt;&lt;sup&gt;2 、&lt;/sup&gt; se&lt;sub&gt;2&lt;/sub&gt;&lt;sup&gt;2&lt;/sup&gt;和Cov&lt;sub&gt;12&lt;/sub&gt;，然后再代入公式四，最后再算出公式三。在SPSS中的操作，如果写syntax，需要在Regression的指令中加上“STATISTICS=BCOV”一句；如果用菜单，需要选取"Analyze/Regression/Linear/Statistics/Covariance Matrix"。这两种方法，都是让SPSS产生一个自变量回归系数的Correlation/Variance-Covariance Matrix（如下例）。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;5. 查出实际统计量相对应的显著水平，并因此决定是否拒绝零假设&lt;/strong&gt;：此步与其它统计检验相同，故省略。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;实例：&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;以下以SPSS所带来的Employees Data.sav来演示上述过程。我们希望用此数据来比较“先前经验”与“本公司工龄”两者对工资水平的影响之差别，也就是说要检验下述回归模型&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Salary = b0 + b1PrevExp + b2Jobtime&lt;/p&gt;&lt;/blockquote&gt;&lt;p&gt;中的b1和b2之差别。因此，&lt;/p&gt;&lt;p&gt;1. 零假设： b1 - b2 = 0&lt;/p&gt;&lt;p&gt;2. 统计量：可直接应用上述公式三，不需任何修改&lt;/p&gt;&lt;p&gt;3. 显著水平：alpha = 0.05&lt;/p&gt;&lt;p&gt;4. 求出统计量：先用下述SPSS指令做回归分析：&lt;/p&gt;&lt;p&gt;REGRESSION STATISTICS=DEFAULT BCOV/DEPENENDENT=salary/ENTER=prevexp jobtime.&lt;/p&gt;&lt;p&gt;结果分别见表一和表二：&lt;/p&gt;&lt;p align="center"&gt;表一、回归系数&lt;/p&gt;&lt;table cellspacing="0" cellpadding="0" width="600" align="center" border="1"&gt;&lt;colgroup&gt;&lt;col width="100"&gt;&lt;/colgroup&gt;&lt;tbody&gt;&lt;tr&gt;&lt;td width="100"&gt;&lt;/td&gt;&lt;td width="200" colspan="2"&gt;&lt;div align="center"&gt;Unstandardized&lt;br /&gt;Coefficients&lt;/div&gt;&lt;/td&gt;&lt;td width="100"&gt;&lt;div align="center"&gt;Standardized Coefficients&lt;/div&gt;&lt;/td&gt;&lt;td width="100"&gt;&lt;div align="center"&gt;t&lt;/div&gt;&lt;/td&gt;&lt;td width="100"&gt;&lt;div align="center"&gt;Sig.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;B&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;Std. Error&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;Beta&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;(Constant)&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;24332.66&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;6376.41&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;3.816&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;0.0001&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;prevexp &lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;-15.9543&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;7.46028&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;-0.09772&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;-2.138&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;0.032&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;jobtime &lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;143.2172&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;77.55162&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;0.084383&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;1.847&lt;/div&gt;&lt;/td&gt;&lt;td align="right"&gt;&lt;div align="center"&gt;0.065&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/tbody&gt;&lt;/table&gt;&lt;p align="left"&gt;表一显示prevexp（先前经验）在0.05水平上是显著的、而jobtime（本公司工龄）在0.05水平上并不显著（当然在marginal的0.10水平上是显著的）。然而，这并不保证两者在总体中一定是显著差别的，需要经过统计检验。为此，我们需要根据表二求出两者的联合标准误差。&lt;/p&gt;&lt;p align="center"&gt;表二、回归系数的相关与方差/协方差矩阵&lt;/p&gt;&lt;table cellspacing="0" cellpadding="0" width="600" align="center" border="1"&gt;&lt;colgroup&gt;&lt;col width="120"&gt;&lt;/colgroup&gt;&lt;tbody&gt;&lt;tr&gt;&lt;td width="120"&gt;&lt;/td&gt;&lt;td width="120"&gt;&lt;div align="center"&gt;&lt;/div&gt;&lt;/td&gt;&lt;td width="120"&gt;&lt;div align="center"&gt;jobtime&lt;/div&gt;&lt;/td&gt;&lt;td width="120"&gt;&lt;div align="center"&gt;prevexp&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;Correlations&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;jobtime&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;1&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;-0.00298&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;prevexp&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;-0.00298&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;1&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;Covariances&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;jobtime&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;6014.253&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;-1.72302&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;prevexp&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;-1.72302&lt;/div&gt;&lt;/td&gt;&lt;td&gt;&lt;div align="center"&gt;55.65577&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/tbody&gt;&lt;/table&gt;&lt;p&gt;表二是本文的重点，也是大部分用户不曾在回归分析结果中看到过的表格。该表分为上下两半部，上半部是两个回归系数的相关关系（注意这里不是两个自变量之间的相关关系，而是它们的系数的相关关系）、这对本例来说并无用处；下半部是两个系数的方差（对角线）和协方差（非对角线），这正是我们解公式四所需要的。其中，jobtime的方差6014.253就是se2、prevexp的方差55.65577就是se1，而-1.72303就是Cov12，将这三个数值代入公式四，得到se12 = 77.93173, 再代入公式三，得到一个自由度为471的t值-2.042。&lt;/p&gt;&lt;p&gt;5. 如果查任何一本教科书上的t表，我们可以知道当自由度&amp;gt;120、t大于1.96或小于-1.96时的p值小于0.05。而在网上，则有好事者提供了计算p的精确值的服务（如&lt;a href="http://www.graphpad.com/quickcalcs/Pvalue2.cfm" target="_blank"&gt;GraphPad Software&lt;/a&gt;），我在那里算出本例p值为0.0417（刚刚小于我们设置的alpha值），因此零假设被拒绝，说明先前经验与当前工龄有显著差别。至于先前经验的系数为什么是负的（即入本公司前工作年份越长、工资越低），则是该数据的特定问题，与本例无关了。&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/37181493-3609609183206500415?l=zjz06.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://zjz06.blogspot.com/feeds/3609609183206500415/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=37181493&amp;postID=3609609183206500415' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3609609183206500415'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/37181493/posts/default/3609609183206500415'/><link rel='alternate' type='text/html' href='http://zjz06.blogspot.com/2009/02/blog-post_15.html' title='如何检验两个回归系数的差别？'/><author><name>庄主</name><uri>http://www.blogger.com/profile/07049672407784536181</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://lh3.ggpht.com/_bRlHaHZqzNE/SZfITuxFebI/AAAAAAAAABQ/kPOy4-1biJ4/s72-c/clip_image0025_thumb2.gif?imgmax=800' height='72' width='72'/><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-37181493.post-273606088675455277</id><published>2009-02-10T10:36:00.003+08:00</published><updated>2009-02-28T15:43:37.756+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='统计分析-回归'/><title type='text'>如何检验男女两组回归系数之间的差别？</title><content type='html'>&lt;p&gt;&lt;br /&gt;罗拉 @ 2009-02-06：&lt;/p&gt;&lt;p&gt;在SPSS中以性别为分组变量做分组回归，应该如何比较回归系数的差异？ &lt;/p&gt;&lt;p&gt;庄主 @ 2009-02-08： &lt;/p&gt;&lt;p&gt;如果你问的是如何解读性别的回归系数，请参见我刚发的“&lt;a href="http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1005.entry" target="_blank"&gt;回归与GLM分析结果真的不同吗？&lt;/a&gt;”。 &lt;/p&gt;&lt;p&gt;罗拉 @ 2009-02-08： &lt;/p&gt;&lt;p&gt;这个问题我想问的是如果使用SPSS将相同的回归方程分别用于男生和女生数据，比如：女生组：y1=a1+b1x+c1z 男生组：y2=a2+b2x+c2z，这时该如何看y1和y2是否等同，也就是如何得到AMOS跨组比较中模型对男女是否等同的结果呢？ &lt;/p&gt;&lt;p&gt;小彭 @ 2009-02-09： &lt;/p&gt;&lt;p&gt;To 罗拉：你是要检测交互效果吗？如果是，在SPSS里面可以创造一个交互变量。在AMOS（严格说是在SEM）里，可以用多组比较的办法。 &lt;/p&gt;&lt;p&gt;&lt;a name="reply2735415"&gt;&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;a href="http://www.ycool.com/space.php?uid=2797609"&gt;罗拉&lt;/a&gt; @ 2009-02-09： &lt;/p&gt;&lt;p&gt;To 小彭：我是想把性别作为调节变量，在AMOS里用多组比较的方法，从结果报告的P值可以看出模型对男女是否等同，但是如果在spss里对男女分别做回归，该如何看两个方程式是否有差异呢，印象中有个公式可以判别，但是实在想不出了。 &lt;/p&gt;&lt;p&gt;庄主 @ 2009-02-10： &lt;/p&gt;&lt;p&gt;To 罗拉：以下回答以你的两个公式为基础：女生组：y1=a1+b1x+c1z； 男生组：y2=a2+b2x+c2z。&lt;/p&gt;&lt;p&gt;1. 比较两个回归系数之间差别的公式为：(b1-b2)/se12，其中b1和b2是被比较的回归系，se12是两者的Join Standard Error(联合标准误差)，其结果是一个以自由度为n-k-2的t分布（其中n是样本量、k是原来的自变量数，本案中为x和c两个）。&lt;/p&gt;&lt;p&gt;2. 在SPSS（其实是任何OLS回归）中，你如果将男女分成两个样本分布做回归，可以得到b1和b2，但得不到联合标准误差se12（因为b1和b2出现在不同的模型中国），所以无法用到上述公式。&lt;/p&gt;&lt;p&gt;3. SEM（包括AMOS）是通过比较男女样本的拟合度之差别来比较两组回归系数之间的等同性，这种方法在OLS回归中并不适用。同时，SEM的这种做法是有代价的：它将一个总样本分成两个小样本，其结果是降低了Power of Analysis (统计分析效力)，从而在没有降低犯Type I的误差的同时又提高了犯Type II误差。&lt;/p&gt;&lt;p&gt;4. 更合理的方法是男女不分组、保留在同一样本内，将性别转换成dummy变量，再生成性别与你想比较的自变量（如X）的交互变量（如X*性别），这就是我和小彭各自发的前贴的意思。也就是说，将你的公式1（或公式2）中改成：&lt;/p&gt;&lt;p&gt;Y = a + bX + cZ + dS +eSX + fSZ&lt;/p&gt;&lt;p&gt;其中S是性别（假定男=0、女=1），SX是性别与X的交互变量、SZ是性别与Z的交互变量。如果男女在S上的取值（即0和1）代人该公式，就可以分解成以下两个公式（注意：样本还是一个）：&lt;/p&gt;&lt;p&gt;女生组（S=1）：Y = a + bX + cZ + d1 +e1X + f1Z = (a+d) + (b+e)X + (c+f)Z&lt;/p&gt;&lt;p&gt;男生组（S=0）：Y = a + bX + cZ + d0 + e0X + f0Z = a + bX + cZ&lt;/p&gt;&lt;p&gt;如果d是显著的（即男女本身之差别），就说明女生在Y上的截距（即平均值）比男生高d个单位（见以下左右图的截距）；如果e是显著的（即性别对X与Y之关系的影响），就说明女生的X斜率比男生大e个单位（见左下图
