2009-06-20

如何处理Power-law(幂率)分布的数据?

Anonymous @ 2009-06-11:

祝老师:您好!看了您关于“如何在SPSS中做数据正态转化”的帖子受益匪浅。 我做的研究是关于web 2.0 的,所以数据来源都是secondary source,有很多变量的分布都是power law的形式,其中有的自变量数据有点类似count variable(0值有意义,非missing value)占了很大的比例。想就数据转化继续请教您两个问题:

1。比如两个自变量IV1和IV2都是高度偏态,在对其进行对数变换后转化为正态。但是IV1和IV2可能对因变量DV存在交互影响, 那么在检测交互影响的时候interaction term是应该用lnIV1*lnIV2么?因为这里有个疑问是lnIV1+lnIV2=ln(IV1*IV2),如果lnIV1和lnIV2进入后R Squared Change显著的话是不是就代表已经存在交互影响了么?还需要继续进入lnIV1*lnIV2么?对这个问题我感觉有点钻到牛角尖里了,想了很久都不太清楚?

2。另外是关于前面0值太多的自变量 (单峰非正态),有点类似于medical research里面的account variable,0代表没发生,但他们是自变量,而不是因变量, 所以感觉不能用Logistic回归。 我试着用了log之类的转换, 很难变成正态分布,目前我将其转换成了dummy variable 0 和1做了一个model,然后再选择所有不为0的obsevation做了一个model,但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢?

庄主 @ 2009-06-20:

问题一较简单:交互影响模型中的自变量是否可以取对数?答案是肯定的。因为在你的模型 Y = b0 + b1ln(IV1) + b2ln(IV2) + b3ln(IV1)ln(IV2) 中的右边前两项,即IV1和IV2各有一个回归系数b1和b2,所以它们不会被约简为另一个b3ln(IV1)ln(IV2) 。

同理,模型右边第三项 b3ln(IV1)ln(IV2) 简约后成为 b3 (IV1 + IV2),也不等同于前两项 b1ln(IV1) + b2ln(IV2)。当然,第三项的变量 (IV1 + IV2 中的联合分布比IV1和IV2原先的独立分布更加不对称,即更加偏离正态分布。但是,据我的理解,当你将 ln(IV1)ln(IV2) 输入OLS回归时,计算程序是将 ln(IV1)ln(IV2) 当做一个值处理而不会将它分析成IV1 + IV2的。

问题二很复杂:如何处理服从power-law(幂律)分布的数据?这种分布特征的数据,具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸(left-censored),而全部堆积在一起。也有人称其为 "floor effects” (“地板效应”)数据(如下图a)。初看,这些最小值(本例是1)堆起来不像是地板效应、而像 “ceiling effects”(“天花板”效应)。但如果将图a作90度旋转,就可以理解“地板”的意思。当然,这种分布的反面,即一组数据中有很多个无法更大的最大值(right-censored values),就是“天花板”了。

image

以上图a中的X,按三个不同的幂律值(1、2、4)而形成三种不同的“地板”分布(即P(X)=X-1、P(X)=X-2、和P(X)=X-4。具体说来,当幂律=-1时,X的最小值占了总体的19%;当幂律=-2时,X的最小值占了总体的61%;而当当幂律=-3时,X的最小值占了总体的92%!在经典的“正态分布世界”(the world of normal distribution) 里,我们都是用log来转换服从幂律分布的数据。以下图b就是对图a中的三组X用log转换以后的分布形状:

image

与图a相比,图b中的三种分布的形状不那么“地板”了,但是还远远不是正态分布的。如果将X的频数(即P(X))也作log转换,即得到一个单调递减的线性分布(图c):

image

图c也不是正态分布。但在“正态世界”里,线性分布是我们对付幂律数据的(相对)最好方法了;就是说,幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗?有,那就要离开正态世界而进入“变态世界”(the world of abnormality)、做一个研究“变态行为”的“变态学者”。“变态”这个字太刺眼。做“变态研究”的绝大多数是拘谨的物理学家,当然无法承受世俗的歧视,所以将变态世界叫做“复杂系统”(complex system)。我一开始说“这个问题很复杂”,意思就是“这是一个复杂世界的问题”。当然,复杂系统也不能点石为金,将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见A. Clauset, C.R. Shalizi, and M.E.J. Newman, "Power-law distributions in empirical data" SIAM Review, 2009)。

好了,别再继续问我变态世界的事,我刚刚开始接触他们的那些事,可能受正态世界的毒害太深,无论理智上或感情上都还没有入门。

回到你的实际问题,你可以试试以下几种方法:一、对X取log之后、再取log(当然,如果log(X)有非正值、需要先对其做线性转换成正值);二、将X转换成0-1值的dummy variable后直接进入模型(而不是用来分拆成两个模型);三、将X与其他相关的自变量合成新的变量;等等。注意,上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。

2009-06-15

如何设计博士生学习计划?

W @ 2009-06-13:

我是学习传播理论方向的博士生,有志于从事科研,但非常担心自己把博士读成了“5年制的硕士研究生”,于是想做一个合理的读博计划,特别想听听您的建议与看法。我的问题如下:

1、读博期间应该定一个怎样的目标?

2、如何突破研究方法的局限和英语的缺陷?

3、如何培养捕捉一个有创新意义的研究课题的能力?

4、如果方便,很想知道您是如何度过博士生活的。

5、香港的传播学博士是如何读的,您一般对他们有何要求。

6、请您帮我推荐几本您认为应该读的书。

庄主@ 2009-06-14:

你的绸缪未雨想法很好。“博士生=五年制的硕士生”一说我还是第一次听到,但仔细想想,好像很深刻、有道理。同理,硕士生要防止做“六年制的本科生”。也许博士生还要防止做“九年制的本科生”。(申明:我没有任何贬低本科生的意思。事实上,包括我在内的很多海外教授,认为中国本科生的基础训练是非常好的,所以大家更喜欢招中国本科生做博士生。)

你的六个问题涉及了博士生学习的各个方面,我都没有“权威”的答案,但愿意分享自己的体会。由于时间限制,我先简单谈谈,希望各位(包括我在的学生,其实以下很多是以他们作为对象而写的)补充和辩论。

1、目标:扎实基础、广博知识之类笼统的话,我就不说了。我的基本原则:目标一定要高,取法乎上、得乎其中嘛。同时要可操作,如以下两条:一、能教三门课(分别为理论、方法和应用。应用课可以是采编写、也可以是广告策略、公关写作、网页设计、视频编辑,等等,至少能教其中之一。我最近几年每年教的课里,就有理论、方法和网页设计);二、在高水平期刊上发表一两篇论文(如SSCI中JMCQ或更好的期刊,国内期刊则要比《新闻与传播》等更有挑战性的)。

2、方法与英语的局限:一语以蔽之,只有多动手练习。方法上,对初学者来说,一定要严格遵循规则、步骤、要求,不要马虎、妥协、变通,否则不如不学。英语,对国内学生来说,标准是能写出别人看得懂的论文。最大的敌人是自己(Chinglish、汉式英文)。如何克服?找个native sepaker批改你的几篇文章,然后从中找出自己问题的规律,贴在墙上天天看。

3、创新能力:除了经验,好像没有捷径。而经验来自年份。我的体会是进入学术圈(不一定是从博士生开始)后,努力工作十年后才会发生。自然科学研究也许不需要这么长的周期。社会科学中除了少数天才之外,很少有在博士生期间、甚至在毕业后几年内有真正的重大创新。所以我不把创新当做自己读博士时的目标、也不以它来要求我的学生。

4、我的博士生活:与其他留美博士生一样,大部分时间在上课。我在三年八个学期(包括两个暑期)中大概修了20门课、另外旁听了4、5门课。然后通过四门资格考试(基础、方法、两个专业方向)。最后写论文(那倒是最省时的,只花了半年)。事后觉得收获最大的一是方法训练、二是英文写作、三是体验老师们的人格魅力(不通人情的认真、自我贬低的幽默感、平民的心态、凡事先质疑的精神、等等)。其它的,如看了无数的文献等,在有了wikipedia和youtube的今天,都算不了什么。

5、我对自己博士生的要求:以前我是沿用美国老师教我的方法,即除了学校(和市场)的要求之外,从来没有其它特别的要求。学校的要求是最低限度的,保证能够毕业。市场(用人单位)的要求,对学生来说是看不见摸不着的。最近(在你来信之前),我已开始反思这种hands-off传统的优缺点,并计划从今年开始,给新生提些具体要求,目前想到的就是目标里的三门课、一两篇论文。当然这些只是建议,即使做不到,照样可以毕业,但很难被市场认可。

6、推荐书:以下是对国内新闻传播学博士生的建议(日后也许会有补充):

方法:

  1. Earl Babbie: The practice of social research, 11th ed. (清华影印版)
  2. Publication Manual of the American Psychological Association, 5th ed. (俗称APA Style,尽量不要看中译本)
  3. Jacob Cohen & Patricia (2002). Applied multiple regression/correlation analysis for the behavioral sciences, 3rd ed., (books.google.com上有免费的部分章节;或其它类似统计书,第一本看原版、也许可以接着看我们的传播统计学。)

理论:

  1. Denis McQuail & Sven WIndahl (1993). Communication models for the study of mass communication, 2nd ed. (同样,先看原版,也许可以接着看我的翻译本).
  2. Werner J. Severin & James W. Tankard, Jr. (2001). Communication theories: Origins, methods, and uses in the mass media, 5th ed. (不要看中译本)
  3. 新闻传播学实证研究的经典报告(可参见我的传播原理课程的补充阅读目录