竹家庄: 12/28/08

2009-01-03

如何比较不同年龄的倾向性？

轲 @ 2008-10-11：

您好！在网上看到您的博客发现很受用，现有一个问题想要请教：我在分析一批问卷，问题大多是定序的选项，但是我想建立一个综合指标比较不同年龄的人在这些问题上的倾向性应该用什么方法呢？谢谢您。

庄主 @ 2008-01-03:

你的问题与我刚发的“定序变量是否可用t检验？”一贴相仿，请参见该文。

定序变量是否可用t检验？

Sunnysmile @ 2008-12-17:

祝老师您好：我是南开大学的博士生，看到您很多专业的文章和解答，收益颇多，有个问题想请教一下，能否请祝老师百忙中解答:

如果要检验性别与满意度之间的关系可否用t检验？我看有的期刊发表的文章是用的t检验，但是根据SPSS书籍t检验不能分析定序型数据，而满意度应该是定序性数据吧？如果不能用t检验应该用什么统计方法？如果两类数据都是定序数据可以做配对样本t检验吗？非常感谢！

庄主 @ 2009-01-03:

满意度是市场、管理等学科中的一个热门话题，但在我们传播学中并不那么热，所以我对有关文献所知甚少。仅从我偶而看到的文章中，大多是用5级或7级Likert态度量表来测量满意度的。所以你的问题，其实也就是如何分析态度量表的问题，这在传播学乃至整个社会科学各学科倒是有普遍意义的。

是的，态度量表（如“完全同意”、“比较同意”、“一半同意一半不同意”、“不太同意”、“完全不同意”等）是一种定序数据。你的问题是用什么方法来检验自变量为名目变量（性别）、因变量为定序变量（满意度）。这里，首先要区别因变量为单个指标 (single item) 还是合成因子(composite factor)。前者应该用nonparametric test（非参数检验法），如Mann-Whitney U, Kolmogorov-Smirnov Z, Wald-Wolfowitz Runs等，而不应该用t-test。（参见我们《传播统计学》215-219页或SPSS Nonparamatric Tests/2 Independent-Samples Tests/Help等。）

后者（即因变量为由多个指标构成的合成因子）往往可以用参数检验。实际上，绝大多数的态度量表是用来测量一组问题、而不是一个问题。如果该组问题的个数足够多，而且相互之间的一致性高（high consistency or high reliability，即信度高），那么可以将其组合成一个因子（非常常见），该合成因子虽然不等于、但已经“接近”定距变量了。问题的个数越多、每个问题的测量等级越多，其合成因子就越接近定距变量。（很久很久）之前，曾有“100点”（即20个5级或10个10级量表问题）的要求，现在“50点”（10个5级或7个7级量表问题）好像也能过关。我也觉得，“点”再少就有问题了。

除了问题及其等级的个数之外，合成因子的正态分布（即Skewness和Kurtosis都要等于或接近2、并且光滑渐增渐减）也很重要。（参见最近有关正态转换的帖子）

上述想法，与现代SEM的基本思想相仿。如LISREL发明人Joreskog认为，因为隐含因子没有测量单位，我们可以定序的观测变量所对应的隐含因子看做是定距的。他在LISREL的预处理程序PRELIS中，就设置了转换工具，将态度量表之类的定序变量转换成 polychoric correlation，然后再输入LISREL中当作定距变量使用。

最后回答一下你的问题：“如果两类数据都是定序数据可以做配对样本t检验吗？”配对样本指A样本中的每一个案与B样本中的另一个案具有某种内在关联，如夫妻、父子、姐妹、师生、上下级、医生病人、等等，以及同一个案的前后测量值。显然，配对样本的个案之间不是独立观测的（因此其联合标准误差会小一些），需要用paired-test来检验。配对样本是一个数据收集的设计问题，与测量水平无关，不要混在一起。

2009-01-01

如何确定满意度中指标的权重?

pehcio @ 2008-12-17:

老师你好，想请教您一下关于关于满意度方面的问题：结构方程中的路径系数（载荷系数）是否可以作为权重来计算总体满意度？

庄主 @ 2009-01-01:

不是很清楚你的问题。从你提供的信息来看，你已有若干个观测变量，并在此基础上构建了一个latent factor（隐含因子）叫做“满意度”。既然如此，为何还要“计算”满意度？到底要“计算”满意度的什么东西，如每个个体的满意度得分、还是该隐含因子的mean score、等等？不清楚。

回归分析前是否需要对变量进行正态性检验?

dylan @ 2008-12-23:

祝老师，你好！有的书上讲在进行回归分析之前首先要对自变量和因变量都要进行正态性检验，如果检验失败，则进行对数变换，而有的书上在讲回归分析时，则根本不提对于变量的正态性检验问题，只是对残差进行正态性检验，某些论坛上也有讨论，但是没有权威结论，因此想请您给个明确答案，谢谢！

庄主 @ 2009-01-01:

是的，不仅是回归分析，而且几乎所有的parametric statistical tools （参数统计工具），都有这种要求。如回归分析、相关分析、结构方程模型等，要求自变量和因变量都服从正态分布；logistic回归要求自变量服从正态分布；t-检验和方差分析要求因变量服从正态分布。只有non-parametric tools（非参数统计工具），如卡方分析、loglinear等，才没有这种要求。

也就是说，如果自变量和/或因变量不服从正态分布，就不能直接使用参数统计工具，而先要对有关变量做正态转换。具体参见前几天的帖子“如何在SPSS中做数据正态转化？”。

你提到，有些统计书建议在回归分析之后，对残差做正态检验，这完全是另一回事。即使一对自变量和因变量都服从正态分布，但其残差也可能不服从正态分布，其原因或者在于没有控制“第三者”变量、或自变量与因变量之间的关系是非线性等等。残差分析的目的在于寻找如何进一步提高回归模型的拟合度的线索。

2009-01-03

如何比较不同年龄的倾向性？

定序变量是否可用t检验？

2009-01-01

如何确定满意度中指标的权重?

回归分析前是否需要对变量进行正态性检验?

Blog Archive

博客分类

你从哪里来

2009-01-03

如何比较不同年龄的倾向性？

定序变量是否可用t检验？

2009-01-01

如何确定满意度中指标的权重?

回归分析前是否需要对变量进行正态性检验?

Blog Archive

博客分类

订阅竹家庄博客

你从哪里来