竹家庄: 如何运用缺省值分析(MVA)方法？

wjgxm:

有几个关于缺失值处理的问题想请教祝老师：

我在用little’s MCAR检验时发现，以往不少国内的研究在用此检验时，大多数时候并非是针对整个问卷进行的，而是选取部分指标进行检验，如：1、只针对几个缺失较严重的选；2、只针对问卷中核心部分的指标；3、将问卷分为几个部分，如基本情况项目、满意度量表、其它情况项目等，分别检验。

我对自己的问卷（包括三个部分：基本情况项、5级量表、其它项）分别进行了几次检验，结果如下：1、全部选项纳入检验，结果Sig. = .044；2、只检验5级量表项，结果Sig. = .083；3、剔除最后的4个跳选项，结果结果Sig. = .398。这些结果差异较大，大于或小于0.05的都有。我对little’s MCAR检验的适用性感到一定困惑，因为我是非统计学的学生，非常的业余。

此外，我对跳选项的处理也非常困惑，我的问卷是做关于居民满意度的，最后5项如下：
1、你对XXX的总体满意度？1、很不满意；2、较不满意；3、一般；4、较满意；5、很满意

如果满意：
(1)你会xxxxx？1、一定不会；2、....；5、一定会
(2)你会xxxxx？1、一定不会；2、....；5、一定会
如果不满意：
(1)你会XXXXX？1、一定不会；2、....；5、一定会
(2)你会XXXXX？1、一定不会；2、....；5、一定会

我现在觉得这些跳选项设计的非常没头脑，感到懊恼，因为不管是否满意，居民都应该可能会有这双方面的行动的！问题是，正常情况下，如何处理这些跳选项？我现在首先要做的是缺失处理，后期还要用到SEM，关于这个问题思考的非常之艰难，因为身边没有可帮助之人，网络搜索和学术论文搜索也难解惑，特向您求助！

庄主：

我读过Missing Value Analysis（MVA，缺省值分析）的文献，但从来没有用过，没有第一手的经验或教训可以分享，所以我只简略回答你的问题。（我的原则是，对于自己没有第一手体验的问题，回答尽量简略，以免误人子弟。）

为了便于其他读者的理解，先简介一下MVA。缺省值指调查、实验、内容分析等实证数据中“拒答”、“不知道”、“无意见”等没有实际信息的值。传统的数据分析是将其排除在外，或者用均值或中位数来取代。MVA是一种data-driven（数据导向）而非theory-driven的方法，即根据那些不含缺省值的个案（“样本一”）中的相关信息来预测（即填补）含缺省值的个案（“样本二”）中的缺省值。

我至所以不用MVA，主要是对其的基本假定（即缺省值是完全随机或基本随机产生、或样本一和二没有本质差别）存有很大疑虑。这种疑虑，即来自传统文献，也源于我自己的实证研究。我曾用中国大陆的十来个调查、共几万个案的数据做过一个item non-responses（INR，问题拒答）的研究（Zhu, 1996），发现INR不是随机的、而是受到问卷设计、问题性质、调查环境以及被访者特征等各个层面变量的影响。既然如此，我们应该而且可以根据具体数据的情况（即INR与上述自变量的关系）来决定如何处理INR，如有时应该将INR当作neutral position（中立立场）、有时则应将其当作真正的缺省值而从分析中剔除，而不应盲目和机械地依赖SPSS或其它软件中的MVA工具来替我们做这个重要决定。（同学们大家起来，我们不要做SPSS的奴隶！）

当然，我的上述看法也许是过分保守和落伍。如果你的样本太小，如果不用MVA来“拯救”（？）那些缺省值，有效个案（即样本一）所剩无几，无法做分析，你应该对做MVA之前（即样本一）和之后（即样本一+样本二）的数据分别检验你的理论假设，然后比较两者的参数（如均值、回归或相关系数等）、但不必比较两者的标准误差或显著程度（因为两者样本大小不一而自然不同）。如果两者有明显区别，说明样本二不是样本一的一个随机子样本、而是另一个具有系统差别的样本（但要害问题是我们不知道这种系统从何而来和如何纠正）。在这种情况下，我会放弃样本二。只依靠样本一的代价是Type II误差（即可能拒绝了真实的差别或关系）；加入了有系统偏差的样本二，虽然减少了Type II误差、但同时大大提高了Type I误差（可能接受了虚假的差别或关系）。前者的后果是害己（无法发表）；后者则是害人（最终也害己）。两害之间，我们应该取其轻者。

我基本认同你对国内运用MVA时的流行做法的批评。既然MVA完全依赖样本一中各变量之间的关系，那么变量越多、其中的信息也就越多，所以应该尽量利用所有现有的变量来做MVA。但是（非常重要的条件），假定你要通过MVA填补的是因变量中的缺省值，你就绝对不应该包括你的理论假设或模型中的所有自变量。否则，你用了自变量填补了因变量中的缺省值，然后再检验两者的相关关系，不就成了自我循环了吗？

你在介绍你的三种检验结果时，没有讲清楚其“显著”差别的意思是什么：是指你用三者不同的MVA方法生成三个新数据（即三个上述的样本一+样本二），然后分别检验你的理论假设的结果？如是，它们之间的差别就与我上一段讲的有关了。你“全部纳入”的问题中也许也包含了自变量，所以其关系容易显著。其实，在没有弄清你的样本二是否为随机样本之前，这种变量之间的比较没有意义。你需要的是我前一段中讲的个案之间的比较。

对于你的第二个问题，即如何填补你的那些被跳过的问题的值。这种想法很大胆、很有创意，但可惜没有道理、非常危险。这里，你不是在填补缺省值、而是在凭空制造新数据。

Zhu, J. H. (1996). "I don't know" in public opinion surveys in China: Individual and contextual causes of item non-response. Journal of Contemporary China, 5, 223-244.

2009-03-21

如何运用缺省值分析(MVA)方法？

1 comment:

Blog Archive

博客分类

你从哪里来