2009-03-21

如何运用缺省值分析(MVA)方法?

wjgxm:

有几个关于缺失值处理的问题想请教祝老师:

我在用little’s MCAR检验时发现,以往不少国内的研究在用此检验时,大多数时候并非是针对整个问卷进行的,而是选取部分指标进行检验,如:1、只针对几个缺失较严重的选;2、只针对问卷中核心部分的指标;3、将问卷分为几个部分,如基本情况项目、满意度量表、其它情况项目等,分别检验。

我对自己的问卷(包括三个部分:基本情况项、5级量表、其它项)分别进行了几次检验,结果如下:1、全部选项纳入检验,结果Sig. = .044;2、只检验5级量表项,结果Sig. = .083;3、剔除最后的4个跳选项,结果结果Sig. = .398。这些结果差异较大,大于或小于0.05的都有。我对little’s MCAR检验的适用性感到一定困惑,因为我是非统计学的学生,非常的业余。

此外,我对跳选项的处理也非常困惑,我的问卷是做关于居民满意度的,最后5项如下:
1、你对XXX的总体满意度?1、很不满意;2、较不满意;3、一般;4、较满意;5、很满意

如果满意:
(1)你会xxxxx?1、一定不会;2、....;5、一定会
(2)你会xxxxx?1、一定不会;2、....;5、一定会
如果不满意:
(1)你会XXXXX?1、一定不会;2、....;5、一定会
(2)你会XXXXX?1、一定不会;2、....;5、一定会

我现在觉得这些跳选项设计的非常没头脑,感到懊恼,因为不管是否满意,居民都应该可能会有这双方面的行动的!问题是,正常情况下,如何处理这些跳选项?我现在首先要做的是缺失处理,后期还要用到SEM,关于这个问题思考的非常之艰难,因为身边没有可帮助之人,网络搜索和学术论文搜索也难解惑,特向您求助!

庄主:

我读过Missing Value Analysis(MVA,缺省值分析)的文献,但从来没有用过,没有第一手的经验或教训可以分享,所以我只简略回答你的问题。(我的原则是,对于自己没有第一手体验的问题,回答尽量简略,以免误人子弟。)

为了便于其他读者的理解,先简介一下MVA。缺省值指调查、实验、内容分析等实证数据中“拒答”、“不知道”、“无意见”等没有实际信息的值。传统的数据分析是将其排除在外,或者用均值或中位数来取代。MVA是一种data-driven(数据导向)而非theory-driven的方法,即根据那些不含缺省值的个案(“样本一”)中的相关信息来预测(即填补)含缺省值的个案(“样本二”)中的缺省值。

我至所以不用MVA,主要是对其的基本假定(即缺省值是完全随机或基本随机产生、或样本一和二没有本质差别)存有很大疑虑。这种疑虑,即来自传统文献,也源于我自己的实证研究。我曾用中国大陆的十来个调查、共几万个案的数据做过一个item non-responses(INR,问题拒答)的研究(Zhu, 1996),发现INR不是随机的、而是受到问卷设计、问题性质、调查环境以及被访者特征等各个层面变量的影响。既然如此,我们应该而且可以根据具体数据的情况(即INR与上述自变量的关系)来决定如何处理INR,如有时应该将INR当作neutral position(中立立场)、有时则应将其当作真正的缺省值而从分析中剔除,而不应盲目和机械地依赖SPSS或其它软件中的MVA工具来替我们做这个重要决定。(同学们大家起来,我们不要做SPSS的奴隶!)

当然,我的上述看法也许是过分保守和落伍。如果你的样本太小,如果不用MVA来“拯救”(?)那些缺省值,有效个案(即样本一)所剩无几,无法做分析,你应该对做MVA之前(即样本一)和之后(即样本一+样本二)的数据分别检验你的理论假设,然后比较两者的参数(如均值、回归或相关系数等)、但不必比较两者的标准误差或显著程度(因为两者样本大小不一而自然不同)。如果两者有明显区别,说明样本二不是样本一的一个随机子样本、而是另一个具有系统差别的样本(但要害问题是我们不知道这种系统从何而来和如何纠正)。在这种情况下,我会放弃样本二。只依靠样本一的代价是Type II误差(即可能拒绝了真实的差别或关系);加入了有系统偏差的样本二,虽然减少了Type II误差、但同时大大提高了Type I误差(可能接受了虚假的差别或关系)。前者的后果是害己(无法发表);后者则是害人(最终也害己)。两害之间,我们应该取其轻者。

我基本认同你对国内运用MVA时的流行做法的批评。既然MVA完全依赖样本一中各变量之间的关系,那么变量越多、其中的信息也就越多,所以应该尽量利用所有现有的变量来做MVA。但是(非常重要的条件),假定你要通过MVA填补的是因变量中的缺省值,你就绝对不应该包括你的理论假设或模型中的所有自变量。否则,你用了自变量填补了因变量中的缺省值,然后再检验两者的相关关系,不就成了自我循环了吗?

你在介绍你的三种检验结果时,没有讲清楚其“显著”差别的意思是什么:是指你用三者不同的MVA方法生成三个新数据(即三个上述的样本一+样本二),然后分别检验你的理论假设的结果?如是,它们之间的差别就与我上一段讲的有关了。你“全部纳入”的问题中也许也包含了自变量,所以其关系容易显著。其实,在没有弄清你的样本二是否为随机样本之前,这种变量之间的比较没有意义。你需要的是我前一段中讲的个案之间的比较。

对于你的第二个问题,即如何填补你的那些被跳过的问题的值。这种想法很大胆、很有创意,但可惜没有道理、非常危险。这里,你不是在填补缺省值、而是在凭空制造新数据。

Zhu, J. H. (1996). "I don't know" in public opinion surveys in China: Individual and contextual causes of item non-response. Journal of Contemporary China, 5, 223-244.

1 comment:

Unknown said...

你已經 感受到金融風暴的衝擊嗎?

你已經驚覺到 "畢業 = 失業" 嗎?

你想要「擁有自由」同時「擁抱財 富」嗎?

那就 給自己一個轉 念的機會吧!
改變一生的機會:http://joe80411.weebly.com/

★ 謝謝板主的閱讀,如這訊息打擾到您,煩請將它刪除,祝事事順心! ^_____^