离群值(outlier),指数据中与其他数值相比差异较大的数值。离群值具有极端或变异的特点,从直观上看似乎会与样本总体表现的有点格格不入,但是在进行医学统计时,在离群值产生的原因不明之前,不应//www.58yuanyou.com简单决定其取舍,特别是当测量数据较少时,离群值的取舍对分析结果会产生很大影响,必须谨慎对待。
下面,我们来谈谈用spss箱式图处理医学数据中离群值的详细方法。
下方视频中有完整的理论讲解、spss中的操作步骤、分析结果的解读。原由网看完就会了哦!
一、基本原理
箱式图,也称箱线图,其形状像箱子,用于表示数据的分散情况。箱式图可以展示出一组数据的最大值、最小值、中位数及上下四分位数。
箱式图中,最上方和www.58yuanyou.com最下方的线段分别表示数据的最大值和最小值,其中,箱式图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱式图中间的粗线段表示数据的中位数。
二、判断方法
箱式图中在最上方和最下方的星号和圆圈分别表示样本数据中的异常值,即离群值。用SPSS软件描绘数据的箱式图,如果个体值距箱式图(box plot)底线(第一四分位线)或顶线(第三四分位线)的距离过大,一般为四分位数间距(箱体高度)的1.5倍至3倍时被视为离群点;而个体值距箱体底线或顶线的距离超过3倍的箱体高度时被视为离群值。
三、案例解读
(1)在SPSS中的具体操作
①依次点击“分析——描述统计——探索”。
②出现“探索”窗口,将需要绘制箱式图的变量拖入到“因变量列表”框中,勾选“图”。
③点击“绘图”,选择“不分组”“茎叶图”,点击“继续”、“确定”。
④得到箱式图。
(2)结果解读
由以上箱式图可知,心率图中下方出现了圆圈,表示存在极端值。圆圈显示的序号为17,表示编号为17的样本是离群值,对应查找原样本数据,数字为“53次/分”,即心率53次/分为原由网离群值。
四、小结
本期,我们采用箱式图法进行了样本离群值的判断,在医学研究中,若判断出数据存在离群值,可以分两种情况来处理。
①如果确认数据确实存在逻辑错误,而又无法纠正,可选择直接删除该数据。
②若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,且需要剔除,则需要给予充分合理的解释,确定该数据偏离所用的方法及该数据产生的原因等。
单变量离群值的识别方法主要还包括有直方图法、拉依达准则、Q检验法,多变量的离群值识别则有马氏距离法。后续我们将陆续更新更多识别样本离群值的方法//www.58yuanyou.com,敬请关注!
参考文献:
1、马斌荣,李康.《医学统计学 第6版》.人民卫生出版社.
版权说明:本文系杏花开医学统计原创文章
更多医学统计文章及视频案例教程请关注【杏花开医学统计】微信公众号:xhk345