茎叶图怎么看平均数量

什么是生物统计学?

生物统计学是一种很有用的工具,正确使用这一工具可以使科学研究更加有效,使科学研究可以更加高效的开展。因此,它是每位生物科学工作者必须掌握的基础知识。联川生物近日对生物统计学进行了系统式的学习,所用的教材——《生物统计学基础(原书第5版)》是一本非常有特色的书,与其他同类书比较,其有以下几类优点:

①教材内容通俗易懂但又非常严谨、细致、深入而又全面。书中的多数公式都有证明,且多用初等数学方法证明,对于不能用初等方法证明的也都给出了出处。

②本书核心是医学应用,作者通过大量的医学实例,引入及介绍统计方法,从如何构思到分析结果的解释,几乎都有全过程。由于一切从实用出发,所以对实用极为重要的知识,比如功效(power) 及样本量的估计,都是实际工作者极为关心的。

③学术上的先进性。作者将每个版本中的当时国际上最流行的统计方法及统计软件及时吸收在了本书内。

得“秘籍”如此,专业知识及科研水平定会有质升的提高!故此,小编即日起为大家推出“生物统计学基础”相关知识系列课,和大家一起探索这本书里的珍贵知识,今日推送第二课:统计学-描述性统计

茎叶图怎么看平均数量

统计学-概率 | 生物统计学基础系列课

描述性统计(数值法)

(一)位置测度法

问题:样本点从总体P中抽出,利用样本怎么推断总体P?

而概括或者描述一批样数据的测度形式可以用样本中心或中间值表示,这就是位置测度法。

1 算数均数(算数平均,均值,样本平均 arithmetic mean)

①算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。

茎叶图怎么看平均数量

②算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果

茎叶图怎么看平均数量

2 中位数(中位数,中点数、中值)

X(1),...,X(N)

则当N为奇数时,

m0.5=X(N+1)/2

当N为偶数时,

①平均数是通过计算得到的,因此它会因每一个数据的变化而变化。

②中位数是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。

3 中位数与平均数比较(正倾斜、负倾斜)

茎叶图怎么看平均数量

①正倾斜分布算数平均数大于中位数

②负倾斜分布算数平均数小于中位数

4 众数(Mode M)

是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。

一个众数分布单峰分布,二个众数双峰分布,同理三峰分布

①用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便。在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”就比较适合。

②当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,由于可能无法良好定义算术平均数和中位数。

例子:{鸡、鸭、鱼、鱼、鸡、鱼}的众数是鱼。众数算出来是销售最常用的,代表最多的

5 几何平均(各观察值之间存在连乘积关系)

几何平均数是求一组数值的平均数的方法中的一种,几何平均是一种常规的平均方法。若有N个数,则这N个数的积开N次方就是N个数的几何平均值

茎叶图怎么看平均数量

计算几何平均要求各观察值之间存在连乘积关系,它的主要用途是:对比率、指数等进行平均

(二)离散性测度

问题:示例

茎叶图怎么看平均数量

上图的呈现的问题:两种分析方法明显平均数相同,但是离散程度不同,用位置测度的平均数描述说明不了问题,所以要联合位置测度和离散性测度进行描述

1 极差(Range R)

是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

R=Xmax- Xmin

①极差对排序的数据,计算极差非常容易,但是对极端的观察值非常明显。原由网样本数越大,对应也会很大,不同之间样品难以比较。

②它是标志值变动的最大范围,它仅仅是测定标志变动的最简单的指标,也最直接也是最简单的方法来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。

2 分位数(百分位数、分为点、Quantile)

l 中位数是其实就是第50个百分位数,它是分位数的一个特例。常用的是百分位数。例:

表 加州San Diego一私人医院活婴一周内的出生体重(g)

茎叶图怎么看平均数量

例 在上表中计算第10及第90的百分位数

解 200.1=2及200.9=18都是整数,于是第10及第90的百分位数为

第10百分位数:第2与第3大值的平均=2581+2759/ 2=2670g

第90百分位数:第18与第19大值的平均=3609+3649/ 2=3629g

由以上两个百分位数,我们可以估计出,80%的出生体重落在2670g3629g之间,这就给了我们这批样本离散型的一个总体印象。

l 定义 第p个百分位数定义如下:

(1)如果np/100不是一个整数,而k是小于np/100的最大整数,则第k+1个最大样本点即是第p个百分位数。

如果np/100是整数,则第np/100与np/100+1个大的观察值的平均定义为第p个百分位数。

l 总结:

①样本分布的离散性可以通过指定的几个百分位数去描述,选用第10及第90百分位数常用于去表示离散性

②百分位数比对极端的敏感的极差有更大的优点,不受样本大小的影响

3 方差与标准差( Variance and Standard Deviation )

l 方差:KgRurR是对一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义

茎叶图怎么看平均数量

2为总体方差,X为变量,为总体平均值,N为总体例数。

实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差公式:

茎叶图怎么看平均数量

l 标准差:在概率统计中最常使用作为统计分布程度上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据KgRurR,标准差未必相同

样本标准差,或标准差(standard deviation)定义为

茎叶图怎么看平均数量

(三)变异系数

变异系数(离散系数 Coefficient of Variation CV)

变异系数:它是原始数据标准差与原始数据平均数的比。CV没有量纲。是概率分布离散程度的一个归一化量度。

变异系数(coefficient of variation,CV)由下式定义:

茎叶图怎么看平均数量

注意:

①CV只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。

②变异系数只对由比率变量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。

Tips :温度就不是比率变量,原因在于温度没有绝对零点,温度表上的零度,是认为规定的相对零点,气温零度并不是没有温度。

(四)分组数据(data grouping)

分组数据:即数据分组,是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的的数据称为分组数据。数据分组的方法有单变量值分组和组距分组两种。数据分组的主要目的是观察数据的分布特征,在进行数据分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。

茎叶图怎么看平均数量

描述性统计(图形法)

(一)直方图(Histogram)

直方图:又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图。

茎叶图怎么看平均数量

l 直方图 VS 条形图

* 条形图:实用于组数分组时,组为非数据属性

例子:现在抽烟/过去抽烟/从不抽烟

病情好转/病情恶化/病情未变化

* 直方图:数据分组是由数值组成的。

例子:体重、收缩压等

* 区别:

1.条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的;

直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义.

2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列.

3.条形图主要用于展示分类数据,而直方图则主要用于展示数据型数据

(二)茎叶图(有时候很难构建直方图)

茎叶图:茎叶图的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少

茎叶图怎么看平均数量

(三)箱形图( Box plot )

箱形图:又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

茎叶图怎么看平均数量

上下四分位Q3和Q1,四分位距IQR=Q3-Q1。箱形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQRKgRurR或大于Q3+1.5IQR的值

总结

1)本章提供了某些数值及图示法去描述数据

2)一个数据集可以按照位置测度和离散性测度做定量的描述

3) 位置测度:平均数、中位数、众数和几何平均数

4) 离散性测度:标准差、方差、百分位数和极差

5) 图示法:柱状图、直方图、茎叶图、箱形图

位置测度

A 算数平均数 适合进一步演算和较小受抽样变化的影响等数据。易受极端数值影响用来描述数据的集中趋势。

B中位数 是通过排序得到的,不受最大、最小两个极端数值的影响,用来描述数据的集中趋势。

C 众数 代表一组数据,可靠性较差不过众数不受极端数据的影响,对发生于非数值资料特别有用。

D 几何平均数 适用于对比率、指数等进行进行平均性www.58yuanyou.com描述和集中趋势

离散性测度

A 极差对排序的数据,计算极差非常容易,也最直接也是最简单的方法来评价一组数据的离散度,受样本大小的影响

B 百分位数百分位数比对极端的敏感的极差有更大的优点,不受样本大小的影响

C 方差、标准差是对一组数据时离散程度的度量反映一个数据集的离散程度

变异系数

是概率分布离散程度的一个归一化量度。

今天的生物统计学系列课就此结束,下一课会不定时掉落~

下期预告——线性回归

米娜桑~下期再会,不见不散哦~

内容版权声明:除非注明原创否则皆为转载,再次转载请注明出处。

文章标题: 茎叶图怎么看平均数量

文章地址: www.58yuanyou.com/jiqiao/265581.html

相关推荐