第十七章 Excel与描述性统计分析
1 简述什么是集中趋势?
答:集中趋势,是指一组数据向其中心值靠拢的倾向,测度集中趋势就是确定数据一般水平的代表值或中心值,用于代表数据总体的一般水平。
2 众数(mode)是一组数据中出现次数最多的变量值。众数的一个突出特点是它不受极端数值的影响。众数的格式:MODE
3 众数的基本思想,是反映一组数据若存在某种集中趋势,则大量数据会集中在某个或某几个数据点上,即在这个数据点上,变量值出现的频数会较高,众数就是这一数据点的取值。所以众数表达的是数据分布的“重心”。
4 中位数(median)是一组数据排序后处于中间位置的变量值,是一组数据的中点,即高于和低于它的数据各占一半。中位数是一组数据的位置“中心”,反映了数据分布存在的位置中心趋势。当一组数据的个数为偶数时,中位数为排序后的中间两个变量值的算术平均数。中位数的格式:MEDIAN
5 均值(mean)在统计学中有重要地位,是数据分布集中趋势的主要测度值,用于反映一组数值型数据的一般水平。根据情况的不同在计算均值时有不同的形式,分为:算术平均数、调和平均数、几何平均数。
6 算术平均数是对一组数值数据计算算术平均,用 表示。根据数据资料的不同,分为简单算术平均数与加权算术平均数。算术平均数格式:AVERAGE,加权算术平均数(乘积和)格式:SUMPRODUCT
7 调和平均数(Harmonic mean)也叫调和均值,用 表示。它本质上也是算术平均数,只是表现形式不同。调和平均数格式:HARMEAN
例:三种苹果,价格分别为5元、2.5元、2元。问:各买10元钱,混合后平均价格是多少?P422
8 几何平均数(Geometic Mean),也称几何均值,用 表示。它是n个变量值乘积的n次方根。几何平均数主要用于计算发展速度或增长比率的平均数函数。几何平均数格式:GEOMEAN
9 众数、中位数与算术平均数都是用来测度和说明数据的集中趋势的,他们各有自己的特点,应用场合机所能说明的问题也不相同。
从数据分布来看,众数是一组数据分布峰值位置的代表值,表明数据分布的“集中点”。它不受极端数值的影响,可以应用于各种类型的数据。其缺点是不具有唯一性,对于一组数据,可以有一个众数,也可能有多个众数,或者是没有众数。
中位数是位于一组数据排序后中间位置的值,是排序后数据的“中心”,表明两边各有一半数据。它同样不受极端数值的影响,并且对于一组数据来讲,中位数是唯一的。
算术平均数是全体数值的算术平均,是一组数据的“数量中心”,即各数值与平均数的离差和为0.它的缺点是容易受极端数值的影响。
通常情况下对于同一组数据,三者间的关系表现为:若数据分布是单峰而且对称,则三者相等;如果不对称,当分布左偏(负偏)时,表明有偏小的极端值,此时算术平均数最小,中位数其次,众数最大;当分布右偏(正偏)时,表明有偏大的极端值,此时众数最小,中位数其次,算数平均值最大。
10 数据分布的特征:数据的集中趋势和数据的离散程度。
11 极差(Range)也称全距,用 表示,它是一组数据中最大值与最小值之差。极差是描述数据离散程度的最简单的方法,表明数值得分布范围。极差小,说明数据分布较集中;极差大,说明数据较分散。因为极差仅由两个极端数值所决定,不能反映中间数据的分布离散装况。
12 分位数常用的有四分位数(quaitile)、十分位数(decile)、百分位数(percentile)等。
13 四分位数也称四分位点,是用三个数值点把排序后的数据四等分,处在分位点的数据就是四分位数。格式:QUARTILE,在计算单元输入函数:“=QUARTILE(G2:G9,1)”,其中 “1”为四分位数中第1个四分位点,“2”就是第2个四分位点。
14 四分位差(quartile deviation),也叫内距或四分间距,它是上四分位数与下四分位数之差,用 表示: .四分位差可以表明中间50%的数据的离散程度。四分位差数值越小,说明中间数据分布越集中;相反,四分位差越大,表明中间部分数值约分散,离散程度越大。
15 平均差(mean deviation)也叫平均离差,用 表示,它是各变量值与均值离差绝对值的平均数。平均差格式:AVEDEV,功能:计算指定区域内所有数值的平均离差。
16 方差(variance)是一组数据中各变量与其均值离差平方的平均数,方差的算术平方根叫标准差(standard deviation)。 方差与标准差是反映数值型数据离散程度的主要的也是常用的方法,是描述数据分布特征的重要的统计量。
17 偏度(skewness)是指数据分布的偏斜方向和程度,用偏度系数 表示。通常情况下,我们可以根据众数、中位数和均值之间的关系,很容易地判断出一组数据的分布是否对称,是左偏还是右偏。格式:SKEW
18 峰度(kurtosis)是指数据分布集中趋势高峰的形状,它通常是与标准正态分布相比较而言的。若分布的形状比标准正态分布更瘦更高,成为尖峰分布。相反,若更扁平,称为平峰分布。