您的当前位置:首页正文

第三章 调查数据的描述分析

2020-09-01 来源:客趣旅游网


第三章 调查数据的描述分析

对整理后的调查数据进行统计分析,首先是认识数据的特征。由于指标是描述总体数量特征的具体表现,故调查数据特征的认识表现为指标的设计与计算。设计什么样的指标取决于所要认识的数据特征。本章讨论的数据特征主要有三个方面,即数据间的数量关系特征、数据分布的集中趋势特征和离中趋势特征,相应地,设计的指标有三类,分别为相对指标、平均指标和变异程度指标。这些指标的计算和运用构成了本章的主要内容。

第一节 相对指标分析

一、相对指标的概念与作用

将两个有联系的数据值进行对比形成的相对数,称为相对指标,它反映着事物内部或事物间的数量关系特征。例如:将实际完成的数值与计划任务数值对比,可反映计划执行的进度和完成的程度;将不同时间上的同类数据值对比,可反映现象变化的快慢程度,等等。

相对指标通过对比不同数据值,将现象总体数量上的绝对差异抽象化,从而使那些由于规模不同,条件不同,无法直接对比的现象找到可比较的基础,化不可比为可比。从这个意义上讲,相对指标在统计分析中的运用主要表现在比较分析中。

多数相对指标采用无名数如系数、倍数、成数、百分数、千分数等表示;但也有相对指标采用名数表示,如流动资金周转率指标用“次”表示。

二、常用相对指标及其计算方法 (一)反映数据结构特征的相对指标 1.结构相对指标

44

结构相对指标,是总体的部分数值与总体全部数值的比值,需在数据值分组的基础上计算,通常又称为比重,习惯用百分数表示。其计算公式为:

结构相对指标总体的各组数值100%

总体的全部数值【例3.1】某一项城市住房问题的研究中,调查数据值统计整理如表3-1所示:

表3-1 甲城市家庭对住房状况的评价

回答类别 非常不满意 不满意 一般 满意 非常满意 合 计 户数(户) 24 108 93 45 30 300 百分比(%) 8 36 31 15 12 100 以“非常不满意”为1的 比例相对数 1 4.5 3.88 1.88 1.5 — 应该注意到,同一总体各组的结构相对数值之和等于100%。

在调查数据的分析中,结构相对指标除了能够反映总体内部的结构状态特征,揭示事物的性质外,还可用来说明总体中各个部分对总体的影响程度,即可以用来寻找主要影响因素。

2.比例相对指标

比例相对指标,是同一总体内某一部分数值与另一部分数值的比值,也是在数据分组的基础上计算。如果说结构相对指标反映的是部分与整体的数量关系,那么,比例相对指标反映的则是部分与部分间的数量关系。比例相对指标的计算公式为:

比例相对指标总体中某一部分数值

总体中另一部分数值比例相对指标既可用百分数表示,也可用一比几或几比几的形式表示。若总体中多于两个部分对比,通常采用连比的形式来表现,如a:b:c。

在调查数据的分析中,比例相对指标主要用于对具有结构规律的现象进

45

行探索性分析以及评价各种比例关系是否协调。 (二)用于比较分析的相对指标 1.比较相对指标

比较相对指标,是同一时间上不同总体的某一项指标对比的结果,它反映同类现象变化的均衡与否。其计算公式为:

比较相对指标某总体的某项指标值

另一总体的该项指标值比较相对指标通常用系数或倍数表示。

【例3.2】2003年甲市和乙市的城镇居民人均消费支出分别为10284.6元和10464.0元,则可得

10464.01.017

10284.6说明乙市的人均消费是甲市的1.017倍。

在调查数据的分析中,运用比较相对指标的分析,俗称横向比较分析。它有助于揭露矛盾,找出差剧,挖掘潜力,促进事物进一步发展。

2.动态相对指标

动态相对指标,是某一指标同空间、不同时间上的数值对比的结果,用来反映同一现象在时间上的变化快慢程度,又称为发展速度。其计算公式为:

动态相对指标报告期水平值100%

基期水平值公式中,基期水平值是比较的标准,报告期是观察研究的时期。 【例3.3】某企业2000年的总产值为82067万元,2003年为89404万元,则2003年总产值的发展速度为:

总产值的发展速度89404100%108.94% 82067说明2003年的总产值为2000年的108.94%,增长了8.94%。

在调查数据的分析中,动态相对指标用于反映现象动态变化的数量特征,所进行的分析俗称纵向比较分析。 (三)计划完成程度相对指标

计划完成程度相对指标,是某一时期实际完成的数值与该期计划数值的比值,一般用百分数表示,专门用来考核一项计划完成的情况。其基本计算公式为:

46

计划完成程度实际完成的数值100%

计划数值由于现象的不同特点,人们在制定计划时,有的以总量指标值和平均指标值作计划数值,有的则以相对指标值作计划数值;又由于不同表现形式的数值具有不同的特点,这些导致计划完成程度相对指标的计算方法不尽相同。

下面结合例子分述如下:

1.计划数值为总量指标值和平均指标值

【例3.4】设某企业2004年第一季度A产品计划产量为200台,实际为240台,则2004年第一季度A产品产量计划完成程度为:

计划完成程度相对指标240100%120%

200说明该企业A产品产量计划完成了,超额完成计划20%。

【例3.5】设某企业2004年第一季度A产品计划单位成本为650元/台,计划执行结果表明,实际为630元/台,则2004年第一季度A产品单位成本计划完成程度为:

计划完成程度相对指标630100%96.9% 650说明该企业A产品单位成本计划完成了,超额完成计划3.1%。 归纳以上两例,得一般计算公式为:

计划完成程度实际完成的总量指标值平均指标值100%

计划总量指标值平均指标值相对指标还可知,对指标值越大越好的计划,计划完成程度不小于100%为完成计划,而对指标值越小越好的计划,计划完成程度不大于100%为完成计划。

2.计划数值为相对指标值

【例3.6】某企业劳动生产率计划规定2003年比2002年提高5%,实际提高8.5%,问企业劳动生产率计划的完成情况如何?

这个问题的解答有两种方式。

方式一:以报告期的计划为考核标准,计算公式为:

计划完成程度1实际变化率

1计划变化率本例中,劳动生产率计划完成程度

18.5%100%103.33%

15%47

计算结果表明,2003年劳动生产率提高计划完成,超额完成了3.33%。 方式二:以基期水平为考核标准,计算公式为: 计划完成程度=报告期实际变化率报告期计划变化率

本例中,劳动生产率计划完成程度 = 8.5%5% = 3.5(百分点) 计算结果表明,在2002年的基础上,2003年劳动生产率实际比其计划多提高了3.5个百分点,2003年劳动生产率计划完成。

方式一的计算特点是包括基数在内,不能直接用报告期的变化率对比来说明计划的完成情况;方式二的特点在于报告期实际与计划变化率的差额为正,表示计划完成,差额为负,表示计划没有完成,而且差额不能用百分数表述,而要用百分点表述。

三、计算和运用相对指标分析时应注意的问题 1.分子数值与分母数值必须具备可比性

相对指标分析用的是对比的方法,揭示的是现象间的联系程度,反映的是现象间的差异程度。对比,当然应具有可比性,否则,必然会歪曲事实,导致判断错误。分子与分母数值的可比性一般包括:计算内容、计算方法、计算范围、计算价格等。

2.相对指标与绝对指标结合运用

相对指标在用对比的方法揭示现象间数量关系的同时,因抽象掉了现象的绝对水平,故反映不出现象间绝对量上的差异;绝对指标虽可反映现象的绝对水平,但又不能反映出现象间的联系及数量关系。因此,应将相对指标与绝对指标结合起来运用。在对数据作对比分析时,既要看到现象的变化程度,又要看到这一变化程度下的绝对水平差异,从而深刻认识现象变化的实质。

第二节 集中趋势分析

一组数据的集中趋势指的是该组数据值的平均水平。一组数据各不相等乃个性使然,抹杀个性方能表现共性,也就是说,消除数据间的具体差别才能得到平均值。在调查数据的分析中,常用平均值描述一组数据的共性(集中趋势)。平均值是一个代表性数值。

平均的实质在于消除差别。如何消除数据间的数量差别?这既要考虑平

48

均值是否敏感于数据中的极端值,即耐抗性问题,又要考虑各个数据值作为个量与其总量间的数量关系问题,故可将平均方法作如下分类。 平均方法

一、数值平均法

数值平均法是就一组数据中所有数据值进行平均的方法。其优点是,数据信息利用得充分;缺点是,该组数据中若存在极端值,则平均值将会受其影响,从而失真,即耐抗性不好。

一笔钱存入银行,存期五年且年利息率不同。若按单利计算利息,则各年的年利率与五年间的总年利率是和的关系,即个量与其总量呈加法模式,此情境下,算术平均法或调和平均法与年平均利率相匹配;若按复利计算利息,则各年的年利率与五年间的总年利率是乘积的关系,即个量与其总量呈乘法模式,此情境下,几何平均法与年平均利率相匹配,故数值平均法又分算术平均法、调和平均法与几何平均法。

1.算术平均法

【例3.7】 设某市2002年城市住户抽样调查资料如表3-2所示: 表3-2 某市2002年城市住户收入抽样调查资料

月收入额(元) 500以下 500~800 800~1100 1100~1400 1400~1700 1700~2000 2000以上 合 计 调查户数(户)f 40 90 110 105 70 50 35 500 组中值x 350 650 950 1250 1550 1850 2150 — 向上累计户数(户)∑f 40 130 240 345 415 465 500 — 按耐抗性分 按位置确立思想 位置平均法 按数量关系模式 数值平均法 算术平均法(加法模式)

几何平均法(乘法模式) 众数法 分位数法

49

根据表3-2数据,计算平均每户月收入如下:

户均月收入总收入总户数

4090110105705035 35040650909501101250105155070185050215035

5845001169(元) 500由上例的计算,不难抽象出算术平均值的一般计算公式:

x将3.1式改写为:

x1f1x2f2xnfnxff1f2fnf(3.1)

xx1即

ff1fx22xnn fff x(xf)f(3.2) (3.2)

由3.1及3.2式可知,算术平均值的大小受两个因素的影响:其一是组变量值水平(x);其二是组变量值所对应的组次数(f)或组次数所占比重

(f)。 由于组次数的多少或组次数所占比重的大小能衡量相对应的组变量f值对平均值的影响程度,即起着权衡轻重的作用,故理论上将组次数或组次数所占比重称为权数。权数有两种数值表现形式,一是绝对数形式(f),二是相对数形式(f),但权数的实质为相对数,即权数对平均值大小的影响不f取决于其绝对数的多少,而取决于其所占比重的大小。

考虑到数据分组后的一种极端情形:

f1f2fn

50

即各组权数相等(相当于数据未分组),此时,3.1式变为

x其中:n为数据个数。

xn(3.3) (3.3)

3.3式告诉我们:平均值的大小只受一个因素——组变量值(x)的影响,且为3.1式的一个特例。至此,我们可以给算术平均值下定义了。

一组数据值和与该组数据值个数的比值称为算术平均值。分为简单平均(3.3式)和加权平均(3.1式、3.2式),且简单平均为加权平均的一个特例。数据分组则加权平均,否则简单平均。

算术平均在统计学中具有重要的地位,是数值平均的基本方法。算术平均值有一条重要的数学性质,即各个变量值与其算术平均值的离差之和等于零,数学表达式为:(xx)0

2.调和平均法

【例3.8】一批产品从甲、乙两个市场进货,有关调查资料见表3-3。 表3-3 某批产品成交数据

成交市场 甲 乙 合 计 成交价值(元) 1.2 1.5 — 成交额(元) 500 400 900 根据表3-3数据,计算该产品的平均进价如下:

平均进价= 成交金额

成交数量5004009001.3(元)2

500400683.31.21.5若用m表示成交额,x表示成交价格,H表示平均成交价格,上式可抽

Hm1m2m (3.4)

m1m2mxx1x251

象为:

显然m0,故

H1 1mxm1m1上式中的x为作变量,m作权数的加权算术平均值,H为该加

xm权平均值的倒数。当m1m2mn时,显然有:

H1n11xxn (n为x的个数) (3.5)

故调和平均值可定义为:变量值(x)倒数的算术平均值的倒数。有加权平均(3.4式)和简单平均(3.5式)之分。

下面讨论算术平均与调和平均的关系。

当mxf时,对同一组数据,调和平均与算术平均计算的结果相等,此时,调和平均为算术平均的变形,只因掌握的数据形式不同,平均值的计算采用了不同的形式;当mxf时,对同一组数据,有Hx,此时,调和平均与算术平均有质的差别。实践中,调和平均通常作为算术平均的变形使用。

3.几何平均法

【例3.9】 设甲产品要经过投料、粗加工、精加工、装配等四道工序形成产成品。已知各工序加工合格率分别为95%、97%、97%、99%。则甲产品的合格率即四道工序加工合格率的平均值为:

495%(97%)299%96.7%

G当以x表示各工序加工合格率,f表示各工序加工合格率出现的次数,

表示平均合格率,则上式可抽象为:

ffGx1f1.x2f2.xnfnxf (3.6)

52

显然,当f1f2fn时,有

Gnx1.x2xnx (3.7)

n故几何平均值可定义为:一组变量值连乘积的变量值个数次方根。它也有加权平均(3.6式)与简单平均(3.7式)两种形式。

对3.7式,两边取以10为底的对数,得

lgG11(lgx1lgx2lgxn)lgx (3.8) nn3.8式表明:几何平均值为变量值(x)对数的算术平均值的真数。 由于在调和平均与几何平均中,均能显示出算术平均的影子,所以我们说,算术平均是数值平均的基本方法。

一般情况下,对同一组数据,三种平均方法计算的结果有如下数量关系:

H≤G≤x

二、位置平均法

位置平均法是依位置计算均值的方法。区别于数值平均法,将位置平均法计算出的均值称位置均值。位置均值的大小取决于它在一组数据值中所居的位置,因其所居的位置与极端值的大小无关,故位置均值对极端值不敏感,不受其影响,所以位置平均法的耐抗性好,但缺点是数据信息利用的不够充分。

按位置均值在数据值中所居位置确定的思想不同,位置平均法又分众数法和分位数法。

1.众数法

众数,是一组数据中出现次数最多的那个数据值。其统计思想为:出现次数最多的那个数据值对整个数据的影响程度最大,故用它可大致地描述出整个数据的集中趋势。

众数的计算条件是,数据值分组;数据值呈单峰分布且有明显的集中趋势。当数据值呈多峰分布时,整个数据值无众数,但从局部来看,会有多个众数。

众数的计算公式(下限公式):

53

moL式中:mo ———— 众数

ff1d (3.9)

(ff1)(ff1) L—— 众数组的下限 f—— 众数组的次数

f1—— 众数组相邻的前一组次数 f1—— 众数组相邻的后一组次数 d—— 众数组的组距

【例3.10】对表3-2的分组数据计算众数。

m0800110903001040(元)

(11090)(110105)计算结果表明:500个调查户平均月收入水平为1040元。

显然,若次数分布数列为单变量值形式时,众数可按定义直接得到。 2.分位数法

当众数的计算条件得不到满足或缺乏计量手段时,我们可计算分位数来描述一组数据的平均水平。分位数有多个,下面只介绍二分位数(中位数)及四分位数。

中位数是一组数据排序后,处于中间位置上的那个数据值,常记为me。其统计思想是:处于中间位置上的那个数据值把全部数据值分成两部分,约一半数据值比它小,另一半数据值比它大,中位数不大不小,正好反映着整个数据值的代表性水平。

当数据只排序不分组时,设x(1),x(2),x(3),,x(n)为一排序序列,n为数据值的个数,记M为中位数的位置值,显然:Mn1,此时有: 2n2k1x(k)me1(x(k)x(k1))n2k2(k1,2,,n) (3.10)

当数据排序且分组,形成组距式次数分布数列时,中位数的计算步骤是:

54

先由Mf确定出中位数组,然后再按比例确定中位数的具体数值。计算2公式(下限公式)为:

fSm12meLd (3.11) fm式中:me —— 中位数

L—— 中位数组的下限

f2 —— 中位数的位置值

Sm1 —— 向上累计到中位数组的前一组为止的累计次数 fm—— 中位数组的次数

d—— 中位数组的组距

【例3.11】 对表3-2的分组数据计算中位数。

由Mf500250,可知:1100~1400为中位数组,将表3-2的数

22据代入3.11式,得

me1100500/22403001128.57(元)

105计算结果表明:500个调查户平均月收入水平为1128. 57元。 仿中位数的计算方法,四分位数的计算方法如下:

1fSL4QLLLdL (3.12)

fL3fSU4QULUdU (3.13)

fU上式中:QL,QU——分别为下、上四分位数

LL,LU——分别为下、上四分位数组的下限

SL,SU——分别为下、上四分位数组以下各组的向上累计次数 fL,fU——分别为下、上四分位数组的次数

55

dL,dU——分别为下、上四分位数组的组距

三、位置平均值与算术平均值的关系

讨论位置均值与算术均值的关系,目的有两个,其一是用于均值估计;其二是判断调查数据的分布是否对称。

当数据的分布完全对称时,有xmome 当数据的分布非对称呈左偏时,有xmemo 当数据的分布非对称呈右偏时,有momex。 上述关系见图3-1所示 f

f

f xmemo

(a)对称

x

xmemo x

momex

x

(b)左偏(c)右偏

图3-1 位置均值与算术均值的关系

根据经验,在调查数据分布偏斜程度不大的情况下,不论左偏还是右偏,算术均值、众数、中位数间存在着一定比例关系,见图3-2所示。

· x

1/3

· me

图3-2 x、mo、me的比例关系

2/3 · mo

由图3-2知: mex1(mox),从而 3x3memo (3.14) 2

56

第三节 离中趋势分析

一方面,平均值通过消除数据间具体存在的数量差别,描述出一组数据的共性,也就是说平均值在描述数据集中趋势的同时,掩盖了各数据间存在的差别;另一方面,平均值是一个代表性数值,其代表性高低取决于数据间差别的大小。故在调查数据的分析中,设计变异指标来描述一组数据的差别即离散程度,并用变异指标的数值大小判断平均指标的代表性好不好。

常用的变异指标有:极差、四分位差、平均差、标准差和方差、离散系数。

一、极差、四分位差 1.极差

极差也称全距,指一组数据值中最大值与最小值之差。

极差计算简单,但用来描述一组数据的离散程度不够准确,因为它只涉及到一组数据中的两个极端数据,并没考虑到介于最大值与最小值之间数据的离散情况。

2.四分位差

四分位差是指上四分位数与下四分位数之差,反映着一组数据中分布在中位数左右大约50%的数据间的离散程度。相对于全部数据的离散程度,四分位差描述不够全面;但相对于极差,其描述要准确些,因它除去了极端值的影响。

二、平均差、标准差和方差

平均差、标准差,在描述一组数据的离散程度时,因涉及到了一组数据中的每一个数据值,故其描述是较准确的。其统计思想是:用离差(xix)的均值来描述数据的离散程度。由于算术均值的性质有:(xx)0,从而离差(xix)的均值等于0。为解决这一问题,数学上的手段有绝对值和平方,即先对离差(xix)进行绝对值运算或平方运算,这样其和自然不为0。理论上,称xix的算术均值为平均差,称(xix)2的算术均值为方差,方差的

57

平方根为标准差。因为平方的处理方法较绝对值的处理方法数学性质优越,故方差、标准差为最重要、最常用的变异指标。记标准差为。

则:

(xx)2 (简单平均) (3.15) n或

(xx)2f (加权平均) (3.16)

f标准差的简捷计算公式为 x2(x)2 (3.17) 由3.15式,标准差可定义为:各数据值与其算术均值离差平方的算术均值的平方根。它用来描述一组数据相对于其均值的平均离散程度,是一个与数据值同量纲的均值。

【例3.12】 设某车间甲、乙两个班组工人日产量的分组数据如表3-4。 表3-4 某车间甲、乙两班组工人日产量计算表

组中值 工人数(人) xf x2f 日产量(件) x 25 35 45 55 — f甲 1 7 9 3 20 f乙 2 8 9 6 25 (xf)甲 (xf)乙 (x2f)甲 (x2f)乙 25 245 405 165 840 50 280 405 330 1065 625 8575 18225 9075 36500 1250 9800 18225 18150 47425 20~30 30~40 40~50 50~60 合 计 根据上述资料计算:

xx甲

=

(xf)f甲乙甲=

84042(件) 20106542.5(件) 25乙

(xf)=

f乙=

58

甲 = 2x甲(x甲)2365004227.8(件) 2047425(42.5)29.5(件) 25乙 = 2x乙(x乙)2计算结果表明,甲、乙两班工人的日产量存在差异,与各自的平均日产量相比,平均相差的数量分别为7.8件和9.5件。

三、离散系数

平均值为一组数据的代表性数值,然而其代表性的高低不取决于其自身数值的大小,而取决于数据间的离散程度大小。当对两组数据均值的代表性作比较分析时,用标准差作为评价指标,可能会遇到麻烦,因两组数据的量纲不同,则两组数据的标准差数值不可比,此其一;标准差的大小不仅受数据值水平高低的影响,同时也受数据值的均值水平影响,两组数据的均值水平若不相等,则它们的标准差亦不可比,此其二。为消除量纲不同,均值不等对标准差可比性的影响,人们设计出新的变异指标——离散系数。

离散系数定义为:标准差与算术均值的比值,是一个相对数形式的变异指标,并记为V。计算公式为:

Vx

【例3.13】 对例3.12,计算甲、乙两班工人日产量的离散系数,并比较均值的代表性。

对甲班:V甲对乙班:V乙甲x甲7.80.1857 429.50.2235 42.5乙x乙计算结果表明:V甲V乙,说明甲班工人日产量的离散程度小于乙班,从而甲班工人平均日产量对甲班日产量的代表性高于乙班工人平均日产量对乙班日产量的代表性。

59

因篇幅问题不能全部显示,请点此查看更多更全内容