第十二章 资料的统计分析——重点
[由于有公式,如果大家需要word版本请发邮件到info@cntopedu.cn索取]
资料分析是在资料审核和整理的基础上进行的,包括统计分析、逻辑和理论分析。
第一节 统计分析的必要性与特点
一、统计分析的必要性
1.统计分析的方法可以为我们的研究提供一种清晰精确的形式化语言。
2.统计分析是进行科学预测,探索未来的重要方法。
3.新的调查方法和技术要求运用统计分析的方法。
二、统计分析的特点
1.统计分析要以定性分析为基础,其原因是:
1 统计分析是根据数据资料进行的,社会调查中的数据反映事物属性的统计指标。
2 统计分析依据一定公式计算,公式的选择依赖于一定的理论知识、专业知识和必要的经验。
2.统计分析方法必须和其他分析方法结合运用,原因是 1 数量关系只是客观事物存在的诸种关系的一种,不能代替其他分析方法; 2 统计分析方法能够帮助发现社会现象中不易察觉的规律,但解释需要借助于有关科学的理论。
3.统计分析有一套专门的方法和技术。
第二节 集中量数分析
一、集中量数分析的意义和作用
1.集中量数,又称为集中趋势,是一组数据的代表值,代表着现象的一般水平,别的数值围绕在它的周围;能对同质总体做出概括说明,用以反映数据资料集中趋势和特征的一般水平P330,具有四个方面的作用(意义):
1 说明某一社会现象在一定条件下,其数量的一般水平。
2 对于不同空间的同类现象进行比较。
3 对一定社会现象在不同时间中的变化进行比较。
4 分析某些社会现象之间的依存关系。
2.常用的集中数量包括算术平均数、中位数和众数。
二、算术平均数
含义:以总体各单位数值之间和除以总体单位总数的商,计算公式:
各单位的标志数值之和
总体单位总数
算术平均数=
根据资料的不同,算术平均数可以采用简单算术平均数和加权算术平均数法进行计算
(一)简单算术平均数,是直接由原始数据计算平均数的方法,公式:
说明:符号X表示算术平均数;X1、X2分别表示各个具体的标志数值;n代表总体单位数(即总体中个案的数目)。
X1+X2+……+Xn
n
∑X
n
X= =
(二)加权算术平均数,使用第二手资料的统计表计算平均数的时候,要用加权平均数法进行计算,计算公式:
X1f1+X2f2+……+Xnfn
f1+f2+……+fn
∑Xf
∑f
说明:f位权数,即在变量在总体中出现的次数
X= =
按照数据资料形式的差异,加权平均数的计算分为由单项分组资料求算术平均数和由组距分组资料求算术平均数:
1.单项分组资料算术平均数,公式与加权算术平均数一致,特点:变量X的每一个值都是单一的确定数值。
2.由组距分组资料求算术平均数,特点:变量X不是一组确定的数值,是一组数据区间;要求:先计算出组中距,然后使用加权算术平均数进行计算。
1 组中距的符号:Xmid,计算公式:Xmid=(下组限+上组限)/2
∑fXmid
∑f
2 组距分组资料计算算术平均数的公式:X=
三、中位数
含义:中位数是把调查到的资料按照标志值大小顺序排列,处于中央位置的标志值表示中间位置的平均数,又称位置平均数,主要应用于非数值的定序测量资料中。计算定序变量的集中量数用中位数,只需指出中位数的位置;计算定距变量的集中量数可以用中位数,但要计算出其中的具体数值。
(一)由原始资料计算中位数,步骤:把各个标志数值按照大小排列,然后用总体单位加1除以2,可以求出中位数的位次。
(二)对经过汇总的资料计算中位数,主要包括:
1.由单项分组资料求中位数,步骤:首先找出中位数的位次(n+1/2),然后顺着累计次数找到对应的组内。
2.由组距分组资料计算中位数,步骤:用∑f/2公式确定中位数所在组的位置,然后用下限公式计算中位数,公式为:
说明:Md 为中位数,L为中位数所在组的下限,fm 为中位数所在组的次数, cfm-1 为中位数所在组以下的累计次数,∑f 为累计次数,i为中位数所在组的组距。
1
2
∑f-cfm-1
fm
×i+L
Md=
第三节 离中量数分析—重点
一、离中量数的意义和作用
1.离中量数,也称差异量数,是描述数据离散程度的量数,是一个概括性量值,是研究现象差异程度的概括表现;要求两组数据的集中量数大致相同,单位相同,两组数据的总体单位相近,才可比较。P335
2.离中量数的作用(意义): 1 阐明被研究对象的差异特征; 2 描述一组数据的差异情况; 3 对集中数量的代表性作了补充说明,即差异量数越小,集中量数的代表性越大。
二、离中量数的计算
离中量数的计算方法有异众比率(与众数配合)、四分位差(与中位数配合)和标准差(平均数配合)
(一)异众比率,是指非众数的次数与总体内全部总体单位的比率。
说明:VR代表异众比率,n是总体内全部总体单位的数,fmo为众数的次数。
n-fmo
n
1. 计算公式:VR=
2.异众比率与众数成反比关系:异众比率较大,众数的代表小,异众比率越小,众数的代表性越大。
(二)四分位差
1.含义:
1 把一组数据按大小排列成序,然后分成四个数据数目相等段落,各段落分界点上的数称四分位数。
2 第一个四分为数(Q1)以下包括了25%的数据,第二个四分位数(Q2) 包括以下75%的数据,
3 3(n+1) n+1
4 4
四分位差是指舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离中量数。
2.定序类型资料计算的四分位差,计算公式:Q= Q3-Q1= -
Q3-Q1
2
3 1
4n n
3.对于定距类型资料计算四分位差,计算公式:Q= = -
4.四分位差与中位数的关系:四分位差之间的间距越小,中位数的代表性越大。
(三)标准差
含义:也称均方差,指资料中各个数值与算术平均数相减的平方和的算术平均数的平方根,是用的最多、最重要的离中量数,标准差越小,平均数的代表性越大。
∑f(Xi-X)2
n
说明:Xi为资料中各个数值,X为算术平均数,n为总体单位数。
计算公式:σ=
√
根据资料的不同,标准差分为按原始资料计算和按统计表资料计算两种方法。
1.根据原始资料计算标准差,计算公式与标准差计算公式相同。
2.根据统计表资料计算标准差,包括
1 单值分组资料计算标准差,计算公式与原始资料计算标准差相同。
∑f(Xmid-X)2
n
2 √
σ=
组距资料计算标准差,计算公式为:
三、相对差异量数
1.离散系数,是标准差与算术平均数的比值,是一个相对数,不受单位限制,离散系数越大,数据的离散程度越大,集中量数的代表性越小,限制:离散系数的比较只限于定距资料。
σ
X
公式:CV= ×100%
2.标准分数,作用(1)表明原始数据在总体分布中的相对位置;(2)对不同的各原始数据进行比较。(3)能测定相同或不同总体内个案的相对位置,并进行比较,是比较分析的有力工具。
X-X
σ
计算公式:Z=
第四节 相关与回归分析
一、相关分析的意义和测定方法
1.相关分析含义:是通过计算两个变量的相关系数来判断两个现象是否有联系以及联系的密切程度,只是对客观事物的一种描述。
2.散点图,横坐标代表一个变量,纵坐标代表另一个变量,对各资料依次用坐标点绘于图上,这图称为散点图,可以说明变量间有无线性相关关系、相关的方向,不能精确地说明变量之间的密切程度。
3.相关系数的计算方法
1 相关系数是表明变量间关系密切程度的量数,符号为r,取值范围在-1到+1之间,具体取值为:
(1)r=-1,完全负相关;(2)r=1,完全正相关;(3)r=0,无相关;(4)r是负值,说明随着X变量的增大,Y变量减小,两个变量变化的方向相反;(5)r是正值,说明随着X变量的增大,Y变量也随着增大,两个变量变化的方向相同;(6)|r|=0.7-1.0之间认为两变量具有高度相关;(7)|r|=0.3-0.7之间认为两个变量之间具有中度相关;(8)|r|=0-0.3之间认为是低度相关。
n∑XY-(∑X)。(∑Y)
[n∑X2-(∑X)2].[n∑Y2-(∑Y)2]
2 √
相关关系的计算公式:r=
二、回归分析的意义和方法
1.含义:是对有相关关系的对象,根据关系的形态选一合适的数学模型用来近似地表达变量间平均变化关系;具有推理性质和因果性,是单向的,可以进行预测。
2.一元回归模型和计算
1 散点图上坐标点在统计上可以用一条直线表示,即回归直线,但每条直线与实际值都有一定的偏差。因此回归计算目的是找出一条最佳回归线,使它与实际数值的偏差为最小。
n∑XY-(∑X)。(∑Y)
n∑X2-(∑X)2
数学模型为:Y=a+bX(其中a为直线在Y轴上的截距,b为直线的斜率,也称回归系数,标准方程为:
b=
a=Y-bX
∑Y=na+b∑X
∑XY=a∑X+b∑X2
3.相关关系和回归分析应注意的机关问题
1 相关是回归的必要条件; 2 相关关系不仅可以说明变量之间关系的密切程度,还可以度量回归方程对实际资料的拟合优度。以r2为判断系数,r值越大,r2也越大,则拟合程度越好。相关系数越高,预测的准确性越大。 3 应用回归方程式进行预测时,不能使用超出资料所包括范围的自变量数值。 4 预测的回归方程只能反映一定时期内事物间的相互关系。
第五节 推论统计
推论统计是一门通过样本的各种量数估计总体与之对应的各种量数的学问,方法包括区间估计和假设检验。
一、区间估计
(一)区间估计的概念
1.含义:是在一定的标准差范围内设立一个置信区间,然后联系这个区间的可信度将样本统计推论为总体参数值。
2.只要被抽取的部分单位中被研究标志的构成比例与总体有出入,就会产生误差,是随机抽样本所固有的,称为抽样误差,而描述抽样误差的量数称为标准误差σX=σ/√n
3.标准误差主要取决于两个因素:总体标准差和样本量。
4.只要样本大于30个个案,可以用样本标准差S代替总体标准差σX
5.样本误差的大小和样本的多少是决定精确度的一个因素。
6.几个重要的数据:社会统计中常用的置信度为90%、95%、99%,与之对应它们允许误差(α)分别为10%、5%、1%,置信度Z(1-α)分别为1.65、1.96、2.58
(二)总体平均值的区间估计法
1. 说明:S为样本差;n为样本数目;随着可靠性的提高,置信度间在扩大,精确度降低。
S
n
√
总体平均数的区间估计,公式:X±Z(1-α)
2.总体百分比的区间估计,公式:P为样本中的百分比。
P(1-P)
n
√
P±Z(1-α)
二、假设检验(P348-350具体理解)
1.含义:假设检验就是先对总体的某一参数作一假设,然后用样本计量去验证,以决定假设是否为总体接受。
2.根据对某一总体特征的初步了解而作出的假设称为虚无假设;将根据抽样调查资料而作出的假设称为研究假设。(两个假设绝对对立)。
3.通常把概率不超过0.05或0.01的事件当作“小概率事件”,也称为显著水平。