第十二章 统计资料分析
〖本章学习目的〗
通过本章内容的学习要掌握以下三个方面的内容:(1)资料分析包括的内容,即统计分析、逻辑分析和理论分析;(2)统计分析的特点;(3)统计分析的方法,这一部分是本章的重点,具体讲,从第二节到第五节都是统计分析的方法。
〖本章主要知识点〗
本章要掌握的主要知识点有:
集中量数的概念及作用、算术平均数、中位数、众数、离中量数的概念及意义、标准差、离散系数、回归分析
第一节? 统计分析的必要性与特点
〖基本内容〗
一、统计分析必要性
(一)统计分析的方法可以为我们的研究提供一种清晰精确的形式化语言
用定性分析方法只能得出这样一个概略的认识。如果采用定量方法进行分析就可以把这种关系提炼成一个数字方程式。定量分析不仅可以使问题分析变得清晰、简洁,而且使问题的分析变得准确,深刻。
(二)统计分析是进行科学预测,探索未来的重要方法
人们把根据事实,运用经验和判断能力,逻辑思维方法进行的预测称为定性预测;把根据数据、统计资料,运用统计分析方法进行的预测称为定量预测。统计分析方法不仅是对客观现象数量关系描述的工具,还是进行科学抽象的思维方法。它使人们能够发现靠直觉不能悟察到的规律,进行准确的科学预测。
(三)新的调查方法和技术要求运用统计分析的方法
对这些资料的描述和分析需要采用与事实性的文字资料不同的技术,这就是统计分析技术。
二、统计分析的特点
(一)统计分析要以定性分析为基础
在定性分析的基础上进行统计分析是保证正确使用统计分析的必要条件。这是因为:(1)统计分析是根据数据资料进行的,而社会调查中的数据不是抽象的数字而是反映了事物属性的统计指标。定性分析要为定量分析规定方向,划分范畴。(2)统计分析是依据一定公式计算的。公式的选择依赖于一定的理论知识、专业知识和必要的经验。事实上在定量分析开始之前已经通过定性分析,从理论和经验上判明了事物之间的联系,决定了要采用的公式。
(二)统计分析方法必须和其他分析方法结合运用
统计分析方法还必须和其他分析方法结合运用才能更好地发挥作用。其原因是:(1)数量关系只是客观事物存在的诸种关系的一种,而不是全部。统计分析方法不是万能的,它有自身独特的长处,也有无法克服的局限性,它不能代替其他分析方法。(2)统计分析方法能够帮助发现社会现象中不易察觉的规律,但对规律的解释要借助于有关学科的理论。
(三)统计分析有一套专门的方法和技术
统计分析有一套独特的方法和技术。统计学是对社会现象作定量研究和分析的科学武器;计算机技术是进行统计研究的技术工具,统计分析的数字成果是运用数字模型来描述、解释、预测社会现象。模型就是把实际问题提炼为数学问题,用适当的数学方程式表达出来的。
第二节? 集中量数分析
〖基本内容〗
一、集中量数的意义和作用
集中量数和离中量数就是对一组数据两个基本特征的描述。前者是大量数据向某一点集中的情况,后者是大量数据彼此离散的程度。
集中量数也称集中趋势(或平均指标),它是一组数据的代表值,代表着现象的一般水平,别的数值围绕在它的周围。在统计分析中,集中量数有下列四个方面的作用:
1.说明某一社会现象在一定条件下,其数量的一般水平如用年人均收入来反映经济生活的水平,用人均住宅面积来反映居住水平。
2.对于在不同空间的同类现象进行比较。如用两个城市的人均居住面积对比,反映居住水平的差异。
3.对一定社会现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。例如,通过对我国人口平均预期寿命的变化,反映综合生活水平的提高。
4.分析某些社会现象之间的依存关系。如考察企业不同时期劳动生产率和人均奖金的变动情况,可以看出随着劳动生产率的提高,奖金水平不断提高的规律性。
常用的集中量数有算术平均数、中位数和众数。下面着重介绍它们的计算方法。
二、算术平均数
算术平均数的基本定义是以总体各单位数值之和除以总体单位总数的商。
即算术平均数= 
根据数据资料的不同,我们可以采用简单算术平均数法和加权算术平均数法进行计算。
(一)简单算术平均数法
简单算术平均数法就是直接由原始数据计算算术平均数的方法。例如,有6个生产小组,人数分别为8人、5人、4人、3人、3人、1人,其算术平均数为????????
?
生产小组的平均人数=?
这个公式和计算过程用代数式表示,则为

其中符号X代表算术平均数:X1、X2、…Xn分别代表各个具体的标志数值,n表示总体单位数(即总体中个案的数目),所以n=6,∑表示将各个具体的标志数值相加求和
(二)加权算术平均数
当使用第二手资料的统计表计算平均数的时候,要用加权平均数法进行计算,其计算公式为

其中f为权数,即变量在总体中出现的次数。
加权平均数据的计算分为由单项分组资料求算术平均数和由组距分组资料求算术平均数两类。
- 由单项分组资料求算术平均数。
如下表所示,该总体分为六组,各组所对应的权数(f)即家庭数如表第二栏所示:
表14-1? 某社会家庭人口平均值计算表
家庭人口数(X) |
家庭数(f) |
家庭人口数(X)×家庭数(f) |
1
2
3
4
5
6 |
24
275
430
382
210
86 |
24
550
1290
1258
1050
516 |
合计 |
1407 |
4958 |
现在要计算这1407个家庭的平均人口数。

2.由组距分组资料求算术平均数。
这时需要这样处理:先计算各组标志值栏中的组中值;以各组的组中值为变量值;用各组的权数对各组的变量值进行加权平均。

组中值的符号为Xmid,其计算公式是
那么由组距分组资料计算算术平均数的公式就变为

我们可以根据表12-2的资料计算该厂月平均工资数。
表14-2? 某厂工人工资状况和平均值计算表
按月工资分组
(元)X |
工人数
(人)f |
组中值
(元)Xmid |
工资总额
F·Xmid |
40—50
50—60
60—70
70—80
80—90
90—100 |
100
200
400
200
70
30 |
45
55
65
75
85
95 |
4500
11000
26000
15000
5950
2850 |
合计 |
1000 |
|
65300 |
三、中位数(Median)
中位数又称中数、中点数,它是把调查到的数据资料按照标志值大小顺序排列,处于中央位置的标志值表示中间位置的平均数,所以也称位置平均数。
(一)由原始资料计算中位数
原始资料是以单项标志值形式表现的。先把各个标志值按照大小顺序排列,然后用总体单位数加1除以2,即(n+1)/2,就可以求出中位数的位次。这个位次的标志值就是中位数。当总体单位数是奇数时,如5个学生的考试成绩:80、78、70、65、62,这时中位数的位次是(5+1)/2=3,第3个标志值是中位数,即70分。当总体单位是偶数时,如6个学生考试成绩:80、78、70、65、62、60,这时的中位数位次是(6+1)/2=3.5,中位数的位次在第三个标志值与第四个标志值中间,即在70与65之间 ,这时中位数的值(70+65)/2=67.5
(二)对经过汇总的资料计算中位数
??? 1.由单项分组资料求中位数。根据单项分组资料计算中位数的方法与由原始资料计算中位数的计算方法大致相同。表12-3是某村青年文化程度的统计资料。我们先找出中位数的位次,中位数的位次= (n+1)/2=(87+1)/2=44。然后顺着累计次数找到第44个数据在“小学”组内,所以中位数是小学。它指出该村青年以小学文化程度为中心,高于和低于这一中心值的人数各一半,小学文化程度是该村青年文化程度的代表值。

2.由组距分组资料计算中位数。由组距分组资料计算中位数,应先用公式确定中位数所在组的位置,然后再用下限公式或上限公式计算中位数的值。下限公式为
其中:Md为中位数,L为中位数所在组的下限,fm为中位数所在组的次数,cfm-1为中位数所在组以下的累计次数,∑f为累计数,i为中位数所在组的组距。
表14-3? 某村青年文化程度统计表
文化程度 |
人数 |
累计次数 |
文盲
识字
小学
初中
高中 |
6
11
30
20
20 |
6
17
47
67
87 |
合计 |
87 |
|
表14-4? 某工厂工人工资状况统计表
按月工资分组(元)X |
工人数(人)f |
累计数cf |
50-
50—60
60—70
70—80
80—90
90+ |
100
200
400
200
70
30 |
100
300
700
900
970
1000 |
合计 |
1000 |
|
首先确定中位数所在值的位置,得

由观察可知,中位数在第三组内,组下限是60,第三组的次数是400,第三组的组距是70-60=10,第三组以下的累计次数是300。将这些数值代入下限公式

代入上限公式,其计算结果与下限公式的相同。此结果表明,该厂工人的月工资的中等水平为65元,它可代表和说明该厂工人月工资收入的一般水平。
四、众数(Mode)
众数是指在一组数据中重复次数最多的标志值。在描述某一社会现象时,有时不需要计算算术平均值,只要掌握最普遍、最常见的标志值就行了。这时可采用众数。即从单位分析数据资料中计算众数和从组距分组数据资料中计算众数。
(一)从单项分组数据资料中计算众数
例如表12-3中出现次数最多的是小学文化程度,有30人,由此可以确定该村青年文化程度的众数是小学文化程度。
(二)从组距分组资料中计算众数
步对资料进行观察,确定次数最多的组为众数所在组,加在表12-4中,月工资收入在60-70元的职工为400人,在职工总数中占的比重最大,所以确定60-70元这一组为众数所在组。第二步,根据众数组的组距进一步计算众数值。

其中L代表众数所在组的组下限,U代表众数所在组的组上限,那么该厂月工资收入的人众数为

??? 应当注意,计算众数是要一定条件的。只有在总体单位数较多并有明显集中趋势的资料中才能计算众数。如果总体单位少,或总体单位虽多但无明显集中趋势,这种资料不适宜计算众数。如果总体单位足够多,而且又有集中趋势,但最多次数的标志值不是一个而是两个或多个,这时要检查总体单位是否属于同一类型,考虑总体单位的同质性问题。此时往往要重新分组后才能找出众数。
〖概念辨析〗
对于本节最基本的是要搞清简单算术平均数和加权算术平均数的区别:?
简单算术平均数法就是直接由原始数据计算算术平均数的方法。例如,有6个生产小组,人数分别为8人、5人、4人、3人、3人、1人,其算术平均数为


这个公式和计算过程用代数式表示,则为
其中符号X代表算术平均数:X1、X2、…Xn分别代表各个具体的标志数值,n表示总体单位数(即总体中个案的数目),所以n=6,∑表示将各个具体的标志数值相加求和。
加权算术平均数
当使用第二手资料的统计表计算平均数的时候,要用加权平均数法进行计算,其计算公式为

其中f为权数,即变量在总体中出现的次数。
〖重点难点分析〗
1.本节的重点是加权算术平均数的公式及其应用
加权算术平均数的计算,据资料的不同分两种情况,最基本和最重要的是掌握第一种情况即由单项分组资料求算术平均数。
如下表所示,该总体分为六组,各组所对应的权数(f)即家庭数如表第二栏所示:
家庭人口数(X) |
家庭数(f) |
家庭人口数(X)×家庭数(f) |
1
2
3
4
5
6 |
24
275
430
382
210
86?? |
24
550
1290
1258
1050
516 |
合计 |
1407 |
4958 |
现在要计算这1407个家庭的平均人口数。

- 本节的难点是中位数和众数的区别
中位数是把调查到的数据资料按照标志值大小顺序排列,处于中央位置的标志值表示中间位置的平均数,所以也称位置平均数。
众数是指在一组数据中重复次数最多的标志值。在描述某一社会现象时,有时不需要计算算术平均值,只要掌握最普遍、最常见的标志值就行了。这时可采用众数。即从单位分析数据资料中计算众数和从组距分组数据资料中计算众数。而且二者的计算公式的区分也要注意。
练习题:一个以青少年为调查对象的实验,他们的年龄分布为13—19岁。试用中位数、平均数与众数求出31位受访者的实际年龄。
年龄 |
数量 |
13
14
15
16
17
18
19 |
3
4
6
8
4
3
3 |
第三节? 离中量数(离散量数)分析
〖基本内容〗
集中量数能对同质总体做出概括的说明,用以反映数据资料集中趋势的特征和一般水平,但这只考虑了问题的一个方面。数据资料还有分散的一面,即离散趋势的一面。为了揭示数据资料的全面特征,还要计算离中量数,用以说明数据的差异程度。反映数据差异程度的指标叫标志变异指标。
一、离中量数的意义和作用
我们对升入初中二年级的3个班各抽5名同学进行外语测验,他们成绩分别如下:
甲班:68? 69? 70? 71? 72?? X=70
乙班:45? 62? 70? 78? 95?? X=70
丙班:15? 60? 80? 95? 100? X=70
如果仅以平均数作为衡量标准看,三个班的外语水平没有什么差别,但是从实际从数来看,甲班学生的水平整齐一致,乙班学生的水平参错不齐,丙班学生的水平相关悬殊。描述数据离散程度的量数就是离中量数,也称差异量数。离中量数也是一个概括性量值,是研究现象差异程度的概括表现,它的意义在于阐明被研究现象的差异特征。它的作用在于:第一,描述了一组数据的差异情况,使我们对一组数据的全貌有个比较清楚的了解。第二,对集中量数的代表性作了补充说明,差异量数越小,集中量数的代表性越大。
?
二、离中量数的计算
(一)异众比率(Variation Ratio)
异众比率是指非众数的次数与总体内全部总体单位的比率。其计算公式为

其中VR代表异众比率,n是总体内全部总体单位的数,fmo为众数的次数。现将表12-3的资料代入公式,求异众比率

说明87名青年中非小学文化程度的青年占65.6% ,众比率较大,众数代表性小些;还说明这个村子青年的文化程度较分散。异众比率越小,众数的代表性越大。
(二)四分位差
把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数叫四分位数。第一个四分位数(Q1)以下包括了25%的数据,第二个四分位数(Q2)是中位数,第三个四分位数(Q3)以下包括了75%的数据。然后我们舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离中量数,就是四分位差。四分位差的符号用Q表示,其计算公式在定序和定距类型中略有不同。
- 对定序类型资料计算的四分位差。计算公式应是Q= Q3- Q1以表12-3的资料为例,首先要找出Q3的位次,Q3的位次

第66个数据的标志值在“初中”组内,所以Q3值为初中;
第22个数据在“小学”组内,Q1值为小学;那么
Q= Q3- Q1= 初中-小学,这一结果显示了在87名农村青年中,处于中间的50%的人其文化程度在初中到小学之间。四分位差之间的间距越小,中位数的代表性越大。
2.对于定距类型资料计算四分位差。公式是

以表12-4的资料为例,首先要确定Q3和Q1的位次。


所以Q3落在70—80元组内,Q1落在50—60元组内。再求出Q3和Q1的数值,其方法与求中位数大致相同。



这个值告诉我们该厂的1000名工人中,在中间的50%工人中其月工资收入落在57.5 元之间。也就是说,月工资收入在65元±7 .5元的区间包括了该厂工人数目的一半。
(三)标准差(Standard? Deviation)与方差

标准差又叫做均方差,是指资料中各个数值与算术平均数相减之差的平方和算术平均数的平方根。它是用得最多、也是最重要的离中量数,计算公式为

其中Xi 为资料中的各个数值,X为算术平均数,n为总体单位数。
方差为为标准差的平方
根据数据资料的形式不同,标准差分为按原始资料计算和按统计表资料计算两种方法。
1.根据原始资料计算标准差。根据原始资料计算标准差使用上面给出的公式。利用本节开始所给的例子。甲,乙,丙三班学生的平均分都是70分,要判断哪一班的分数的差异小,平均数的代表性程度高就要计算标准差来解决这一问题。




?? 可见这三个班平均数相同,标准差不同。甲班的标准差最小,所以甲班同学的分数差异小,平均数的代表性大。
2.根据统计表资料计算标准差。在统计表资料中,根据资料形式的不同标准差仍分为由单值分组资料计算标准差和由组距资料计算标准差。
(1)由单值分组资料计算标准差。由单值分组资料计算标准差的公式
???

我们仍使用表12-1中的资料。前一节已求出平均数是3.5 人。
列表计算标准差如下。
家庭人数 |
家庭数 |
Xi-X |
(Xi-X)2 |
f(Xi-X)2 |
Xi
1
2
3
4
5
6 |
F
24
275
430
382
210
86 |
-2.5
-1.5
-0.5
0.5
1.5
2.5 |
6.25
2.25
0.25
0.25
2.25
6.25 |
150
618.75
107.5
95.5
472.5
537.5 |
合计 |
1407 |
|
|
1981.75 |


这一结果实际意义是:这个地区的家庭人口相对于家庭平均人口 3.5 人的水平,其标准差是1.19人。

(2)由组距分组资料计算标准差。由组距分组资料计算标准差的公式是
这里的Xmid是指各组的组中值。我们使用表12-2的资料。前一节已经求出它的平均数是 65.3元。
列表计算标准差。
按月工资分组(元)X |
工人数
f |
组中值(元)
Xmid |
Xmid-X |
(Xi-X)2 |
∑f(Xmid-X)2 |
40—50
50—60
60—70
70—80
80—90
90—100 |
100
200
400
200
70
30 |
45
55
65
75
85
95 |
-20.3
-10.3
-0.3
97
19.7
29.7 |
412.09
106.09
0.09
94.09
388.09
882.09 |
41.209
21.218
36
8818
27166
26433 |
合计 |
1000 |
|
|
|
134910 |

这一计算结果说明该工厂工人工资的标准差是 11.6元。
三、全距(R)
??? 全距又称极差,它是一组数中最大值与最小值之差,通常用R表示。
四、相对差异量数
前面讲的差异量数可以直接比较两组数据资料的差异程度,但必须要求两组数据的集中量数大致相同,单位相同,两组数据的总体单相近,才可比较。在实际调查中符合这些条件的资料不多。下面介绍相对差异量数,它不受这些条件的限制。我们主要介绍离散系数和标准系数。
(一)离散系数(Cofficient of Variation)
离散系数是标准差与算术平均数的比值,是一个相对数,所以不受单位的限制。在算术平均数不为零的情况下,离散系数越大,数据的离散程度越大,集中量数的代表性越小;反之,数据离散程序越小,集中量数的代表性越大。离散系数用CV表示,其公式如下:

再例如,某工厂职员的平均工资为70元,标准差为6.5元,而工人的平均工资为60元,标准差6元。从表面上看,职员工资的离散程度大于工人,因为标准差大,但经过计算可以看到工人工资的离散系数大于职员。

(二)标准分数
标准分数的符号是Z,其公式为
 
标准分数的作用主要在两个方面,一是可以表明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较。
1.确定原始数据在总体分布中的位置。如某县的年人均收入为286元,标准差是62元。该县某村的年人均收入为348元,那么该村在全县中的位置怎样?我们计算它的标准分数

我们将标准分数和书后所附的标准正态分布表联系在一起,可以查出Z=1在总体中的相对位置是0.84,也就是说全县有84%的村子其年均收入低于该村,有16%的村子高于该村。这就是它的年人均收入在全县所所处的位置。
2.对不同分布的各原始数据进行比较。如果是不同县的两个村,甲村的情况和上例相同,乙村的年人均收入是275元,但乙村所在的县其年均收入是225元,标准差是25元。从绝对值看,甲村的收入高于乙村,但乙村在该县的相对位置是

通过标准正态分布表可以查出Z=2在总体中的相对位置是0.977。因为Z乙=2>Z甲=1,所以乙村在当地的先进程度比甲村更高。
标准分数能测定相同或不同总体内个案的相对位置,并进行比较,所以是比较分析的有力工具。
〖概念辨析〗
标准差和标准差系数
(1)? 标准差又叫做均方差,是指资料中各个数值与算术平均数相减之差的平方和算术平均数的平方根。它是用得最多、也是最重要的离中量数,计算公式为

其中Xi 为资料中的各个数值,X为算术平均数,n为总体单位数。
(2)标准差系数
标准差系数又叫离散系数是标准差与算术平均数的比值,是一个相对数,所以不受单位的限制。在算术平均数不为零的情况下,离散系数越大,数据的离散程度越大,集中量数的代表性越小;反之,数据离散程序越小,集中量数的代表性越大。离散系数用CV表示,其公式如下:

〖重点难点分析〗
标准差和标准差系数的计算:
注意公式的联系和区别
要计算标准差系数得先计算标准差,因此准确地计算标准差非常重要;
标准差除以算术平均数就是标准差系数。
第四节? 相关与回归分析
在前面的两节中,我们讨论的量数只涉及一个变量的全貌的描述,但在统计分析不仅是描述数量特征,还要进一步探索与揭示事物或现象之间的相互联系和相互作用,这就要对变量进行相关和回归分析。根据变量的多少,相关和回归可分为单相关、一元回归和多元相关、多元回归;根据变量之间的关系所呈现的形式,回归又有线性和非线性回归之分;根据两个变量的测量类型又可分为多种相关系数。本节只介绍两个变量之间的单相关和线性一元回归。
参见教材第317——321页内容。
〖基本内容〗
一、相关分析的意义和测定方法
(一)相关分析的意义和作用
世界各种事物之间的普遍联系是客观存在的,但联系的表现形式却各不相同。这些不同的表现形式大致分两类:一类指事物之间具有完全确定性的关系,称为函数关系。例如圆的面积等于半径的平方乘以π,用代表式表示为S=πR2。另一类指事物之间的不完全确定关系,称为相关关系。例如农作物的产量与施肥量之间的关系,它们之间不具备完全确定的关系,因为农作物的产量不仅受施肥量的影响,还受种子、土壤、雨量、田间管理等一系列因素的影响,施肥量只是诸因素之一,所以农作物的产量和施肥量之间不能用一一对应的函数关系来描述。但农作物的产量和施肥量之间的关系,通过大量观察能够反映出一种大概趋势,即施肥量增加,从一般意义上说农作物产量也相应增加。相关分析要用一个量数表明事物间相互依存的密切关系程度,这个表明关系密切程度的量数称为相关系数。在社会调查资料的分析中测定出两个事物之间密切程度是十分重要的事情。
(二)散点图
当从定性分析上判明两个事物之间有相关关系之后,要先作一张相关图,判明事物间是否成直线相关,然后才能计算相关系数,在相关图中,横坐标代表一个变量,纵坐标代表另一个变量,将各对资料依次用坐标点绘于图上,这个图便称为散点图。
散点图可以说明变量间有无线性相关关系、相关的方向,但不能精确地说明变量之间的密切程度,因此需要计算相关系数来描述两个变量之间关系的密切程度。
表14—5?? 女青年受教育年限和其理想的儿女数目相关计算表
女青年 |
受教育年限
X |
理想女儿数目
Y |
XY |
X2 |
Y2 |
A
B
C
D
E
F
G
H
I
合计 |
2
2
3
3
4
4
5
6
8
37 |
5
4
4
3
2
1
1
1
0
21 |
10
8
9
9
8
4
5
6
0
62 |
4
4
9
9
16
16
25
36
64
183 |
25
16
16
9
4
1
1
1
0
73 |
以女青年受教育年限为X轴,生育意愿(理想儿女数目)为Y轴,其散点图如15—1所示。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
B |
C |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
D |
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
E |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F |
G |
H |
|
|
|
|
|
|
|
|
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9I |
10 |
11 |
12 |
X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
图15—1:散点图
从上图查以看出,图形大致呈直线状态,而且变量X有数值增大时,Y变量数值减少,我们称之为负相关,也就是说当女青年受教育年限增长时,她们理想的儿女的数目就降低。
表15—6:六种散点图对应X与Y相关特征列表
图形 |
变量X |
变量Y数值 |
散点图坐标点
分布呈现特征 |
相关特征 |
1 |
增大 |
也显著增大 |
窄带状 |
强正相关 |
2 |
增大 |
也增大 |
宽带状 |
弱正相关 |
3 |
增大 |
显著减少 |
窄带状 |
强负相关 |
4 |
增大 |
大致下降 |
宽带状 |
弱负相关 |
5 |
增大 |
先开始增大后又下降 |
|
非线性相关 |
6 |
任意 |
任意 |
散乱,无规律 |
没有或相关极弱 |
(三)相关系数的计算方法
相关系数是表明变量间关系密切程度的量数。它的符号是R,取值范围在-1到+1之间。如果R=-1,那么是完全负相关;如果R=1,则是完全正相关。这两种情况都属于函数关系。如果R=0,则无相关。R是负值,说明随着X变量增大,Y变量减小,两变量变化的方向相反;R是正值,说明随着X变量的增大Y变量也随之增大,两变量变化的方向相同。如果R的绝对值介于0.7-1.0之间,可以认为X与Y之间具有高度相关;介于0.3-0.7之间可以认为两变量之间具有中度相关;介于0-0.3之间则认为是低度相关。相关系数计算公式是

其中n为总体单位数目。将表15-5的合计数代入公式

这个结果说明,这9名女青年的受教育年限与理想子女数目之间的相关数为-0.89,属于高度相关,受教育年限越多,理想子女数目越少。
二、回归分析的意义和作用
(一)回归分析的意义和作用
相关分析的目的在于了解两个变量之间的关系密切程度,不涉及两个变量间在无因果关系。从本质上说,相关分析中介对客观事物的一种描述。回归分析是对有相关关系的对象,根据关系的形态选一合适的数学模型来近似地表达变量间平均变化关系。这个数学模型称为回归方程式。从本质上说回归分析具有推理的性质,作为结果的变量为因变量,作为原因的变量为自变量。用Y来表示因变量,用X来表示自变量。这种因果关系的确定依赖于事先的定性分析。相关分析中两个变量的关系是双向的,而回归分析是单向的,就是指这种因果关系不能颠倒。回归分析比相关分析前进了一步,增加了因果性,有了预测功能,因此它的作用也大于相关分析。
(二)一元回归模型和计算
回归计算的目的就是找出一条最佳的直线,使它与实际数值的偏差为最小。这条最佳回归线可以用数学方程式表示为:Y=a+bX,这也就是常说的数学模型。其中a和b是待定系数,a为直线在Y轴上的截距,b为直线的斜率,也称回归系数,a和b一旦确定,直线也就确定了。最佳回归直线是根据最小平方法计算的,其标准方程是
∑Y= na+b∑X
∑XY=a∑X+b∑X2
由方程组可以解出

a=Y-bX
将表12-5的合计数值代入此式

a=Y-bX=2.33-(-0.79) ×4.11=5.58
由b和a的数值可以写出回归方程式为
Y=5.58-0.79X
这个回归方程式可以对受教育年限不同的女青年的理想儿女的数目进行预测,X增加1年,Y相应地减少0.79人。
如果X=3,那么Y=5.58-0.79×3=3.21
如果X=5,那么Y=5.58-0.79×5=1.63
(三)相关关系和回归分析的及应注意的几个问题
1.相关是回归的必要条件,也就是说有相关关系未必有回归关系,无相关关系必无回归关系,之所以有相关关系未必有回归关系,是因为这两个事物虽有密切关系,但不是因果关系。
2.相关关系不仅可以说明变量之间关系的密切程度,还可以度量回归议程对实际资料的拟合优度。
3.应用回归方程进行预测时,不能使用超出资料所包括范围的自变量数值。
4.预测的回归方程只能反映一定时期内事物间的相互关系,随着时间的推移,这种关系会起变化。
〖概念辨析〗
相关关系和函数关系
相关关系是指事物之间的不完全确定的关系,即关系数值不确定的依存关系。例如农作物的产量与施肥量之间的关系,它们之间不具备完全确定的关系,因为农作物的产量不仅受施肥量的影响,还受种子、土壤、雨量、田间管理等一系列因素的影响,施肥量只是诸因素之一,所以农作物的产量和施肥量之间不能用一一对应的函数关系来描述。但农作物的产量和施肥量之间的关系,通过大量观察能够反映出一种大概趋势,即施肥量增加,从一般意义上说农作物产量也相应增加。
事物之间具有完全确定性的关系,称为函数关系。例如圆的面积等于半径的平方乘以π,用代表式表示为S=πR2。
〖重点难点分析〗
相关分析和回归分析的关系
相关关系是指事物之间的不完全确定的关系,即关系数值不确定的依存关系。例如农作物的产量与施肥量之间的关系,它们之间不具备完全确定的关系,相关分析要用一个量数表明事物间相互依存的密切关系程度,这个表明关系密切程度的量数称为相关系数。??
回归分析是对有相关关系的对象,根据关系的形态选一合适的数学模型来近似地表达变量间平均变化关系。这个数学模型称为回归方程式。从本质上说回归分析具有推理的性质,作为结果的变量为因变量,作为原因的变量为自变量。用Y来表示因变量,用X来表示自变量。这种因果关系的确定依赖于事先的定性分析。相关分析中两个变量的关系是双向的,而回归分析是单向的,就是指这种因果关系不能颠倒。回归分析比相关分析前进了一步,增加了因果性,有了预测功能,因此它的作用也大于相关分析。
相关分析是回归分析的前提,回归分析是相关分析的继续。在明确了两个现象之间有相关分析的条件下,才有必要进行回归分析。
第五节 推论统计
〖基本内容〗
推论统计研究如何将样本的统计值推论为总体的参数值。在社会调查中我们很少作普查,更多地是做抽样调查,所描述分析的资料也多是样本资料。对样本资料的计算分析是描述性统计,如前几节讲的集中量数、离中量数、相关量数、回归量数。但抽样调查的目的是样本特征对总体作出结论,这就是推论统计。推论统计通过样本的各种量数(我们称为统计值)估计总体与之对应的各种量数(我们称为参数值)推论统计主要有两种方法,即区间估计和假设检验。
一、区间估计
区间估计就是在一定的标准差范围内设立一个置信区间,然后联系这个区间的可信度将样本统计值推论为总体参数值。
(一)区间估计的概念
区间估计是用区间形式给出未知数的估计值范围。例如在抽样基础上得到一个结论:某市居民年人均收入约在750—850元之间,这便是一个区间估计。
(二)总体均值的区间估计方法
1.总体平均数的区间估计。总体平均数区间估计的公式是


其中:X是样本平均数Z(1-a)是置信度的Z值数值,下标(1-a)是置信度,S是样本的标准差; n为样本数目。
我们仍结合表12-2的资料,调查某厂工人的工资状况,随机抽取400名工人作为样本。经过统计,该样本的工人月平均工资为64.5元,标准差是12元。如果置信度为0.95,问全厂职工的月平均工资的置信区间是多少?

故总体平均数的置信区间是
64.5±1.96×0.6,即63.32—65.68元
这个计算结果表明,这一样本的区间估计有95%的机会将全厂工人月工资的平均数包含在63.32—65.68元之间。事实也证明全厂工人月平均工资的平均数确实在这个区间之内。

2.总体百分比的区间估计。在抽样调查中也可以以样本中的百分比来推论总体内相应的百分比。其方法和平均数的估计方法完全相同,只是标准误差的计算其特定的内容和形式。
其中P是样本中的百分比。
例如调查某市青年工人中参加电视学校、函授等业余学习的人数百分比。随机抽取了80位青 做调查,结果是有65%的青工参加业余学习。现在想据此对总体百分比进行估计,确定可信度为95%。将此资料代入公式:


故总体百分比的置信区间是:
0.65±1.96×0.053,即55%—75%
该结果表明,该市青年工人参加业余学习的人数比例在55%到75%之间。也就是说,总体内学习人数比例落在55%到75%之间的可能性是95%。
二、假设检验
假设检验是推论统计的另一种主要方法。所谓假设检验就是先对总体的某一参数作一假设,然后用样本统计量去验证,以决定假设是否为总体接受。
(一)假设检验的概念
假设检验是先对总体的某一参数或两变量相关程度作一假设,然后用样本的统计值去验证,以决定假设是否为总体接受。
(二)总体均值的假设检验方法
1.总体平均数的检验方法。只要样本数大于30个案的都使用Z检验法,社会调查一般都是大样本。均可使用此法。下面以例说明。
例? 某工厂上月工人奖金的平均数是65.3元,本月调查了400名工人,平均奖金是64.5 元,标准差12元,本月奖金与上月相比是否有变化?
第一步,先建立虚无假设(用H0表示)和研究假设(用H1表示)。虚无假设是本月奖金与上月奖金相比无变化,即H0:=65.3,研究假设与之对立,是本月奖金与上月奖金相比有变化,即H1:μ≠65.3。
第二步:选择显著性水平,显著性水平取a=0.05,由于H1用的是“≠”号,所以是两端检验。查标准正态分布表Z0.05/2=1.96,Z0.05/2表示两端检验下0.05 显著性水平的临界值。
第三步:根据样本数据计算统计值,其公式为

 
其中X为样本平均数; 为虚无假设的总体平均数;S为样本标准差;n为样本容量。将有关数据代入公式得
第四步:将统计值的绝对值与临界值相比较,然后做出判断。Z=1.33< Z0.05/2=1.96,所以拒绝研究假设,接受虚无假设,即从总体意义上讲本月奖金的平均数与上月奖金的平均数没有变化。
2.检验总体百分比的检验方法。其方法与总体平均数的检验方法相同。只是标准误差的计算有其特定的内容和形式。下面以例说明。
例? 调查职工对现在居住环境是否更加满意。抽查了157百分比(去年只有58%的职工表示满意)。(显著性水平a=0.05)。
第一步:建立假设,虚无假设是没有变化,即H0:P=58%;研究假设则认为有变化,表示满意的超过了58%,即H1:P≥58%。
第二步:确定临界值,由于研究假设是有方向的,用了“≥”号,所以选择一端检验。查标准正态分布表得:Z0.05=1.65。
第三步:根据样本数据计算统计值,其公式为

其中P为样本的百分比,P为虚无假设的百分比。N为样本容量,将有关数据代入公式得

?第四步:将统计值与临界值比较,然后作出判断。

所以拒绝虚无假设,接受研究假设。即认为目前职工对居住环境更加满意了,超过了去年只有58%的职工表示满意这个百分比。
以上的简单介绍只能作为进一步学习的基础知识。当使用统计分析方法时,还需进一步参考有关资料和教科书。应当强调的是数据资料必须和具体情况有机地结合才能深刻反映事物的本来面目。定量分析方法必须和其他分析方法结合才能起到应有作用,否则定量分析将变成一场数学游戏。
〖概念辨析〗
区间估计和假设检验
区间估计是用区间形式给出未知数的估计值范围。
假设检验是先对总体的某一参数或两变量相关程度作一假设,然后用样本的统计值去验证,以决定假设是否为总体接受。
〖重点难点分析〗

总体平均数的区间估计。总体平均数区间估计的公式是
其中:X是样本平均数Z(1-a)是置信度的Z值数值,下标(1-a)是置信度,S是样本的标准差; n为样本数目。
第六节 统计软件简介
一、SPSS统计软件
1、软件开发简介
SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。1968年,美国斯坦福大学H.Nie等三位大学生开发了最早的SPSS统计软件,并于1975年在芝加哥成立了SPSS公司,已有30余年的成长历史,全球约有25万家产品用户,广泛分布于社会调查统计、通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。1994至1998年间,SPSS公司陆续购并了SYSTAT公司、BMDP公司等,由原来单一统计产品开发转向企业、教育科研及政府机构提供全面信息统计决策支持服务。伴随SPSS服务领域的扩大和深度的增加,SPSS公司已决定将其全称更改为Statistical Product and Service solutions(统计产品与服务解决方案)。
目前,世界上最著名的数据分析软件是SAS和SPSS。SAS由于是为专业统计分析人员设计的,具有功能强大,灵活多样的特点,为专业人士所喜爱。而SPSS是为广大的非专业人士设计,它操作简便,好学易懂,简单实用,因而很受非专业人士的青睐。此外,比起SAS软件来,SPSS主要针对着社会科学研究领域开发,因而更适合应用于教育科学研究,是国外教育科研人员必备的科研工具。1980年,中国社会学会首次推广了这种软件,从此成为国内社会科学研究人员最常用的统计分析工具。
2、SPSS软件的特点
①集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。从理论上说,只要计算机硬盘和内存足够大,SPSS可以处理任意大小的数据文件,无论文件中包含多少个变量,也不论数据中包含多少个案例。
②统计功能囊括了《社会统计学》中所有的项目,包括常规的集中量数和差异量数、 相关分析、回归分析、方差分析、卡方检验、t检验和非参数检验;也包括近期发展的多元统计技术,如多元回归分析、聚类分析、判别分析、主成分分析和因子分析等方法,并能在屏幕(或打印机)上显示(打印)如正态分布图、直方图、散点图等各种统计图表。从某种意义上讲,SPSS软件还可以帮助数学功底不够的使用者学习运用现代统计技术。使用者仅需要关心某个问题应该采用何种统计方法,并初步掌握对计算结果的解释,而不需要了解其具体运算过程,可能在使用手册的帮助下定量分析数据。
③自从1995年SPSS公司与微软公司合作开发SPSS界面后,SPSS界面变得越来越友好,操作也越来越简单。熟悉微软公司产品的用户学起SPSS操作很容易上手。SPSS for Windows界面完全是菜单式,一般稍有统计基础的人经过三天培训即可用SPSS做简单的数据分析,包括绘制图表、简单回归、相关分析等等,关键在于如何进行结果分析及解释,这一方面需要学习一些数理统计的基本知识,另一方面也要多进行实践,在实践中了解各种统计结果的实际意义。
3、SPSS的版本与应用环境
从SPSS/PC+ V2.0~V4.0为DOS版;从SPSS/PC V6.0~V10.0为Windows版。
运行SPSS的Windows10.0版(单机版),要求P2以上的PC机和1G以上硬盘(32M内存、68M硬盘储存空间和32M以上预留空间);中文Win95/98/2000平台。
国内SPSS正版(WINDOWS英文单机版)价格约12000元(RMB/2001年);网络版约为单机版的10倍以上。台湾有SPSS的中文版,中国大陆尚无。
SPSS现在已升级到了12.0最新版本。SPSS的内容不断更新和增加,模块越来越多,系统越来越复杂,功能也越来越强大。
4、SPSS软件的结构与功能
SPSS的结构非常复杂。它是一个由众多模块组成的大系统,每一个模块又是一个由实现众多功能的计算机程序组成的相对独立的小系统。在初期,SPSS的组成模块较少,随着版本不断升级,组成的模块也越来越多。这种模块式的结构有两大好处:其一,便于增加新内容,一旦出现新的统计方法,就可在保持整体结构相对稳定的前提下,尽快将新内容嵌人有关模块或增加新模块;其二,便于消费者有选择地购买模块,不同的消费者需要不同的模块,需要多少模块购买多少,不必购买全套软件。
SPSS各模块的功能是相互支持的,它们共同形成一个完整的整体。在数据处理方面,SPSS软件主要有以下几个方面的功能:
(1)建立和管理数据文件的功能。这是SPSS软件的基本功能之一,包括建立变量字典,录人数据形成数据文件,数据的编辑,以及与其他计算软件共享数据等功能。
(2)加工和处理数据文件的功能。它包括如下具体功能:①数据文件的整理,包括个案排序、个案选取飞数据文件合并、数据文件转置等功能。②数据加工,包括变量转换、变量重新编码、产生计数变量、数据分类汇总、数据分组(自动分组与手工分组)等功能。
(3)处理数据文件的其他功能。如变量加权、定义与使用变量集等。
(4)制表、绘图和打印等功能。它可以制作各种统计表、统计图,并把它们打印出来。
(5)统计功能。SPSS能完成从描述统计到推断统计,从单变量分析、双变量分析到多变量分析的所有统计分析工作。
SPSS几乎可以用菜单操作实现其全部功能,同时又具有非常强大的编程功能。如果把两方面结合起来,则达到更加完美的境界。
,
4.用SPSS软件进行统计分析的步骤
使用SPSS进行统计分析,可按如下步骤展开工作。? ,? ·
第一步:录人数据,建立数据文件。录人数据可直接在SPSS提供的电子表格中进行,也可以借助其他软件(如Foxbas、Excel等)进行,SPSS可以与其它软件进行数据交换。如果是用非SPSS软件(只能在SPSS规定的软件范围选用)制作的数据文件,读人SPSS软件后存为SPSS自己的数据类型文件。
第二步;借助SPSS的有关功能对数据进行清理,如通过做变量的频数(Frequency)发现问题,然后校正数据的错、漏之处等。
第三步;通过执行有关命令如Explore等,对数据的整体状况做出评估。
第四步;根据研究需要或数据分析的要求,使用SPSS的有关程序进行加工处理,如进行变量转换、变量的重新编码、制作新的变量、对数据进行分组等。
第五步:根据研究所要达到的目的,启动SPSS的有关统计程序,进行统计分析,包括单变量分析、双变量分析和多变量分析。
SPSS是一个统计功能十分强大的软件,虽说入门比较容易,但要精通它充分发挥它在统计分析方面的各种功能,却是一件需要花费相当大的精长时间努力才能办到的事情。这里,只是对SPSS作简单的介绍,要真SPSS进行数据分析,还必须学习有关SPSS的专业书籍。
二、其他统计软件简介
统计软件很多,除SPSS外,目前比较流行的还有SAS、BMDP、SYSTAT、STAT、STATISTICA、LISREL、AMOS,以及具有较强统Office组合软件Excel等。现简略介绍两种常见的统计软件。
1、SAS统计软件
SAS是StatisticalAnalysisSystem的英文字母缩写。SAS软件系1966年由美国北卡罗来纳州立大学推出,1976年成立美国SAS软件研究。1985年推出SAS/PC(6.02)版,1989年升级为SAS/pc(6.04)版,1997年推出适合于多种操作系统的6.12版,2002年升级为最新的SAS8.0版。
SAS是与SPSS齐名、在某些方面或领域甚至比SPSS名气更大的统计软件。SPSS一直追求菜单式操作的大众化风格。SAS则不同,它一直强调编程统计分析为主,而且在技术上确有过人的独特之处,因而在国外被认比SPSS层次更高、更专业化的统计软件系统。
2.OFFICE中的EXCEL
略见课本P329页。
向上>>
上一章 量表与测验法
下一章 观察法
|