第二章简单统计描述分析

发布 2019-06-01 04:45:15 阅读 1889

第二章单变量和双变量统计描述分析。

第一节单变量统计描述基本技术。

一、 变量的计量尺度/层次。

1、定类变量——最低层次的变量类型。只有类别属性之分,无大小程度之分。根据变量值,只能知道研究对象的异同。从数**算特性来看,定类变量只有等于或不等于的性质。

2、定序变量——层次高于定类变量。取值除类别属性外,还有等级、次序之分。数**算特性除等于或不等于外,还有大于或小于。

3、定距变量——层次高于定序变量。取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。数**算特性除等于不等于,大于小于之外,还可以加减。

如收入,以1元为标准化距离,则2000元比1500元多了500元。

4、定比变量——最高层次变量。除了上述三种属性外,可以进行乘除运算。

1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。

2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。高层次变量可以降低层次来使用。一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。

二、基本技术。

1、次数分布(定类)——针对定类变量。

最基本的统计分析方法。面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。

定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。

次数分布可简化资料,但不能比较样本,因为样本量不同。

2、比、比例和比率(通常保留一位或两位小数)

比:某两类的次数相除,如性别比=男性/女性。

比例:某类次数除以总数,老年人口比例=老年人口数/总人口数×100%

比率:某一确定变量相对应的某些事件发生的频率。分子和分母不存在隶属关系,有时是不同的变量,如人均gdp,患病率。

3、累加次数和累加百分比(定序和定距)

累加次数就是把次数累加起来,分为向上累加和向下累加。作用:知道某值以下或以上的次数总和。累加百分比同理。

4、定距层次的特殊处理。

定距变量的取值很多,难以计算每个值的次数和百分比,需分组测量。

组限:上限和下限。组距:上限和下限之差。组中值:上限和下限的平均数。

如何分组?要考虑几个问题:1、组数太少会掩盖变量变动时频次的变化。

组数太多会是每组内频次过少,增加偶然因素,使各组高度参差不齐,看不出规律。2、等距分组和不等距分组。通常用等距分组,但有时不等距分组能更好反映现象本质,如收入1000元和2000元的职工生活水平差距较大,而5000和6000元之间差距较小。

5、统计图。

饼图:多用于定类变量,因为表示变量取值在总体中占的比例,而不管取值的排序。

条形图:用长条的高度表示变量类别的次数或百分比,宽度无意义,一般画成等宽长条,用于定类变量和定序变量。

直方图:仅用于定距变量。以长条面积表示频次或相对频次,条形高度表示频次密度(单位组距包含的频次)或相对频次密度,宽度是组距。

为何用频次密度而非频次作为条形高度?因为非等距分组情况下,频次作为条形高度会产生错误,每一组的相对比例不一致。例如:

根据频次来比较,得出错误结论:40-50岁结婚的人比26-27岁结婚的人多。

频次密度=频次/组距;相对频次密度=相对频次/组距。

30人/27-26=30(人/岁) 35人/50-40=3.5(人/岁)

可见,26-27岁结婚的频次密度远大于40-50岁结婚的频次密度。

折线图:如果用直线联结直方图中条形顶端的中点,则得折线图。

组距减小,线条越平滑,最终成为曲线。社会学研究常见曲线如j形曲线、u形曲线、峰状曲线(单峰、双峰、多峰)、对称和不对称曲线(正态和偏态、右偏/正向偏和左偏/负向偏)。以正态、单峰图形最为常见。

第二节集中趋势测量法。

用一个典型的变量值来代表全体变量,这个值就称为集中值或集中趋势。用这个值估计或**变量肯定有误差,但是这些数值是最具代表性的,所以用这个集中值来估计或**变量所产生的误差最小。

一、众数(定类变量)

用频数最多的变量值来表示变量的集中值。适合任何层次的变量,只要知道频次分布,就能找到众值,定距变量可以用频次密度最高的组的组中值来表示众值。

二、 中位数(定序变量)md

位于最中间的变量值,将观察总数一分为二,其中一般比它小,一半比它大。

1、根据原始资料求中位数。

n为奇数时,中位数位于(n+1/)2的地方。

n为偶数时,取居中位置左右两数的平均值。

2、根据分组资料求中位数。

公式1:中位数=中位数组下限+(n/2-低于中位数组下限的累积次数)/中位数组次数×组距。

中位数需要数据排序,不适合定类变量,适合于定序变量和定距变量,特别是对分布不规则的情况,中位数比较理想。

三、均值(定距变量和定比变量)

1、根据原始资料求平均数=∑xi/n

2、根据频次求平均数= =

3、用分组资料求平均数:将xi替换为组中值。

四、众数、中位数和均值的关系。

众值:主要适用于定类变量,也可用于定序和定距变量。

中位数:主要适用于定序,也适用定距变量。

平均数:主要适用于定距变量。

统计方法中,平均数最常用。对于定序变量可求平均等级;对于定类变量,可赋予每类一个数值:男为1,女为0,则男性占总体比例就是特殊的均值。

虽然平均数对资料利用最充分,但对于严重偏态的数据分布,会失去应有的代表性。

习题:1、已知美国20世纪90年代的人口自然增长率:

计算以下年间的平均人口自然增长率:

1)1990-1993年的前四年间(7.5%)

2)1994-1999年的后六年间(6.2%)

3)1990-1999年十年间(6.7%)

4)如果原始数据丢失,只知道前四年和后六年的平均增长率,能否计算出10年间的平均增长率?如何计算?(7.5%×4+6.2%×6)/10=6.7%

第三节离散趋势测量法。

一、极差和内距。

1、极差。最大值与最小值的差。最容易计算,但只告诉分布范围,受极端值的影响很大,不可靠。

2、内距/四分位数间距。

也叫四分位差,将数据从小到大排序后,用三个四分位数点q25q50q75将其分为四部分,q75 和q25的间距就是四分位差。

例题:q25=159.5+10(25-20)/48=160.54

q75=169.5+10(75-68)/32=171.69

q75 -q25=171.69-160.54=11.15

二、均方差。

均方差是对分布的离散程度较全面的度量。为了衡量所有数据偏离其平均值的程度,可以先考虑每个观测值偏离平均值的偏差。但是由于偏差有正有负,相互之间会抵消,最终偏差平均为零,因而要将所有偏差作平方,然后再求平均才有意义。

公式2:均方差msd=1/n∑(x-)2

公式3:均方差msd=1/n∑(x-)2f(频次表),如果分组资料,x为每一观测值的中点。

三、方差(variance)标准差(standard deviation)

由于某些技术上的原因,习惯上将公式2中的n换成n-1,得到了方差s2。

公式4:s2=(1/n-1)∑(x-x)2

公式5:s2=(1/n-1)∑(x-x)2f(频次资料)

方差的平方根=标准差s。通过取平方根,标准差的单位就和原始数据的单位一致了。

方差和标准差反映的是数据对其平均值的离散程度,因此标准差/方差较小的分布一定比较集中在均值附近,反之比较离散。

举例计算:如何利用msd计算s2?根据公式3和公式4的关系,可知s2=(n/n-1)msd

四、极差、四分位差和标准差的比较。

一般来说,样本均值x是对分布中心最常用的度量,而样本标准差s是对分布形状最常用的度量。

第二章工作分析

序列是工作中专业性质相近的岗位组合,以岗位工作性质和能力素质要求为主要依据,将同类职位分类归并而成,这些职位要求任职者具备的素质要求相同或相关,承担的责任和功能相似或相同 简单的序列划分,比如可以分为营业序列 市场序列 技术序列 生产序列 职能序列等 层级是责任大小 难易程度相近的岗位组合,体现不同...

STATA第二章描述性统计命令与输出结果说明

本节stata 命令摘要。资料特征描述 均数,中位数,离散程度 例 某地测定克山病患者与克山病健康人的血磷测定值如下表。其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测定值,分组变量group 0表示患者组和group 1表示健康组 如 患者组中...

第二章广告环境

对广告的宏观环境进行分析,可运用pest分析。pest分析是指对政治 political 经济 economic 技术 technological 和社会 social 这四大类影响组织或企业的主要外部环境因素进行分析。主要包括以下内容 一般情况下,人口规模与需求成正比。人口的数量越大,所形成的市场...