数据预处理
数据预处理实在对数据分类或分组前所做的必要的处理,可以包括数据审核
,数据筛选
,数据排序
等。
数据审核
- 原始数据审核-注重完整性和准确性
- 二手数据审核-注重适用性和实效性
数据透视表
在预处理时,数据透视法可以从复杂数据中提取有用信息。
品质数据的整理
预处理后对品质数据主要做分类处理
分类数据
分类数据根据数据类别展示,展示内容有多种形式,其中重要形式有:
- 频率--落在某一特定类别或组中的数据个数。
- 频率分布-把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。
- 比例--也称构成比,它是一个样本中各个部分的数据与全部数据之比。
- 百分比--用比例
*100
得到的数称为百分比。用%
表示。
- 百分比--用比例
- 比率--样本中不同类别数据之间的比值,比值可能
大于1
。
注意
比例
与比率
的区别
顺序数据
顺序数据中常用到一个叫累计频率
的概念,其可分为:
- 向上累计频率--从类别顺序的开始到最后,从数值型分组数据的变量值小的到变量值大的
- 向下累计频率--从类别顺序的最后到开始,从数值型分组数据的变量值大的到变量值小的
数值型数据的整理
预处理后对数值数据主要做分组处理
,目的是观察数据的分布特征。
分组方法
- 单变量分组--针对于离散值
- 组距分组--针对于连续值
分组步骤
- 确定组数--根据经验法则:
5<=组数<=15
- 确定各组间组距
- 引申概念:组中值--为掩盖各组内数据分布情况,反映各组数据一般水平,提出组中值。
前提
是本组呈现均匀分发布或组中值两侧呈堆成分布。
- 引申概念:组中值--为掩盖各组内数据分布情况,反映各组数据一般水平,提出组中值。
- 根据分组编制编制频数分布表
组距说明
组距=(最大值-最小值)/ 组数
组距通常取5的倍数或10的倍数,可以根据 第一组
下限应低于最小值变量,最后一组
上线应高于最大值变量的规则来取倍数
分组注意事项
- 不重不漏,其中为了数据不重,有3种方式:
- 上组限不在组内 ,数学表达即
a<=任意组中值<b
。
- 对于
离散变量
还可以采用相邻两组组限间断的办法。
- 对于
连续变量
,可以人为增加小数点数的办法。
- 上组限不在组内 ,数学表达即