数据预处理

数据预处理实在对数据分类或分组前所做的必要的处理,可以包括数据审核,数据筛选,数据排序等。

数据审核

  • 原始数据审核-注重完整性和准确性
  • 二手数据审核-注重适用性和实效性

数据透视表

在预处理时,数据透视法可以从复杂数据中提取有用信息。

品质数据的整理

预处理后对品质数据主要做分类处理

分类数据

分类数据根据数据类别展示,展示内容有多种形式,其中重要形式有:

  • 频率--落在某一特定类别或组中的数据个数。
    • 频率分布-把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。
  • 比例--也称构成比,它是一个样本中各个部分的数据与全部数据之比。
    • 百分比--用比例*100得到的数称为百分比。用%表示。
  • 比率--样本中不同类别数据之间的比值,比值可能大于1

注意比例比率的区别

顺序数据

顺序数据中常用到一个叫累计频率的概念,其可分为:

  • 向上累计频率--从类别顺序的开始到最后,从数值型分组数据的变量值小的到变量值大的
  • 向下累计频率--从类别顺序的最后到开始,从数值型分组数据的变量值大的到变量值小的

数值型数据的整理

预处理后对数值数据主要做分组处理,目的是观察数据的分布特征。

分组方法

  • 单变量分组--针对于离散值
  • 组距分组--针对于连续值

分组步骤

  1. 确定组数--根据经验法则:5<=组数<=15
  2. 确定各组间组距
    • 引申概念:组中值--为掩盖各组内数据分布情况,反映各组数据一般水平,提出组中值。前提是本组呈现均匀分发布或组中值两侧呈堆成分布。
  3. 根据分组编制编制频数分布表

组距说明

组距=(最大值-最小值)/ 组数
组距通常取5的倍数或10的倍数,可以根据 第一组下限应低于最小值变量,最后一组上线应高于最大值变量的规则来取倍数

分组注意事项

  • 不重不漏,其中为了数据不重,有3种方式:
    1. 上组限不在组内 ,数学表达即 a<=任意组中值<b
      nol-1
    2. 对于离散变量还可以采用相邻两组组限间断的办法。
      nol-2
    3. 对于连续变量,可以人为增加小数点数的办法。
      nol-3

品质数据和数值型数据的展示

chart