盒子
盒子

数据分析の数据处理

##定义

数据处理是根据数据分析目的,将收集到的数据,用适当的处理方式进行加工
整理成数据分析要求的样式。
它是数据分析前必不可少的工作,并占据数据分析工作量的大部分比例

数据处理包括数据清洗、数据抽取、数据合并、数据计算、数据分组等操作。

##数据变量

变量就是我们常说的字段,在数据库中,称为字段;在统计学中,称为变量。常用的数据类型有字符型数据、数值型数据、日期型数据。

##变量尺度

在统计学中,按照对事物描述的精准程度,将采用的测量尺度从低到高分为四个层次:定类、定序、定距、定比。

1.定类尺度定类尺度是对事物类别或属性的一种测度。定类变量的特点是其值只能代表事物的类别和属性,不能比较各类别之间的大小,例如性别、职业两个变量。使用“名义N”来表示定类尺度。

2.定序尺度定序尺度是对事物之间等级或者顺序的一种测度。其计算结果只能排序,不能进行算术运算,例如学历、职级两个变量。使用“序列O”来表示定序尺度。

3.定距尺度定距尺度是对事物次序之间间距的一种测度,只可进行加减运算,不可进行乘除运算。它不仅能够对事物进行排序,还能准确计算次序之间的差距是多少,例如温度、时间两个变量。

4.定比尺度定比尺度是测算两个测量值之间比值的一种测度。它能够进行加减乘除运算,例如收入、用户数两个变量。定比尺度与定距尺度最大的区别是它有一固定的绝对“0”值,而定距尺度没有。在定距变量中“0”不表示没有,只是一个测量值;而在定比变量中“0”就是表示没有。
定距尺度和定比尺度在绝大多数统计分析中没有本质上的区别,通称为“度量S”。

##数据清洗

将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
(清余、补缺、纠/删错)

##数据抽取

数据抽取也称为数据拆分。是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。主要方法有字段拆分和随机抽样。
随机抽样方法主要有简单随机抽样、分层抽样、系统抽样等。

##数据合并

数据合并,是指综合数据表中某几个字段的信息或不同的记录数据,组合成一个新字段、新记录数据。
主要有两种操作:字段合并、记录合并。
字段合并,是将某几个字段合并为一个新字段。
记录合并,也称为纵向合并,是将具有共同的数据字段、结构,不同的数据表记录信息,合并到一个新的数据表中。

##数据分组

数据分组,根据分析的目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。

##数据标准化

将数据按比例缩放,使之落在一个特定区间。
数据标准化就是为了消除量纲(单位)的影响,方便进行比较分析。
常用的数据标准化方法有0-1标准化和Z标准化。
0-1标准化也称离差标准化,它是对原始数据进行线性变换,使结果落到【0,1】区间。
Z标准化也称标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

转载自
作者:黄成甲
链接:https://www.jianshu.com/p/77418198ce6a
来源:简书

支持一下
扫一扫,支持freedom