EDA.md 2.2 KB

探索性数据分析(Exploratory Data Analysis, EDA)

探索性数据分析是根据数据寻找规律、发现问题的过程。面对数据,实现并没有一个确定的目标,也没有确定的分析方法。对于数据中包含的信息事先是不知道的。探索性数据分析是数据驱动的,数据本身蕴含的规律是不知道的。探索性数据分析是发散的,没有一个固定的目标。探索性数据分析使用的方法主要有数据变换、数据可视化、数据建模。通过这些过程观察数据的特征,提出问题。探索性数据分析所使用的方法是已知的,试探性的,枚举的。根据这些方法产生具体的方法,再去验证。有些想法可能成功,有些会失败。

探索性数据分析的任务是理解数据。一个事物的变化,从内部演化的角度看,是辩证逻辑的推演过程,从外部环境来看,是一定的变异因素作用的结果。由于这些因素的自身变化,表现在观测变量上数值的变异。科研的对象常常是后者。

探索性数据分析还要与试验设计相结合。

数据结构

变量
单变量和多变量

试验或数据只有一个变量的数据集,比如棉花的变异(农业试验统计),一次观测多个特征的叫做多变量数据集。变量和记录组成一个两向表,一般用行表示记录,列表示变量。

设计变量和观测变量

变量,变量有设计变量和观测变量,设计变量是实现设计好的,变量有确定的含义,变量的值确定而可控。设计变量的值由试验决定,如施肥量、播种密度。设计变量可以看作系统的输入。观测变量的值由目标系统给出,如作物的产量、生育期等,其数值不是我们实现规定好的,而是观测到的。观测变量可以看作系统的输出。

变量的结构

设计变量的结构也是事先确定的,如单因素试验、随机区组试验、层次试验、拉丁方试验、正交试验等。变量之间有着确定的关系。

观测变量之间的关系是通过数据分析得到的。

探索性数据分析之前,首先要弄清楚变量结构。

变量的分布