【摘】数据科学过程

数据清洗是如何融入数据科学中的呢?简短的回答就是,清洗工作是关键的一步,它直接影响在它之前和之后的处理工作。

稍微长一些的回答就得围绕数据科学过程的六个步骤来描述了,请看下面的列表。数据清洗正好处于中间的位置,第三步。但是,请不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架,其实在项目的迭代过程中,们会根据具体情况,反复执行这些步骤。另外还需要指出的是,并不是每一个项目都会包含列表中所有的步骤。举个例子,有时候我们并不需要数据收集或可视化步骤。这完全取决于项目的实际情况。

  1. 第一步是问题陈述。识别出你要解决的问题是什么。
  2. 接下来要做的是数据收集与存储。数据从何而来?它们在哪里存放?格式又是什么?
  3. 然后是数据清洗。数据需要修改吗?有什么需要删除的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?
  4. 数据分析和机器学习。数据需要哪些处理?需要什么样的转换?使用什么样的算法?运用什么公式?使用什么机器学习算法?顺序又是怎样的呢?
  5. 数据展现和可视化实现。数据处理结果应该怎样呈现出来呢?我们可以用一张或几张数据表来表现,也可以使用图画、图形、图表、网络图、文字云、地图等形式。但这是最佳的可视化方案吗?有没有更好的替代方案呢?
  6. 最后一步是问题决议。你在第一步里所提出的疑问或是问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?你还能找出别的什么办法吗?接下来要做的又是什么?

在数据分析、挖掘、机器学习或是可视化实现之前,做好相关的数据清洗工作意义重大。不过,请牢记,这是一个迭代的过程,因为在项目中我们可能需要不止一次地执行这些清洗操作。此外,我们所采用的挖掘或分析方法会影响清洗方式的选取。我们可以认为清洗工作包含了分析方法所能决定的各种任务,这有可能是交换文件的格式、字符编码的修改、数据提取的细节等。数据清洗与数据收集和存储(第2步)的关系也十分密切。这意味着你得收集原始数据,对它们执行存储和清洗操作,之后再把清洗过的数据保存下来,接下来收集更多的数据,清洗新的数据并把清洗结果与前面处理完的结果数据结合起来,重新进行清洗、保存等操作,反反复复。正因为这个过程非常复杂,所以我们要么选择牢牢记住曾经做过的处理,并记录下那些可以根据需要反复执行的步骤,要么把工作的全部状况告知其他相关人员。