分类
书摘

【摘】数据科学过程

数据清洗是如何融入数据科学中的呢?简短的回答就是,清洗工作是关键的一步,它直接影响在它之前和之后的处理工作。

稍微长一些的回答就得围绕数据科学过程的六个步骤来描述了,请看下面的列表。数据清洗正好处于中间的位置,第三步。但是,请不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架,其实在项目的迭代过程中,们会根据具体情况,反复执行这些步骤。另外还需要指出的是,并不是每一个项目都会包含列表中所有的步骤。举个例子,有时候我们并不需要数据收集或可视化步骤。这完全取决于项目的实际情况。

  1. 第一步是问题陈述。识别出你要解决的问题是什么。
  2. 接下来要做的是数据收集与存储。数据从何而来?它们在哪里存放?格式又是什么?
  3. 然后是数据清洗。数据需要修改吗?有什么需要删除的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?
  4. 数据分析和机器学习。数据需要哪些处理?需要什么样的转换?使用什么样的算法?运用什么公式?使用什么机器学习算法?顺序又是怎样的呢?
  5. 数据展现和可视化实现。数据处理结果应该怎样呈现出来呢?我们可以用一张或几张数据表来表现,也可以使用图画、图形、图表、网络图、文字云、地图等形式。但这是最佳的可视化方案吗?有没有更好的替代方案呢?
  6. 最后一步是问题决议。你在第一步里所提出的疑问或是问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?你还能找出别的什么办法吗?接下来要做的又是什么?