【转】介绍 JSON

转自 介绍 JSON json.org

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。 易于人阅读和编写。同时也易于机器解析和生成。 它基于JavaScript Programming Language,Standard ECMA-262 3rd Edition – December 1999的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。 这些特性使JSON成为理想的数据交换语言。

JSON建构于两种结构:

  • “名称/值”对的集合(A collection of name/value pairs)。不同的语言中,它被理解为对象(object),纪录(record),结构(struct),字典(dictionary),哈希表(hash table),有键列表(keyed list),或者关联数组 (associative array)。
  • 值的有序列表(An ordered list of values)。在大部分语言中,它被理解为数组(array)。

这些都是常见的数据结构。事实上大部分现代计算机语言都以某种形式支持它们。这使得一种数据格式在同样基于这些结构的编程语言之间交换成为可能。

JSON具有以下这些形式:

对象是一个无序的“‘名称/值’对”集合。一个对象以“{”(左括号)开始,“}”(右括号)结束。每个“名称”后跟一个“:”(冒号);“‘名称/值’ 对”之间使用“,”(逗号)分隔。

数组是值(value)的有序集合。一个数组以“[”(左中括号)开始,“]”(右中括号)结束。值之间使用“,”(逗号)分隔。

值(value)可以是双引号括起来的字符串(string)、数值(number)、truefalse、 null、对象(object)或者数组(array)。这些结构可以嵌套。

字符串(string)是由双引号包围的任意数量Unicode字符的集合,使用反斜线转义。一个字符(character)即一个单独的字符串(character string)。

字符串(string)与C或者Java的字符串非常相似。

数值(number)也与C或者Java的数值非常相似。除去未曾使用的八进制与十六进制格式。除去一些编码细节。

【摘】数据科学过程

数据清洗是如何融入数据科学中的呢?简短的回答就是,清洗工作是关键的一步,它直接影响在它之前和之后的处理工作。

稍微长一些的回答就得围绕数据科学过程的六个步骤来描述了,请看下面的列表。数据清洗正好处于中间的位置,第三步。但是,请不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架,其实在项目的迭代过程中,们会根据具体情况,反复执行这些步骤。另外还需要指出的是,并不是每一个项目都会包含列表中所有的步骤。举个例子,有时候我们并不需要数据收集或可视化步骤。这完全取决于项目的实际情况。

  1. 第一步是问题陈述。识别出你要解决的问题是什么。
  2. 接下来要做的是数据收集与存储。数据从何而来?它们在哪里存放?格式又是什么?
  3. 然后是数据清洗。数据需要修改吗?有什么需要删除的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?
  4. 数据分析和机器学习。数据需要哪些处理?需要什么样的转换?使用什么样的算法?运用什么公式?使用什么机器学习算法?顺序又是怎样的呢?
  5. 数据展现和可视化实现。数据处理结果应该怎样呈现出来呢?我们可以用一张或几张数据表来表现,也可以使用图画、图形、图表、网络图、文字云、地图等形式。但这是最佳的可视化方案吗?有没有更好的替代方案呢?
  6. 最后一步是问题决议。你在第一步里所提出的疑问或是问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?你还能找出别的什么办法吗?接下来要做的又是什么?

继续阅读