欢迎光临
我们一直在努力

实现一个JSON解析器,有那么难吗?

作者:omgleoo
链接:https://gyl-coder.top/JSONParser/

JSON

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。

JSON与JS的区别以及和XML的区别具体请参考百度百科:

https://baike.baidu.com/item/JSON/2462549?fr=aladdin

JSON有两种结构:

第一种:对象

“名称/值”对的集合不同的语言中,它被理解为对象(object),纪录(record),结构(struct),字典(dictionary),哈希表(hash table),有键列表(keyed list),或者关联数组 (associative array)。

对象是一个无序的“‘名称/值’对”集合。一个对象以“{”(左括号)开始,“}”(右括号)结束。每个“名称”后跟一个“:”(冒号);“‘名称/值’ 对”之间使用“,”(逗号)分隔。

{"姓名": "张三", "年龄": "18"}

第二种:数组

值的有序列表(An ordered list of values)。在大部分语言中,它被理解为数组(array)。

数组是值(value)的有序集合。一个数组以“[”(左中括号)开始,“]”(右中括号)结束。值之间使用“,”(逗号)分隔。

值(value)可以是双引号括起来的字符串(string)、数值(number)、true、false、 null、对象(object)或者数组(array)。这些结构可以嵌套。

[
 { 
 "姓名": "张三", 
 "年龄":"18" 
 },
 { 
 "姓名": "里斯", 
 "年龄":"19" 
 }
]

通过上面的了解可以看出,JSON存在以下几种数据类型(以Java做类比):

实现一个JSON解析器,有那么难吗?

解析JSON

JSON解析器的基本原理

输入一串JSON字符串,输出一个JSON对象。

步骤

JSON解析的过程主要分以下两步:

第一步:对于输入的一串JSON字符串我们需要将其解析成一组token流。

例如 JSON字符串{“姓名”: “张三”, “年龄”: “18”} 我们需要将它解析成

{、 姓名、 :、 张三、 ,、 年龄、 :、 18、 }

这样一组token流

第二步:根据得到的token流将其解析成对应的JSON对象(JSONObject)或者JSON数组(JSONArray)

下面我们来详细分析下这两个步骤:

获取token流

根据JSON格式的定义,token可以分为以下几种类型

实现一个JSON解析器,有那么难吗?

根据以上的JSON类型,我们可以将其封装成enum类型的TokenType

package com.json.demo.tokenizer;
/**
 BEGIN_OBJECT({)
 END_OBJECT(})
 BEGIN_ARRAY([)
 END_ARRAY(])
 NULL(null)
 NUMBER(数字)
 STRING(字符串)
 BOOLEAN(true/false)
 SEP_COLON(:)
 SEP_COMMA(,)
 END_DOCUMENT(表示JSON文档结束)
 */
public enum TokenType {
 BEGIN_OBJECT(1),
 END_OBJECT(2),
 BEGIN_ARRAY(4),
 END_ARRAY(8),
 NULL(16),
 NUMBER(32),
 STRING(64),
 BOOLEAN(128),
 SEP_COLON(256),
 SEP_COMMA(512),
 END_DOCUMENT(1024);
 private int code; // 每个类型的编号
 TokenType(int code) {
 this.code = code;
 }
 public int getTokenCode() {
 return code;
 }
}

在TokenType中我们为每一种类型都赋一个数字,目的是在Parser做一些优化操作(通过位运算来判断是否是期望出现的类型)

在进行第一步之前JSON串对计算机来说只是一串没有意义的字符而已。第一步的作用就是把这些无意义的字符串变成一个一个的token,上面我们已经为每一种token定义了相应的类型和值。所以计算机能够区分不同的token,并能以token为单位解读JSON数据。

下面我们封装一个token类来存储每一个token对应的值

实现一个JSON解析器,有那么难吗?

在解析的过程中我们通过字符流来不断的读取字符,并且需要经常根据相应的字符来判断状态的跳转。所以我们需要自己封装一个ReaderChar类,以便我们更好的操作字符流。

实现一个JSON解析器,有那么难吗?

实现一个JSON解析器,有那么难吗?

另外我们还需要一个TokenList来存储解析出来的token流

实现一个JSON解析器,有那么难吗?

JSON解析比其他文本解析要简单的地方在于,我们只需要根据下一个字符就可知道接下来它所期望读取的到的内容是什么样的。如果满足期望了,则返回 Token,否则返回错误。

为了方便程序出错时更好的debug,程序中自定义了两个exception类来处理错误信息。(具体实现参考exception包:https://github.com/gyl-coder/JSON-Parser/tree/master/src/main/java/com/json/demo/exception)

下面就是第一步中的重头戏(核心代码):

实现一个JSON解析器,有那么难吗?

实现一个JSON解析器,有那么难吗?

在start方法中,我们将每个处理方法都封装成了单独的函数。主要思想就是通过一个死循环不停的读取字符,然后再根据字符的期待值,执行不同的处理函数。

下面我们详解分析几个处理函数:

实现一个JSON解析器,有那么难吗?

该方法也是通过一个死循环来读取字符,首先判断的是JSON中的转义字符。

JSON中允许出现的有以下几种

实现一个JSON解析器,有那么难吗?

具体的处理方法封装在了isEscape()方法中,处理Unicode 编码时要特别注意一下u的后面会出现四位十六进制数。当读取到一个双引号或者读取到了非法字符(’
’或’、’
’)循环退出。

判断数字的时候也要特别小心,注意负数,frac,exp等等情况。

通过上面的解析,我们可以得到一组token,接下来我们需要以这组token作为输入,解析出相应的JSON对象

解析出JSON对象

解析之前我们需要定义出JSON对象(JSONObject)和JSON数组(JSONArray)的实体类。

实现一个JSON解析器,有那么难吗?

实现一个JSON解析器,有那么难吗?

之后我们就可以写解析类了,由于代码较长,这里就不展示了。有兴趣的可以去GitHub上下载。实现逻辑比较简单,也易于理解。

解析类中的parse方法首先根据第一个token的类型选择调用parseJsonObject()或者parseJsonArray(),进而返回JSON对象或者JSON数组。上面的解析方法中利用位运算来判断字符的期待值既提高了程序的执行效率也有助于提高代码的ke’du’xi

完成之后我们可以写一个测试类来验证下我们的解析器的运行情况。我们可以自己定义一组JSON串也可以通过HttpUtil工具类从网上获取。最后通过FormatUtil类来规范我们输出。

具体效果如下图所示:

实现一个JSON解析器,有那么难吗?

实现一个JSON解析器,有那么难吗?

代码地址

https://github.com/gyl-coder/JSON-Parser.git

扩展阅读

Java转JSON串的几种方式

使用JSONObject生成和解析json

JSON是什么?它能带来什么?它和XML比较?

使用JDOM方式解析XML

SpringBoot 快速整合Mybatis(去XML化+注解进阶)

SpringBoot 配置文件详解(告别XML)

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:英协网 » 实现一个JSON解析器,有那么难吗?

分享到: 生成海报
avatar

热门文章

  • 评论 抢沙发

    • QQ号
    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址

    登录

    忘记密码 ?

    切换登录

    注册

    我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活