【PHP源码学习】2019-03-20 PHP词法分析

栏目: PHP · 发布时间: 5年前

内容简介:baiyan全部视频:原视频地址:

【PHP源码学习】2019-03-20 PHP 词法分析

baiyan

全部视频: https://segmentfault.com/a/11...

原视频地址: http://replay.xesv5.com/ll/24...

基本概念

  • 在PHP7中,当一个请求到来时,先加载对应的PHP代码,后进行词法分析和语法分析并生成抽象语法树(AST),然后进行深度优先遍历并生成opcodes,在zend虚拟机中执行这些opcode并返回执行结果。在PHP中,使用的词法分析器是Re2c,语法分析器是Bison。
  • 词法分析:词法分析阶段是编译过程的第一个阶段。这个阶段的任务是从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号,即token)。词法分析程序实现这个任务。词法分析程序可以使用Re2c、lex等 工具 自动生成。
  • 语法分析:语法分析是编译过程的一个逻辑阶段。语法分析的任务是在词法分析的基础上将单词序列组合成各类语法短语,如“程序”,“语句”,“表达式”等等。语法分析程序判断源程序在结构上是否正确。
  • 其实进行词法分析和语法分析并生成某种数据结构的过程,就是一个解码的过程。

之所以需要做这种从字符串到数据结构(AST)的转换,是因为编译器是无法直接操作“1+2”这样的字符串的。实际上,代码的本质根本就不是字符串,它本来就是一个具有复杂拓扑的数据结构,就像电路一样。“1+2”这个字符串只是对这种数据结构的一种“编码”,就像ZIP或者JPEG只是对它们压缩的数据的编码一样。

  • 关于语法分析与词法分析的具体概念解释,这篇文章写得较好: 对 Parser 的误解
  • 我们先利用PHP内置函数token_get_all()来取出一段PHP代码的token:
<?php
$lan = '<?php $a = 1; echo $a';
$tokens = token_get_all($lan);
foreach ($tokens as $token) {
    if (is_array($token)) {
        echo "Line {$token[2]}: ", token_name($token[0]), " ('{$token[1]}')", PHP_EOL;
    }
}
  • 打印结果为:
Line 1: T_OPEN_TAG ('<?php ')
Line 1: T_VARIABLE ('$a')
Line 1: T_WHITESPACE (' ')
Line 1: T_WHITESPACE (' ')
Line 1: T_LNUMBER ('1')
Line 1: T_WHITESPACE (' ')
Line 1: T_ECHO ('echo')
Line 1: T_WHITESPACE (' ')
Line 1: T_VARIABLE ('$a')
  • 观察以上结果,可以看到取出来的token。

如何取出token

  • 那么让我们你自己去设计一个算法,从一个字符串中识别并取出token,应该怎么做?

    • 使用两个指针,一个标记开始位置,一个往后挪,然后回溯。(较麻烦)
    • 使用正则表达式进行匹配
    • 当用较简单的字符串匹配正则表达式的时候,可以用人眼很容易地看出来。但是如果用很复杂的字符串(成千上万行代码)去匹配一个正则,是相当麻烦并且非常慢的,编译原理中提出了这样一个概念用以解决这个问题: 有穷状态机
    • 有穷状态机:必须有一个起始状态,用一个箭头加圆圈表示;也得有一个结束,用两个圆圈表示。 如果满足某个条件,就会从一个状态跃迁到另一个状态,也用箭头来表示。

例:观察下面这个正则表达式:

(a|b)*abb
  • 根据这个正则表达式,我们可以画出它的有穷状态机:

【PHP源码学习】2019-03-20 PHP词法分析

- 对于a,只能到状态0或者1,不能到达结束的3,所以不匹配
- 对于abb,第一个a可以使状态0跃迁到1,第二个b可以从1跃迁到2,最后一个b结束,所以匹配
- 对于aabb,第一个a可以选择从0跃迁到0,第二个从0跃迁到1,后面两个b同上,匹配
- 对于cabb,第一个c就无法满足,不匹配
  • 这里有个问题,输入第一个a的时候,可以从0跃迁到自己,也可以从0跃迁到1,所以这种状态机就叫 不确定有穷状态机 (NFA)
  • NFA是有缺陷的,比如aabb,有可能一直从0跃迁到0,共重复了4次这样的操作,也没有到达最终的结束状态3。这就会导致本应该符合匹配要求的字符串,在不确定有穷状态机中,错误地被判定为不符合匹配要求。解决此问题的办法就是将不确定有穷状态机转化为确定有穷状态机(DFA)。

【PHP源码学习】2019-03-20 PHP词法分析

  • 这样一来,一个确定的输入就对应着一个确定的输出(假设如给一个a,一定跃迁到1;给一个b,一定跃迁回0),不存在歧义问题。
  • 但是,将一个NFA转化成DFA是相当复杂的,所以有工具已经为我们做好了这个事情:Re2c。你只需要输入一个正则表达式,就能够为你生成一个确定有穷状态机(DFA),在Re2c工具中以C/C++代码体现,详情见: re2c中文手册

以上所述就是小编给大家介绍的《【PHP源码学习】2019-03-20 PHP词法分析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

科技投资新时代:TMT投资方法、趋势与热点聚焦

科技投资新时代:TMT投资方法、趋势与热点聚焦

马军、宋辉、段迎晟 / 人民邮电出版社 / 2018-3 / 69.00

中国 TMT 行业(科技、媒体及通信)起步较晚但充满朝气。2017 年,TMT 板块的IPO 数量占到了总数的四分之一;对于投资者来说,投资 TMT 的收益非常可观。那么,TMT 的投资趋势如何? TMT 行业又有哪些投资热点? 本书立足于 TMT 投资现状,在介绍了 TMT 投资的基本概念之后,作者详细讲述了TMT 投资的基本研究方法、分析视角、整体行情及趋势分析,同时从行业视角分析了包括......一起来看看 《科技投资新时代:TMT投资方法、趋势与热点聚焦》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具