杨贵福的blog

20130723

解密：LL与LR解析 2（译，完结）

由于GFW，我无法联系到作者，所以没有授权，瞎翻译的。原文在这里[http://blog.reverberate.org/2013/07/ll-and-lr-parsing-demystified.html]。

这是第2部分和完结。

3. 解析树的形状

到目前为止，我们使用的算术表达式的那棵树，仍然不是解析树，因为它并未与语法关联。要考查一棵真正的解析树，我们需要语法。不幸的是，为中缀算术表达式写语法不像你期待的那么简单和优雅。对优先级和结合性 (杨注：操作符左结合还是右结合)编码，保证语法没有二义性 (并受LL和LR支持) ，是非常丑陋和不符合直觉的。这也是为什么LL和LR解析器也允许你做指定操作符优先级这样的扩展；比如，参见Bison优先级的相关特性[http://www.gnu.org/software/bison/manual/html_node/Precedence.html#Precedence]。而这篇文章的目的是打算讨论纯的LL和LR。

因此，我们得把那个算术表达式的例子调整为比较容易写的语法的形式。我们将使用JSON (杨注：JSON是javascript的对象表示方法) ，既然它非常简单，而又足够复杂和有趣。

1 object → '{' pairs '}'
2
3 pairs → pair pairs_tail | ε
4 pair → STRING ':' value
5 pairs_tail → ',' pairs | ε
6
7 value → STRING | NUMBER | 'true' | 'false' | 'null' | object | array
8 array → '[' elements ']'
9
10 elements → value elements_tail | ε
11 elements_tail → ',' elements | ε

上面，我用了单引号括起的字符串表示原文文字标记 (literal tokens)，用大写字母，比如STRING，表示那些拼写不确定的tokens (比如，"abc"和""都是有效的STRING tokens)。所有的名字小写字母的，都是语法规则 (也称非叶节点)。

你可能奇怪，为什么我要用 pairs_tail 和 elements_tail，而不用重复构造 (repetition construct) ，像很多解析器比如ANTLR支持的那样。这样，我们就可以这样写：

elements → value (',' value)*

使用*的这种语法，用起来更方便，语法也更简单，但是同时，它导致解析树概念上更复杂了一点，因为某个给定的语法规则的子树个数不再是确定不变的。并且，LR解析器不支持重复操作符(比如，Bison就不支持)，这样，我上面写的语法就既可以用于LL也可以用于LR解析器。因此，我们现在要使用这个有点复杂的语法。

现在，我们有语法了，那么我们来看一个token的流的例子，再来看输出的解析树。

{"message":"Hello, World!"}

上述这段文字的token流是：

{ STRING : STRING }

而它的解析树，按我们的语法，就是：

注意，所有的叶结点 (绿色的)都是tokens，它们的顺序与我们的解析器的输入顺序是完全一致的。 (我做了一点小弊，把ε作为叶结点了，不过正如我们所看到的，这看起来更干净更规则一些)

我前面曾经断言过，LL解析器输出的是先序遍历，而LR解析器输出的是后序遍历。从这一点出发，我们可以知道LL和LR解析器对上述输入分别会给出什么输出：

既然叶节点总是输入的tokens本身，且完全按输入的顺序，所以所有的解析器真正所做的，就是把中间节点 (杨注：语法规则)插入到合适的位置。看这一点的另一个角度就是，一棵解析树，就是一堆结构体，这堆结构体定义在输入的tokens的序列之上。我们稍微重新安排一下之前的这个图示，这一点看起来就更清楚了。

我们正集中讨论一个非常简单的模型，用这个模型描述LL和LR解析器如何工作。LL和LR解析器二者都读入一个输入tokens的流，再把相同的流作为输出，并且把规则 (杨注：中间节点)插入到适当的位置，以形成解析树的先序 (LL)或后序 (LR)遍历。

这样，按波兰和逆波兰表示法考虑，这种对解析器输出的认识又带给我们一个好处。它使得我们可以对解析器的输入和输出都按简单的、平坦的流建模。这比把解析器的中间输出状态视为部分地构造树要容易多了，那种思路对于理解输出和对输出的检验都没什么帮助。

4. 超前 (Lookahead)

LL和LR解析器都是"在线的"，意味着它们都能在输入正在进行时开始产生输出. 但是在许多情况下，在流的位置之前的tokens没有包含足够的信息，因此解析无法知道是否需要插入规则 (或者，如果需要插入规则，应该插入哪一条).因此，解析器得超前 (lookahead)到流的后面，看看下面的一些tokens是什么，以便做出决定。当你看到像LL(1)或者LR (0)这样的命令的时候，括号里的数字就是要超前的tokens的数量。

值得注意的是，超前是相对于规则将要插入的位置而言的，这个位置 (正如你记得的)对于LL解析器而言是在规则的tokens之前，而在LR解析器的规则tokens之后。这意味着，LL超前从规则的tokens的开头开始计数，LR从末尾开始计数。这带给LR解析器一个巨大的益处，因为在它们做出决定之前，他们能够看到规则的所有tokens (可能再超前一些)，而LL解析器只能看到规则最初的几个tokens。

这就是为什么会有LR(0)解析器这种东西，而LL(0)解析器是不可能存在的；那样就根本不会有信息用来帮助决定接下来的tokens应该使用哪条规则。

5. 结果

根据上述对于LL和LR解析的比较的理解，我们能够得到几条重要的结论，有助于理解为什么有些当然的事是那样的。

(1) LR解析器能够处理更多的语法

这一点可由上一节超前 (lookahead)推得。既然LR超前开始于规则的末尾，在做决定的时候，LR(1)就确定地比LL(1)拥有更多的信息。进而，LR(1) 解析器确定地能比LL(1)解析器多解析一些语法 (杨注：原文接下来在括号里是modulo LL-only grammar extensions; see below。我不知道什么意思)。LR解析器可以处理左递归，LL解析器不能。

优势：LR

(2) (杨注：EBNF这一类的)

另一方面，既然LL解析器在开始解析规则的tokens之前就选定了使用哪条规则，并且无论LL解析器什么时候解析一个token的时候，它一定知道其token的上下文。这是一个更困难的任务 (既然它们拥有的能够继续的信息更少)，这导致了一些重要的优势。

LL解析器在语法中能支持像正则表达式一样的操作符。

知道解析的上下文，这使得利用正则表达式形式的多种多样的操作符成为可能，比如重复 (杨注：*)，比如alternation (杨注：|)，而且可以用在任何地方，而不仅仅是顶层处。基本上，每条规则都能构成一个DFA状态机。对于自顶向下的解析，这是可能的，因为解析器知道它位于哪条规则之中，在解析进行的过程中可以按规则的状态机进行。我认为这对于自底向上的解析，这是不可能的 (甚至如果你以某种方法令解析表做正确的事，归约那一步也需要归约有固定不变的参数个数。杨注：不懂)。这对于LL真是个好优点，因为有这些丰富的语法扩展(杨注：指类似正则表达式的)，语法容易读多了。事实上，这有利于使LL那种严格语法的局面有所缓和，因为许多你需要左递归的地方都可以使用重复 (*)操作符替代。

1 // LR语法: 不允许任何特殊的，alternation 只允许
2 // 在顶层出现
3 //
4 // 允许这一条是因为它等价于
5 // pairs → pair pairs_tail
6 // pairs → ε
7 pairs → pair pairs_tail | ε
8
9 // 扩展的LL语法；之所以可能，是因为你可以对把每条规则
10 // 构造成一个DFA
11 pairs → (pair (',' pair)*)?

后一条规则可以构造出像这样的DFA (绿色的状态表示接受状态) ：

知道上下文，也使得在规则中间的动作成为可能 (定制代码，这些代码运行在规则里的任意两个元素之间。杨注：如antlr的 semantic action)。Bison支持这一点，是通过在内部重写了语法，这使得所有的可视化 (杨注：可能指语法定义的时候？)都更加复杂了。

优势：LL

(3) LL解析器支持上下文相关的扫描/词法分析

知道上下文，另一个好处是也使得上下文相关的扫描/词法分析成为可能。比如，许多程序设计语言不允许把关键词用于变量名，因为独立的词法分析器 (及自底向上的解析器)不知道出现在这个位置上的token是变量名还是关键字。但是自顶向下的解析器调用词法解析器的时候，可以轻易地把当前的上下文传递给它。

优势：LL

(4) LL解析器支持继承属性

知道上下文，也能够支持基于LL的应用程序在构造树的时候把属性/元数据传递给树 (这有时被称为继承属性。杨注原文：inherited attribute)。 (无论LL还是LR解析器都支持综合属性 (杨注：原文synthesized attributes)，是由树向上传递的)。

优势：LL

6. 结论

我描述了一种另类的LL和LR解析器的模型，这种模型与大多数文献中提到的等价，但是更符合直觉 (至少对我而言是这样)。我们可以把解析器视为黑盒子，这个黑盒子输入输出与先序和后序表示法对应的token和规则的流。至目前为止，我们还没有探索这些解析器的内部工作原理；我们只是把它们视作黑盒，我们不清楚它们内部的工作。我们也没有探究它们能处理和不能处理何种语法的问题。我们也没有探索LL和LR的变形 (Strong-LL, SLR, LALR等等)。我希望在接下来的文章中会更完整地讨论它们，再包含上示例代码。

解密：LL与LR解析 1

解密：LL与LR解析

作者：Josh Haberman翻译：杨贵福

由于GFW，我无法联系到作者，所以没有授权，瞎翻译的。原文在这里[http://blog.reverberate.org/2013/07/ll-and-lr-parsing-demystified.html]。

2013年7月22日

我最初解析理论的经历来自大学时自学程序设计语言的时候。当我学到像LL，LR还有它们的变型 (比如Strong-LL, SLR, LALR等等)的时候，我迷惑了。我觉得正注视着的是艰深而强大的咒语，它的重要意义我尚不能领会，但是我确信，总有一天，像"从左至右导出""最右导出"这些术语会融汇贯通，于是我继续努力期待明白的一天。

现在我可以说，经过10年的时间再加上看了一整架解析类的书以后，我把这些算法理解得不错了。但是我看待它们的角度和我看过的文献都非常不同。我更多地从实现的角度，而不是数学的角度，数学的角度也起了一些作用 (杨注：瞎翻译的)。无论如何，我想解释一下我是如何看待这些算法的，希望有人也像我一样觉得这个角度更直观。

这篇文章只涉及到把解析器视为黑盒子这一角度：即解析器的输入/输出，及解析器的限制。后续的文章将打开黑盒子，把这些算法内部工作的更多的细节展示出来。

1. 解析与波兰表式法

如果你在大学学习计算机科学，或者甚至你要是有个惠普的计算器 (杨注：我从来没见过逆波兰的HP计算器，而且，空格在那上面如何表示啊？) ，你就见过波兰和逆波兰表示法。它们能不用符号，也不用四则运算顺序规则，就能写出数学运算表达式。我们习惯于把表达式写作中缀形式，在这种形式下，操作符置于操作数二者之间：

1 + 2 * 3

在这种形式下，你如何知道计算的优先级呢？你不得不按约定的规则 (四则混合运算的法则)。你如何想按不同的次邓，就必须用括号了，像这样：

1 (1 + 2) * 3

在波兰和逆波兰表示法中，你不必关心四则运算的优先级，也不必加括号，同样可以避免二义性。这是通过把操作符放在操作数之前(波兰表示法)或之后 (逆波兰表示法)实现的。它们也分别被称为前缀和后缀表示法。

// 第一个例子: 1 + 2 * 3 // 中缀+ 1 * 2 3 // 波兰表示法 (前缀) 1 2 3 * + // 逆波兰表示法 (后缀)

// 第二个例子： (1 + 2) * 3 // 中缀* + 1 2 3 // 波兰表示法 (前缀) 1 2 + 3 * // 逆波兰表示法 (后缀)

除了不需要括号，也不需要运算次序的约定以外，波兰和逆波兰表示法在写运算器 (求值)的时候也容易很多 (也许HP计算器的设计师用逆波兰表示法，就是为了能去巴哈马群岛度一周假) 。下面是一个Python实现的逆波兰的简单求值器。

1 # 函数定义了操作符，及如何依据操作符求值
2 # 本例假设操作符都是二值的，不过容易扩展为多值。
3 ops = {
4 "+": (lambda a, b: a + b),
5 "-": (lambda a, b: a - b)
6 }
7
8 def eval(tokens):
9 stack = []
10
11 for token in tokens:
12 if token in ops:
13 arg2 = stack.pop()
14 arg1 = stack.pop()
15 result = ops[token](arg1, arg2)
16 stack.append(result)
17 else:
18 stack.append(int(token))
19
20 return stack.pop()
21
22 print "Result:", eval("7 2 3 + -".split())

波兰和逆波兰表示法，确实如通常所说的，需要事先知道所有操作符的参数数量。这里的参数数量，指的是操作符所作用的操作数的数量。这意味着，单值操作符负号和二值操作符减法，是两个不同的操作符。否则，我们在遇到操作符的时候，就不知道从栈中弹出多少个操作数。

一种避免了这个问题的类似表达方法，是Lisp语言的s-表达式。s-表达式 (还有类似的编码形式，比如XML)避免了固定操作符参数个数的需要，实现这一效果的方法是明确标记每个表达式的开始和结束之处。

1 ; Lisp风格的前缀表达式；
2 ; 同一个操作符可以有不同的参数数量
3 (+ 1 2)
4 (+ 1 2 3 4 5)
5
6 ; 我们前两个例子在Lisp中的等价表达方式
7 ; 前缀: + 1 * 2 3
8 (+ 1 (* 2 3))
9
10 ; 前缀: * + 1 2 3
11 (* (+ 1 2) 3)

Lisp这一表达法有不同于前述方法的妥协 (前面的方法中要使用固定数量的参数，Lisp需要括号)，但是它们底层的解析/处理算法是非常类似的，因此通常我们把它们视为略有不同的前缀表达式。

看起来我好像有点跑题了，不过，其实我一直在偷偷地讨论LL和LR。按我的观点，LL和LR解析正分别与波兰和逆波兰表示法直接相关。不过为了完整地探索这个想法，我们需要先描述一下我们需要解析器输出什么。

作为一个有趣的练习，请尝试实现一个算法，用于把波兰表达式转化为逆波兰表达式。看看你是否可以不需要先把整个表式式转化为为一棵树；你可以只用一个栈实现这个效果。现在，比如你又要实现相反的过程 (从逆波兰到波兰)--你只需在输入上运行同一个算法，这回转换的方向就相反了。当然，你也可以构造一棵中间的树，但是这导致 O(输入长度) 的空间，而单使用一个栈的解决方案只需要 O(树的深度) 的空间。如何从中缀到后缀呢？有一个非常聪明和高效的算法，称为调度场算法[http://en.wikipedia.org/wiki/Shunting-yard_algorithm]。

2. 解析器及输出

我们一致认可解析器的输入是token的一个流 (这个流极可能来自一个词法分析器，不过我们可以以后再讨论这一部分)。不过解析器的输出是什么？你可能倾向于说"一棵解析树"。当然你可以用解析器构造出一棵解析树，不过也可能不是这样，而是一种完全不构造解析树的输出。比如，这个Bison的例子[http://www.gnu.org/software/bison/manual/html_node/Infix-Calc.html#Infix-Calc] ，在解析的同时求值了算术表达式。每次当子表达式被识别出来，它立即被求值，直到最终的结果是一个单独的数。从来没有解析树显式地构造出来。

因此，说解析器的输出是一棵解析树不具有足够的一般性。相反地，我断言：解析器的输出，至少我们今天讨论的LL和LR的输出，是解析树的 *遍历*。

如果触动了哪位真理洁癖的神经，我在此道歉。我可以听到有人抗议道，树的遍历是一种算法，是你施加于一棵树上的操作。我怎么能说解析器输出了一棵树的遍历呢？答案在于，请回想一下刚才的波兰和逆波兰表式法。它们通常只是一种数学算式的表示法，不过我们也可以更一般性地把它们视为对树的遍历的扁平和线性的 (序列化的)编码方式。

回想下我们的第一个例子 1 + 2 * 3。下面是这个表达式的树形的写法：

+
/ \
1 *
/ \
2 3

有三种方法遍历这个二叉树，如在维基百科上所给出的：中序遍历 (in-order) ，先序遍历 (pre-order) ，后序遍历 (post-order)。它们的不同只在于你访问父节点的时机，是在访问子节点之前 (先序)，之后 (后序)，或者左右子树之间(中序)。这三者正与中缀、波兰、逆波兰表示法对应。

1 + 2 * 3 // 中缀表达式，中序遍历+ 1 * 2 3 // 波兰 (前缀)表达式，先序遍历1 2 3 * + // 逆波兰 (后缀)表达式，后序遍历

所以，波兰和逆波兰表示法完全地编码了一棵树结构，并且规定了你遍历它的步骤。在这些编码方法与一棵实际的解析树之间的主要区别，在于波兰和逆波兰表示法编码的访问并非随机的。对于一棵真实的树 (杨注：计算机里的真实，不是现实的真实，哈哈，所谓真实)，你可以跟随一个内部节点到它的右子树，或者它的左子树，或者甚至 (对于许多树而言)它的父节点。在这些线性的编码方案中，就没有这种灵活性：你只能采用它已经这样编码了的那种遍历方法。

但是，好的一方面是，它使用解析树的输出是一个流，这个流是在解析行为发生的时候产生的。这也是Bison的那个例子，它如何在没有实现构造一棵树的情况下，就能够求值算术表达式。如果真的需要一棵不是扁平编码的树的话，从线性的树遍历中很容易就能构造出一棵来。不过，当不需要这棵真的树的话，构造它的代价就完全可以避免。

这就引出了关键点：

LL和LR解析器操作之主要不同在于，LL解析器输出解析树的先序遍历，而LR解析器输出后序遍历。

这等价于那些更传统，但是 (按我的观点)更易令人迷惑和不那么直观的关于区别的解释：

* "LL解析器产生一个最左导出，而LR解析器产生一个逆转最右导出。"

* "LL解析器自顶向下把树构造出来，而LR解析器自底向上构造。"

* LL解析器通常称为"带预测的解析器"(杨注：原文predictive parsers，这是不是有约定的翻译啊)，而LR解析器称为归约解析器 (杨注：原文shift-reduce )。

今天先翻译到这里，原文后面还有。

20130721

昨天CSAPP上的疑问的解答

昨天CSAPP上的疑问的解答

今天整明白了。

CSAPP英文版第2版，826页，或者中文版第2版546页，有这么一段。关于多级页表的。

"But if we had a 32-bit address space, 4KB pages, and a 4-byte
PTE[page table entry, 杨注], then we would need a 4MB page table
resident in memory at all time..."

其中"32-bit address space"的意思是 2^32 bytes，而不是2^32 bits，因为内存是按字节而不是按比特寻址的。

根据公式：页表尺寸 = (地址空间 / 页尺寸) * PTE入口大小........公式1

32-bit address space: 2^32 bytes (昨天误作bits)
4KB pages: 4K bytes
a 4-byte: 4 bytes
B: bytes

又

K = 2^10
M = 2^22

代入公式1的右侧，得

(2^32 bytes / 4K bytes) * 4 bytes
= 2^32 * 2^2 / (2^2 * 2^10) bytes
= 2^22 bytes
= 2^2 M bytes
= 4MB

--------------------

博客会手工同步到以下地址：

[http://giftdotyoung.blogspot.com]

[http://blog.csdn.net/younggift]

杨贵福的blog

20130723

解密：LL与LR解析 2（译，完结）

解密：LL与LR解析 1

20130721

昨天CSAPP上的疑问的解答

Labels

Blog Archive

About Me