前言

本章对应官方教程第1章,介绍了Kaleidoscope以及实现词法分析器(Lexer)。

教程如下:

教你使用swift写编译器玩具(0)

教你使用swift写编译器玩具(1)

教你使用swift写编译器玩具(2)

教你使用swift写编译器玩具(3)

教你使用swift写编译器玩具(4)

教你使用swift写编译器玩具(5)

教你使用swift写编译器玩具(6)

教你使用swift写编译器玩具(7)

教你使用swift写编译器玩具(8)

仓库在这

Kaleidoscope大概长这样

def fib(x)
  if x < 3 then
    1
  else
    fib(x-1)+fib(x-2);
    
fib(40);

本项目参考官方文档编写,为了图方便与官方文档一样写了不少全局变量,这在实际工程中不是一个好的处理方式。

注意:教程中使用extern调用标准库本文并未实现,仅实现了extern的解析。由于本工程一开始把全部变量解析为int64类型而不是Double类型,所以后续章节可能会出现与官方教程生成的中间代码IR不相同的情况,还请各位具体问题具体分析。

开始

我们在实现语言时,首先需要能识别代码内容。通常情况下我们使用词法分析器(Lexer),将输入分解为Token。首先我们需要定义Token以及CurrentToken结构体。

enum Token {
    case def
    case extern
    case identifier
    case number
    case other
}

struct CurrentToken {
    var token: Token
    var val: String
}

identifier是用来记录变量,而其他的几个Token的枚举一目了然。CurrentToken用来表示当前正在解析的内容。

定义Lexer

在编写详细的token处理之前,我们需要先定义一下Lexer类。

class Lexer {
    
    /// 当前的token
    public var currentToken: CurrentToken?
    
    private var lastChar: Character = " "
    
    private var index = 0
    
    /// 代码内容
    private var source: [Character] = []
    
}

本工程解析代码通过index的增加从而依次从source中读取每一个字符进行处理。

获取下一个token

获取当前index对应的字符

private func getChar() -> Character {
    let char = source[index]
    index += 1
    return char
}

解析当前字符获取下一个currentToken

/// 获取下一个currentToken
    public func nextToken() {
        var identifierStr = ""
      	//如果是空白则继续往下读取
        while lastChar.isWhitespace {
            lastChar = getChar()
        }
        
        //如果开头是字母的话说明是identifier类型或者是其他关键字
        if lastChar.isLetter {
            identifierStr = String(lastChar)
            lastChar = getChar()
            while lastChar.isNumber || lastChar.isLetter {
                identifierStr.append(lastChar)
                lastChar = getChar()
            }
            
            if identifierStr == "def" {
                currentToken = CurrentToken(token: .def, val: "def")
            } else if identifierStr == "extern" {
                currentToken = CurrentToken(token: .extern, val: "extern")
            } else {
                currentToken = CurrentToken(token: .identifier, val: identifierStr)
            }
            return
        }
        
        //是数字开头的话说明这个是一个数值
        if lastChar.isNumber || lastChar == "." {
            var numStr = ""
            repeat {
                numStr.append(lastChar)
                lastChar = getChar()
            } while lastChar.isNumber || lastChar == "."
            currentToken = CurrentToken(token: .number, val: numStr)
            return
        }
        
        //遇到";"说明这一个函数块结束了
        let thisChar = lastChar
        if thisChar != ";" {
            lastChar = getChar()
        }
        
        //返回其他类型仅作为占位使用
        currentToken = CurrentToken(token: .other, val: String(thisChar))
    }

代码详细的解释都体现在了注释中,现在我们已经完成了一个可以解析token的Lexer了。