C#詞法分析器(二)輸入緩衝和代碼定位

來源:互聯網
上載者:User

一、輸入緩衝

在介紹如何進行詞法分析之前,先來說說一個不怎麼被提及的問題——怎麼從源檔案中讀取字元流。為什麼這個問題這麼重要呢?是因為在詞法分析中,對字元流是有要求的,它必須能夠支援後援動作(就是將多個字元放回到流中,以後會再次被讀取)。

先來解釋下為什麼需要支援後援動作,舉個簡單的例子來說,現在要對兩個模式進行匹配:

圖 1 流的回退過程

上面是一個簡單的匹配過程,僅為了展示回退過程,在後面實現 DFA 模擬器時會詳細解釋是如何匹配詞素的。

現在來看看 C# 中與輸入相關的類,有 Stream,它支援流的尋找,但是只能以位元組方式訪問;BinaryReader 和 TextReader 雖然支援讀取字元,但是又不能支援回退。所以,就必須自己完成這個輸入緩衝類了,大致思路就是以 TextReader 作為底層的字元輸入,然後由自己的類完成對回退能力的支援。

《編譯原理》上給出了一種緩衝區對的方法,簡單的說就是開闢兩個緩衝區,設緩衝區大小都是 N 個字元。每一次都將 N 個字元讀入到緩衝區中,並在這個緩衝區上實現字元操作。如果當前緩衝區的資料已經處理完畢,就將 N 個新字元讀入到另一個緩衝區中,接下來就換做操作新的緩衝區。

這樣的資料結構效率很高,而且只要維護合適的指標,就可以很容易的實現回退功能。不過它的緩衝區大小是固定的,新讀入的字元會覆蓋舊的字元。如果需要回退的字元數量過多(比如在分析很長的字串時),就容易出現錯誤。我通過使用多個緩衝區解決了舊字元被覆蓋的問題——如果緩衝區不足了,就開闢新緩衝區,而不是覆蓋舊資料。

如果僅僅是不斷的添加緩衝區,那麼佔用的記憶體只會不斷增加,這樣是沒有什麼意義的,因此我定義了三個釋放緩衝區的操作:Drop,Accept 和 AcceptToken。Drop 的作用是將當前位置之前的所有資料標記為無效(被拋棄),被標記無效的資料佔用的緩衝區就被釋放掉,可以拿來被重複利用了;Accept 則會將標記為無效的資料以字串形式返回,而不僅僅是簡單的拋棄;類似的,AcceptToken 是以 Token 形式返回被無效化的資料,是為了方便進行詞法分析。

這樣的資料結構比較類似於 STL 中的 deque,不過這裡不需要隨機訪問和插入、刪除資料,僅會在資料的頭、尾進行操作,因此我直接將多個緩衝區使用雙向鏈表連成一個環,使用三個指標 current,first 和 last 指向鏈表中有資料的緩衝區,如下圖所示:

圖 2 多個緩衝區組成的鏈表,紅色的部分表示有資料,白色的部分沒有資料

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.