詞法分析(Lexical Analysis):分析由字元組成的單詞是否合法,如果沒有問題的話,則產生一個單詞流。
文法分析(Syntactic Analysis):分析由單片語成的句子是否合法,如果沒有問題的話,則產生一個文法樹。
在詞法分析器分析原始碼文本的時候,有一個概念需要明確:
1.物理行:由斷行符號字元序列(在Windows上是CR LF,在Unix上是LF)結尾的字元序列組成一個物理行。
2.邏輯行:由一個或者多個物理行組成,可以明確地使用反斜線(\)來串連多個物理行使之成為一個邏輯行;或者,處在圓括弧,中括弧,花括弧內的運算式可以跨越多個物理行,但是被當作一個邏輯行。
詞法分析器是面向邏輯行的,也就是說,對於詞法分析器而言,只有邏輯行才算是一行,它只在邏輯行結束之處才產生NEWLINE這個單詞或者說token。
對於每一處縮排,不管它有多少個空白字元,詞法分析器只會產生一個INDENT單詞或者說token,代表縮排一級,每當要退出一級縮排的時候,詞法分析器就會產生一個DEDENT單詞或者說token。注意,單詞DEDENT並沒有一個或一組字元與之對應,它是完全的邏輯概念。
Python使用稍作修改的BNF(巴科斯範式)來表示詞法與文法規則。
下面重點說一下需要注意的地方,以避免發生一些低級但是隱形編程錯誤。
1.標識符是區分大小寫,但是仍然不要僅僅用大小寫不同來區分兩個變數。
2.不要使用那些在其它程式設計語言中是關鍵字的標識符作為變數名,因為它們很可能會成為Python的關鍵字。
3.不要使用Python明確聲明有特殊意義的標誌符作為變數名(這類變數一般以底線開頭),除非明確自己要使用那個特殊含義。
4.不要在Python中使用$和?(字串中除外),它們不是合法的字元。
5.不要混用Tab和空格來表示縮排,只使用其中一種,並養成習慣。
6.整數字面常量有10,16,8,2幾種表示方法,如果使用16進位,請寫0xa或者0Xa;如果使用8進位,請寫0o7或者0O7;如果使用2進位,請寫0b1或者0B1;總之,不要省略掉那個標識進位的字母,建議只使用小寫字母。
7.在整數字面常量後加一個l或者L就形成了一個長整數,建議只使用L,因為小寫l看起來像數字1.
8.整數使用32位表示,但是長整數並不限於多少位表示,在記憶體允許的情況下,它可以表示任意大小的整數,這與C語言等是不一樣的。
9.如果一個整數字面常量的值超過32位整數的表示範圍,那麼Python會自動將它升級為長整數,但是在早期的Python實現中可能並非如此,因此如果你預計需要一個很大的整數值,請明確使用長整數。
10.浮點數字面常量只有10進位形式。