到目前為止,我們簡單地搜索了一個靜態字串。 正則運算式通常也用不同的方式,通過下面的 `RegexObject` 方法,來修改字串。
方法/屬性作用 split()將字串在 RE 匹配的地方分片並生成一個清單, sub()找到 RE 匹配的所有子串,並將其用一個不同的字串替換 subn()與 sub() 相同,但返回新的字串和替換次數
將字串分片
`RegexObject` 的 split() 方法在 RE 匹配的地方將字串分片,將返回清單。 它同字串的 split() 方法相似但提供更多的定界符;split()只支援空白符和固定字串。 就象你預料的那樣,也有一個模組層級的 re.split() 函數。
split(string [, maxsplit = 0])
通過正則運算式將字串分片。 如果捕獲括弧在 RE 中使用,那麼它們的內容也會作為結果清單的一部分返回。 如果 maxsplit 非零,那麼最多隻能分出 maxsplit 個分片。
你可以通過設置 maxsplit 值來限制分片數。 當 maxsplit 非零時,最多隻能有 maxsplit 個分片,字串的其餘部分被做為清單的最後部分返回。 在下面的例子中,定界符可以是非數位字母字元的任意序列。
#!python
>>> p = re.compile(r'\W+')
>>> p.split('This is a test, short and sweet, of split().')
['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']
>>> p.split('This is a test, short and sweet, of split().', 3)
['This', 'is', 'a', 'test, short and sweet, of split().']
有時,你不僅對定界符之間的文本感興趣,也需要知道定界符是什麼。 如果捕獲括弧在 RE 中使用,那麼它們的值也會當作清單的一部分返回。 比較下面的調用:
#!python
>>> p = re.compile(r'\W+')
>>> p2 = re.compile(r'(\W+)')
>>> p.split('This... is a test.')
['This', 'is', 'a', 'test', '']
>>> p2.split('This... is a test.')
['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']
模組層級函數 re.split() 將 RE 作為第一個參數,其他一樣。
#!python
>>> re.split('[\W]+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('([\W]+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('[\W]+', 'Words, words, words.', 1)
['Words', 'words, words.']