詳解利用Regex將字串分組

來源:互聯網
上載者:User
這篇文章主要給大家介紹了關於利用Regex將字串分組的相關資料,文中分別介紹了利用itertools模組的groupby()方法和利用Regex是如何?的,通過範例程式碼介紹的非常詳細,需要的朋友們下面來一起看看吧。

前言

最近工作中遇到一個問題,需求是碰到'122333<<<<'這種字串,要將其連貫的部分取出,得出['1', '22', '333', '<<<<']這樣的列表,能想到的常規辦法,遍曆字串,後一個與前一個逐個比較,這樣真的很麻煩!又想到了另外兩種方法,話不多說了,來一起看看詳細的範例程式碼:

一、實際上可以藉助itertools模組的groupby()方法來處理:


import itertools  Str = '122333<<<<' Lst = [] for key,group in itertools.groupby(s):  Lst.append(list(group))  print map(lambda x: ''.join(x), Lst)

上面的處理,還是比較有技巧,也能得到想要的輸出結果

['1', '22', '333', '<<<<']

二、但更酷點,更技巧處理方式是用Regex來處理:


import re  Str = '122333<<<<' Lst = []  Pat = re.compile(r'((.)\2*)') Rst = [x[0] for x in re.findall(Pat, Str)]  print Rst

備忘:

1. (.) # .匹配任一字元;(.)做分組,方便後面反向引用

2. \2* # \2對裡面括弧的反向引用;*代表是0個到多個;

3. ((.)\2*) # 連起來就是任意一個或多個字元組成的分組;

4. (.)\1* # 這種方式則可以取出唯一的值['1', '2', '3', '<'];同樣非常方便

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.