詳解利用Regex將字串分組

最後更新：2017-09-21 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

這篇文章主要給大家介紹了關於利用Regex將字串分組的相關資料，文中分別介紹了利用itertools模組的groupby()方法和利用Regex是如何?的，通過範例程式碼介紹的非常詳細，需要的朋友們下面來一起看看吧。

前言

最近工作中遇到一個問題，需求是碰到'122333<<<<'這種字串，要將其連貫的部分取出，得出['1', '22', '333', '<<<<']這樣的列表，能想到的常規辦法，遍曆字串，後一個與前一個逐個比較，這樣真的很麻煩！又想到了另外兩種方法，話不多說了，來一起看看詳細的範例程式碼：

一、實際上可以藉助itertools模組的groupby()方法來處理:

import itertools  Str = '122333<<<<' Lst = [] for key,group in itertools.groupby(s):  Lst.append(list(group))  print map(lambda x: ''.join(x), Lst)

上面的處理，還是比較有技巧，也能得到想要的輸出結果

['1', '22', '333', '<<<<']

二、但更酷點，更技巧處理方式是用Regex來處理:

import re  Str = '122333<<<<' Lst = []  Pat = re.compile(r'((.)\2*)') Rst = [x[0] for x in re.findall(Pat, Str)]  print Rst

備忘:

1. (.) # .匹配任一字元;(.)做分組，方便後面反向引用

2. \2* # \2對裡面括弧的反向引用;*代表是0個到多個;

3. ((.)\2*) # 連起來就是任意一個或多個字元組成的分組；

4. (.)\1* # 這種方式則可以取出唯一的值['1', '2', '3', '<']；同樣非常方便

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

詳解利用Regex將字串分組

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support