ruby Regex 教程_ruby專題

來源:互聯網
上載者:User
我們再看一個更有趣的程式.這次我們來測試一個字串是否和一個由簡明模式(concise pattern)編碼產生的描述相匹配.

在這些模式(pattern)裡,一些字元或字元組合都有獨特的意義,包括: 

複製代碼 代碼如下:

[]  範圍描述符 (比如,[a - z] 表示在a 到 z 範圍內的一個字母)   

\w  字母或數字;相當於 [0-9A-Za-z]  

\W  非字母,數字  

\s  [ \t\n\r\f]Null 字元;相當於 [ \t\n\r\f]  

\S  非Null 字元  

\d  [0-9]數字;相當於 [0-9]  

\D  非數字字元  

\b  退格符 (0x08) (僅在範圍描述符內部時)  

\b  字邊界(word boundary) (在範圍描述符外部時)  

\B  非字邊界  

*  前面元素出現0或多次  

+  前面元素出現1或多次  

{m,n}  前面元素最少出現m次,最多出現n次  

?  前面元素最多出現1次;相當於 {0,1}  

|  與前面或後面的運算式匹配  

()  群( grouping)   


那些模式中共同使用的古怪詞彙叫做Regex.就象Perl一樣,Ruby也用前斜杠(而不是雙引號)將它們括起來.如果你以前從未使用過Regex,也許它們看起來除了規則(regular)什麼都不是,但花上一點兒時間瞭解它們是明智的.當你需要對字串進行模式比對,尋找或其它操作時,它的高效的表達能力能治好你的頭痛(並節約很多行代碼).

舉個例子,設想我們想要測試一個字串是否符合這樣的描述資訊"由小寫f開頭,跟一個大寫字母,並可能跟許多非小寫字母在後面."如果你是一個老練的C程式員,大概你的頭腦裡已經裝滿幾十行程式了,對不對?承認吧,你難以控制住自己.在Ruby裡,你只需要將你的字串用Regex/^f[A-Z](^[a-z])*$/檢驗一下就可以了.

那"一個由<>括起來的16位元呢"?沒問題.

複製代碼 代碼如下:

ruby> def chab(s)   # "contains hex in angle brackets" 
    |    (s =~ /<0(x|X)(\d|[a-f]|[A-F])+>/) != nil 
    | end 
  nil 
ruby> chab "Not this one." 
  false 
ruby> chab "Maybe this? {0x35}"    # wrong kind of brackets 
  false 
ruby> chab "Or this? <0x38z7e>"    # bogus hex digit 
  false 
ruby> chab "Okay, this: <0xfc0004>." 
  true   


雖然,初看起來Regex挺讓人頭痛的,但你很快會因能夠如此高效地表達出你心中的意思而感到滿足.

下面是一個可以協助你實驗Regex的小程式,把它存為regx.rb,然後在命令列裡輸入'ruby regx.rb'運行.

複製代碼 代碼如下:

# Requires an ANSI terminal! 
st = "\033[7m" 
en = "\033[m" 
while TRUE   
    print "str> "   
    STDOUT.flush   
    str = gets   
    break if not str   
    str.chop!   
    print "pat> "   
    STDOUT.flush   
    re = gets   
    break if not re   
    re.chop!   
    str.gsub! re, "#{st}\\&#{en}"   
    print str, "\n" 
end 
print "\n"   


這個小程式要求輸入兩次,一次字串,一次Regex.輸入的字串由Regex檢驗,然後用反視高亮度顯示所有匹配部分.先別管細節,等會兒就有程式碼分析.

複製代碼 代碼如下:

str> foobar 
pat> ^fo+ 
foobar 
~~~   

上面紅色部分將在程式輸入中以反視表示出.下面的"~~~"行是為了方便那些使用基於字元瀏覽器的人.

我們再試幾個輸入:

str> abc012dbcd555
pat> \d
abc012dbcd555 


如果讓你感到驚訝,看看本頁開頭部分的那個表格: \d與字母d無關,而是對應於單個數字.

如果有不止一種方法能匹配模式會怎樣呢?

str> foozboozer
pat> f.*z
foozboozer
~~~~~~~~  


之所以foozbooz被匹配而不只是fooz,是因為一個正則表達符儘可能匹配最長的子串.

下面是一個將冒號分隔的數字時間段從字串中隔離出來的模式比對.

str> Wed Feb  7 08:58:04 JST 1996
pat> [0-9]+:[0-9]+(:[0-9]+)?
Wed Feb  7 08:58:04 JST 1996 


"=~"是一個用於匹配Regex的匹配(matching)運算子;它會返回在字串裡找到的匹配的位置,或者返回 nil 表示模式無法匹配.

ruby> "abcdef" =~ /d/
   3
ruby> "aaaaaa" =~ /d/
   nil  

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.