CFC4N小試phpRegex

來源:互聯網
上載者:User

朋友甲:要求根據一串字串,反轉成PHP數組,其給出的字串為php的print_r列印出來的。我們在暫不考慮此方法是否能確保資料的準確性,以及其他意外等情況,僅根據要求寫正則。
其字串為 複製代碼 代碼如下:Array
(
[tt] => Array
(
[table] => qqttcode
[hitcode] => 1
)
[ww] => Array
(
[table] => qqwwcode
[hitcode] =>
)
[pp] => Array
(
[table] => qqppcode
[hitcode] => Array
(
[table] => qqppcode
[hitcode] =>
)
)
)

CFC4N給出一下結果: 複製代碼 代碼如下:$strRge1 = '/(\[([^]]+)]\s?=>\s?)?Array[\s\S]+?\(([^()]|(?R))*\)/i';
$arrReturn = array();
if (preg_match_all($strRge1,$str,$tt1))
{
$arrReturn = getarray($tt1[0][0]);
}
$arrReturn2 = array();
foreach ($arrReturn as $k => $v)
{
$arrReturn2[$k] = $v[$k];
}
print_r($arrReturn2);
function getarray ($strContents)
{
$arrTemp = array();
$strRge = '/\[([^]]+)]\s?=>\s?Array[\s\S]+?\(([^()]|(?R))*\)/i';
$strReg2 = '/\[([^]]+?)]\s?=>\s?([\d\w]+)?/';
if (preg_match_all($strRge,$strContents,$strTemp))
{
$num = count($strTemp[1]);
if ($num > '1')
{
for ($i=0; $i<$num; $i++)
{
if (preg_match_all($strRge,$strTemp[0][$i],$arrTTT))
{
$arrTemp[$strTemp[1][$i]] = array();
$arrTemp[$strTemp[1][$i]] = getarray($strTemp[0][$i]);
}
else
{
$arrTemp[$strTemp[1][$i]] = $strTemp[0][$i];
}
}
}
else
{
$arrTemp[$strTemp[1][0]] = array();
$arrTemp2 = array();
if (preg_match_all($strReg2, $strTemp[0][0],$straa))
{
$num = count($straa[0]);
for ($i=0; $i<$num-1; $i++)
{
$arrTemp2[$straa[1][$i+1]] = $straa[2][$i+1];
}
}
$arrTemp[$strTemp[1][0]] = $arrTemp2;
}
}
return $arrTemp;
}

結果是可以用的。但是發現其只能用於固定的三層嵌套,假如N層的話,無法用這個函數了,後來,我又改造一下那個正則,改為 複製代碼 代碼如下:$strRge1 = '/\[(([^]]+)]\s?=>\s?Array[\s]+?\(([^()])+|(?R))\)+/i';

但是,並不能解決問題。。各位看官,您認為,我的誤區在哪裡呢?
附 第一個正則

更改後正則匹配

朋友乙:要求批量給html字串中a標籤中不包含title屬性的標籤添加title,而且,其title內容為<a href…>到</a>之間的文本。。
CFC4N給出答案為: 複製代碼 代碼如下:$str = '<a >ssss</a><a href="ss" >ssss</a><a title="ss" >ssss</a><a href="">ssss</a><a title="ss">ssss</a><a title="ss">ssss</a><a title="ssf">ssss</a>';
$str = preg_replace('%<a((?:(?!title="[^"]+?")[\s\S])+?)>(?:(?<!</a>)[\s\S])+?</a>%im','<a title="\\2" \\1>\\2</a>',$str);
print_r($str);

複製代碼 代碼如下:$str = '<a >ssss</a><a href="ss" >ssss</a><a title="ss" >ssss</a><a href="">ssss</a><a title="ss">ssss</a><a title="ss">ssss</a><a title="ssf">ssss</a>';
$str = preg_replace('%<a((?:(?!title="[^"]+?")[\s\S])+?)>(?:(?<!</a>)[\s\S])+?</a>%im','<a title="\\2" \\1>\\2</a>',$str);
print_r($str);

各位看官,您認為,CFC4N寫的Regex裡,哪些還可以最佳化呢?這個效率是不是不高??

朋友丙:要求過濾非本網域名稱,或者非本子網域名稱的其他網域名稱的UBB標籤連結,一旦包含,直接替換成其中間的文本,比如例子字串如下 複製代碼 代碼如下:[url=http://www.sadas.cn]baidu[/url]

[url=www.ggasdwe.com]百度[/url]
[url=http://www.qq.com/index.php]QQ[/url]

[url=http://www.miyifun.com/index.html]其他

[/url]
[url=pc.qq.com/index.php]PC QQ[/url]

其中,字串中不確定有幾個換行等其他字元,而且,不確定url的UBB標籤中的網址中是否包含http://,不確定次層網域或者第三層網域名

CFC4N給出的正則以及PHP代碼如下 複製代碼 代碼如下:$str = '[url=http://www.sadas.cn]baidu[/url]

[url=www.ggasdwe.com]百度[/url]
[url=http://www.qq.com/index.php]QQ[/url]

[url=http://www.miyifun.com/index.html]其他

[/url]
[url=pc.qq.com/index.php]PC QQ[/url]';
print_r(preg_replace('%\[url=(http://)?(?:(?!qq\.com)[^\]])*\][\r|\r\n]*([\s\S]+?)[\r|\r\n]*\[/url\]%i','\\2',$str));

各位看官,您認為這裡哪裡是多餘的?還可以進行哪些正則的最佳化來提高效率?如果沒看懂,那您的疑問在哪裡?

朋友丁:要求讀取squid的設定檔中,起作用的行,也就是沒有#開頭進行注釋的行
其中,squid的設定檔內字串見附件中
squid的設定檔內容
CFC4N給出正則代碼如下

複製代碼 代碼如下:preg_match_all('/^(?!#).+?$/m', file_get_contents('squid.conf'), $regs);
print_r($regs[0]);

運行

看官們,您認為,這個正則還有哪些沒注意到的點?能否正確無誤的匹配到朋友丁所需要的內容?您有疑問嗎?

PS:以上正則,均為PCRE引擎。。其中,PHP代碼的正則遞迴(迭代)部分,僅限於支援遞迴正則的引擎代碼適用。。
感謝rex老大指點關於(?!)零寬斷言非匹配的特性後接匹配規則可能無效的問題。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.