只要使用者可以發言的地方,就可能出現廣告或者其他敏感詞,因此必須加入敏感詞過濾機制來保持網站的”純潔”。
過濾機制:加入php關鍵字正則匹配
//$str 為使用者資料
function wordFilter($str)
{
/*
擷取敏感詞列表
敏感詞的儲存方法:
1:儲存在txt檔案中(一般的方法)
2:儲存在緩衝(比較好的方法)
我是儲存在memcachd中。
*/
$words = getSensitiveWords();
foreach ($words as $word)
{
$preg_letter = '/^[A-Za-z]+$/';
if (preg_match($preg_letter, $str))
{//匹配中文
$str = strtolower($str);
$pattern_1 = '/([^A-Za-z]+' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word . '\s+)|(\s+' . $word . '[^A-Za-z]+)|(^' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word.'$)/';
//敏感詞兩邊不為空白
if (preg_match($pattern_1, $str))
{
$flag = TRUE;
}
$pattern_2 = '/(^' . $word . '\s+)|(\s+' . $word . '\s+)|(\s+' . $word . '$)|(^' . $word . '$)/';
//敏感詞兩邊可以為空白格
if (preg_match($pattern_2, $str))
{
$flag = TRUE;
}
}
else
{//匹配英文字串,大小寫不敏感
$pattern = '/\s*' . $word . '\s*/';
if (preg_match($pattern, $str))
{
$flag = TRUE;
}
}
}
}
存在問題:
如果單純只加入關鍵字匹配,使用者反過濾的方法五花八門,包括中間加入空格或者其他標點符號。
例子:
敏感詞:扣扣
使用者處理後:
扣 扣
扣,扣
扣@扣
扣1扣
這時候代碼的正則匹配就可能匹配不出來。
解決辦法:
先對使用者資料去除所有的標點符號和一些特殊字元,然後再進行敏感詞判斷。
代碼:
$flag_arr=array('?','!','¥','(',')',':','‘','’','“','”','《','》',',','…','。','、','nbsp','】','【','~');
$content_filter=preg_replace('/\s/','',preg_replace("/[[:punct:]]/",'',strip_tags(html_entity_decode(str_replace($flag_arr,'',$content),ENT_QUOTES,'UTF-8'))));
$content_filter 就是處理後的使用者資料,然後再進行 wordFilter($content_filter ) 過濾操作