PHP實現通過中文字元比率來判斷垃圾評論的方法_php技巧

來源:互聯網
上載者:User

本文執行個體講述了PHP實現通過中文字元比率來判斷垃圾評論的方法。分享給大家供大家參考。具體實現方法如下:

一、需求:

最近一段時間常常出現這類垃圾評論:一大段英文字元裡夾雜一兩個生僻漢字,包含了中文字元,而且又沒包含啥中文的敏感詞,所以就堂而皇之的通過了評論過濾。對這類評論的處理可以採取判斷中文字元的比率來確認,但是也會存在一定的誤判。

二、解決方案:

要用到php的兩個函數strlen和mb_strlen,strlen會把單個漢字長度認定為3,mb_strlen單個漢字長度為1。同一段字元通過兩個函數取得的長度之差就是實際漢字字元數的二倍,除以二就得到實際的字元數,在與mb_strlen取得的長度求比值就得到漢字佔總字元數的比率。

三、實現代碼:

複製代碼 代碼如下:
$len_all = strlen($comment['text']);                     
 $len_st = mb_strlen($comment['text'], 'UTF-8');
 if(($len_all-$len_st)/(2*$len_st) < 0.5){
        $error = "中文字元少於百分之五十"; 
 }

如果在評論中貼代碼的話,就會造成中文字元比率低,需要過濾掉代碼欄位再來判斷。

希望本文所述對大家的PHP程式設計有所協助。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.