Jsp敏感詞過濾

來源:互聯網
上載者:User

標籤:演算法   tps   public   jsp   oid   擷取   super   暴力   http   

  Jsp敏感詞過濾  大部分論壇、網站等,為了方便管理,都進行了關于敏感詞的設定。  在多數網站,敏感詞一般是指帶有敏感政治傾向(或反執政黨傾向)、暴力傾向、不健康色彩的詞或不文明語,也有一些網站根據自身實際情況,設定一些只適用於本網站的特殊敏感詞。比如,當你發貼的時候帶有某些事先設定的詞時,這個貼是不能發出的。或者這個詞被自動替換為星號(*)或叉號(X)等,或者說是被和諧掉了。  在我看來敏感詞過濾最重要的是在寫過濾詞彙的演算法,如何過濾出大批量的敏感詞,我感覺DFA的思想不錯   DFA簡介

         在實現文字過濾的演算法中,DFA是唯一比較好的實現演算法。DFA即Deterministic Finite Automaton,也就是確定有窮自動機,它是是通過event和當前的state得到下一個state,即event+state=nextstate。展示了其狀態的轉換

         在這幅圖中大寫字母(S、U、V、Q)都是狀態,小寫字母a、b為動作。通過我們可以看到如下關係

a b b 
S -----> U S -----> V U -----> V

         在實現敏感詞過濾的演算法中,我們必須要減少運算,而DFA在DFA演算法中幾乎沒有什麼計算,有的只是狀態的轉換。

    Java實現DFA演算法實現敏感詞過濾

         在Java中實現敏感詞過濾的關鍵就是DFA演算法的實現。首先我們對進行剖析。在這過程中我們認為下面這種結構會更加清晰明了。

 

         同時這裡沒有狀態轉換,沒有動作,有的只是Query(尋找)。我們可以認為,通過S query U、V,通過U query V、P,通過V query U P。通過這樣的轉變我們可以將狀態的轉換轉變為使用Java集合的尋找。

誠然,加入在我們的敏感詞庫中存在如下幾個敏感詞:日本人、日本鬼子、毛.澤.東。那麼我需要構建成一個什麼樣的結構呢?

首先:query 日 ---> {本}、query 本 --->{人、鬼子}、query 人 --->{null}、query 鬼 ---> {子}。形如下結構:

 

         下面我們在對這圖進行擴充:

 

         這樣我們就將我們的敏感詞庫構建成了一個類似與一顆一顆的樹,這樣我們判斷一個詞是否為敏感詞時就大大減少了檢索的匹配範圍。比如我們要判斷日本人,根據第一個字我們就可以確認需要檢索的是那棵樹,然後再在這棵樹中進行檢索。

  這個思想留著以後用,我先寫一個過濾詞彙的一些簡單方法,沒有涉及到演算法

  Java代碼實現  基本思路:重寫HttpServletRequestWrapper中的getParameter方法,讓使用者輸入的字通過這個過濾,寫一個類繼承他,重寫方法,在寫一個過濾詞彙的詞典,來與輸入的對比

先寫一個jsp頁面,js是用Ajax去重新整理的,最近學的想用用試試看,感覺不錯,Ajax是需要引js檔案的

<body>    <input type="text" name="word"  onblur="filter(this.value);" id="filter"/>    <input type="submit" value="敏感詞過濾" /><script type="text/javascript" src="js/jquery.js"></script><script type="text/javascript">    function filter(num){        $.ajax({            type:"post",//提交方式            url:"FilterWordServlet",            async:true,//是否非同步請求            dataType:"html",//資料的傳回型別            data:{"num":num},//資料傳過去的值            success:function(data,textStatus){//成功的執行之後,回調這個函數處理事務                $("#filter").val(data);            },            error:function(){//失敗執行這個函數,處理失敗的交易                alert("error");            }        })    }</script></body>

再繼承HttpServletRequestWrapper在重寫getParameter方法,

//主要思路是繼承HttpServletRequestWrapper,去改寫他的getParameter方法,讓其有過濾的業務public class WordFilter extends HttpServletRequestWrapper{    public WordFilter(HttpServletRequest request) {        super(request);        // TODO Auto-generated constructor stub    }    @Override    public String getParameter(String name){        //先得到父親的方法,傳入值,得到的值在跟過濾字典中的比較看是否含有,有則替換,沒有放過返回        String word=super.getParameter(name);        //調用字典中的文字        List<String> list=Words.getList();        for (String string : list) {            //判斷是否含有這樣字典中的文字            if (word.contains(string)) {                    //將字串中含有的替換掉                word=word.replace(string, "**");            }        }        return word;    }    }

再寫一個Servlet,去擷取使用者輸入的字,進行過濾操作

@WebServlet("/FilterWordServlet")public class FilterWordServlet extends HttpServlet {    private static final long serialVersionUID = 1L;    protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {        //佈建要求和編碼格式        request.setCharacterEncoding("utf-8");        response.setCharacterEncoding("utf-8");        //自己建立的要求方法,繼承與原來的,改寫了getParameter方法讓其有過濾的業務        WordFilter wFilter=new WordFilter(request);         String string=wFilter.getParameter("num");         System.out.println("---------------");         //out的回應程式法。輸出在頁面上,讓ajax得到這個去處理一些業務         PrintWriter out=response.getWriter();         out.println(string);             }        protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {        // TODO Auto-generated method stub        doGet(request, response);    }}

我自己建了一個list集合的過濾詞彙,以後修改可以從這裡開始詞彙的搜尋演算法,先建一個詞彙類

public class Words {    //過濾詞彙的詞典    static List<String> list=new ArrayList<>();    static{        list.add("你妹的");        list.add("sb");        list.add("滾");    }    public static List<String> getList() {        return list;    }    public static void setList(List<String> list) {        Words.list = list;    }    }

 

這隻是最基礎的一種。進階的需要演算法的實現,可以思考一下這個DFA演算法,我感覺很不錯

 

 

 

 

 

 

 

 

 

 

 

Jsp敏感詞過濾

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.