如何使用java的Regex提取html標籤?

來源:互聯網
上載者:User


import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {

   public static void main(String args[]) {
       String html = "<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
       // 簡單樣本,相當於String html=getHtml(String urlString);
       List resultList = getContext(html);
       for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
           String context = (String) iterator.next();
           System.out.println(context);
       }
   }
   
   /**
    * 提取"<title>XXXX</title>"中的文字XXXX
    * @param html 要解析的html文檔內容
    * @return 解析結果,可以多次匹配,每次匹配的結果按文檔中出現的先後順序添加進結果List
    */
   public static List getContext(String html) {
       List resultList = new ArrayList();
       Pattern p = Pattern.compile("<title>([^</title>]*)");//匹配<title>開頭,</title>結尾的文檔
       Matcher m = p.matcher(html );//開始編譯
       while (m.find()) {
           resultList.add(m.group(1));//擷取被匹配的部分
       }
       return resultList;
   }
}

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.