爬蟲-----HTML解析

來源:互聯網
上載者:User

標籤:隱藏   需要   網站   html   一個   java   載入   接收   樣式   

對HTML的解析:

  在解析複雜的HTML的頁面時,需要避免一些問題,好讓爬蟲工作變得得心應手。

  

  ? 尋找“列印此頁”的連結,或者看看網站有沒有HTML樣式更友好的移動版(把自己 的要求標頭設定成處於行動裝置的狀態,然後接收網站移動版)。

  ? 尋找隱藏在JavaScript檔案裡的資訊。要實現這一點,可能需要查看網頁載入的 JavaScript 檔案。雖然網頁標題經常會用到,但是這個資訊也許可以從網頁的URL連結裡擷取。

  • 如果要找的資訊只存在於一個網站上,別處沒有,那確實是運氣不佳。如果不只限於這個網站,那麼可以找找其他資料來源。有沒有其他網站也顯示了同樣的資料? 網站上顯示的資料是不是從其他網站上抓取後攢出來的?

爬蟲-----HTML解析

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.