目前互連網上公布出來的本文提取演算法,大家可以綜合比較下

來源:互聯網
上載者:User

 本文一般應該是網頁中最長的部分,如何抽取本文,這部分是最為核心的。因為如果不能很好的提取原有文章的內容和樣式,那麼搜尋出來的東西就會慘不忍睹.根本就沒有使用價值。

  在做本文抽模數塊之前曾經參考過很多抽模數式,有配置模版的,有搞視覺匹配的.有搞關鍵字識別的.挨個做了分析首先配置摸版是不太現實的,因為在搜尋
技術資訊的時候,根本不知道會搜尋到哪個網站,也根本沒精力去配置摸版。所以這個行不通。基於視覺效果的分析,這個難度比較大,而且只適合於規範的網站,
而現在很多網站根本不規範,廣告連結漫天飛.人家都把最好的位置留給廣告了.而且我一直懷疑這個模式的可行性,它只是一個善意的推測.所以這方面沒做過多
嘗試。


========================================

目前互連網上公布出來的本文提取演算法,大家可以綜合比較下,一起來測試下哪個更好用。


詞網--北京詞網科技有限公司
http://demo.cikuu.com/cgi-bin/cgi-contex


獵兔網頁本文提取
http://www.lietu.com/extract/


PHP版網頁本文提取
http://www.woniu.us/get_content_demo/


網頁本文提取分析(DEMO)
http://61.128.196.27/txt


個人認為http://61.128.196.27/txt
這個提取最牛,基本上無論什麼頁面都能提取出來,而且能有效保持原文風格、圖片、連結。

 

 

 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.