網站文章內鏈的一個思路

來源:互聯網
上載者:User

  內鏈:顧名思意就是在自己網站的內容中的相關文字加入連結,並且連結到網站內部的相關頁面。合理的網站內空連結構造,能提高搜尋引擎的收錄與網站權重。相對外部連結,內部連結也很重要。

  傳統方式

  以前我們做文章系統或新聞發布系統的時候,做文章內鏈(標籤)的時候,通常是通過以下方式來實現的:

  資料庫:article(文章表)欄位(id, title, body, adddate, userid),keyword(內鏈表)欄位(id, name, link)

  在發布文章的時候,迴圈內鏈表內的所有,來替換文章的body。

  這樣確實是實現了想要的功能,但是如果我們的內鏈表的資料達到很大的數目,比如2W、5W或更多的時候。每發布和修改一片文章的效率是可想而知的。那麼網易的新聞、百度的百科等這樣打大型網站是如何?的呢?如果按照以上的做法,那系統在幾個月後就直接崩潰了。

  分析比較

  一篇正常的文章會有多少字(不計HTML代碼)?1W?我想1W的文章已經算是很長的了,而且想在如果直接在一個頁面顯示1W的文章相信沒有幾個人有耐心能看完的。為了頁面美觀和使用者體驗,編輯通常都是將內容過多、篇幅超長內容的文章分段處理(分為幾篇文章,或分章節)。如果我們能事先將可能出現內鏈的字從文章中提取出來,再從資料庫裡檢索,這樣效率是不是就可以得到很大的提高?答案是肯定的。我們就拿1W字的文章來說,假設文章的所有文字都需要內鏈,迴圈的次數是1W次。比上面的例子假設要強得多吧?

  在傳統方式中,不管你要不要,把內鏈表的東西全查一邊。而下面這種思路是事先將有可能出現內鏈的字詞全部整理出來,再用這些詞分別去檢索內鏈表。這樣一比較問題就出來了。

  新思路就是:從文章中取出需要內鏈的字詞,然後去查詢內鏈表。

  可行操作

  我們暫且把傳統方式稱為被動方式,把新思路的方法稱為主動方式。

  主動方式的實現方法如下。

  利用中文分詞技術,我們可以對一篇文章進行分詞。然後根據分詞後的詞表,過濾掉常用的物主代詞、副詞、感歎詞等。把名詞、品牌、地名、商標等留下,或者根據自己的詞庫表來分詞。然後把剩餘的字詞去檢索內鏈表,如果有存在,我們就坐上連結,不存在就PASS。

  以上只是思路的一個初步構思,在實際實現過程中需要考慮的因素很多。我覺得重點就在分詞這個環節。

  來源:讀者沈力投稿



相關文章

Alibaba Cloud 10 Year Anniversary

With You, We are Shaping a Digital World, 2009-2019

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。