關於網站文章內鏈的一個思路

來源:互聯網
上載者:User
關鍵字 我們 如果 文章

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

內鏈:顧名思意就是在自己網站的內容中的相關文字加入連結,並且連結到網站內部的相關頁面。 合理的網站內空連結構造,能提高搜尋引擎的收錄與網站權重。 相對外部連結,內部連結也很重要。

傳統方式

以前我們做文章系統或新聞發佈系統的時候,做文章內鏈(標籤)的時候,通常是通過以下方式來實現的:

資料庫:article(文章表)欄位(id, title, body, adddate, userid),keyword(內鏈表)欄位(id, name, link)

在發佈文章的時候,迴圈內鏈表內的所有,來替換文章的body。

這樣確實是實現了想要的功能,但是如果我們的內鏈表的資料達到很大的數目,比如2W、5W或更多的時候。 每發佈和修改一片文章的效率是可想而知的。 那麼網易的新聞、百度的百科等這樣打大型網站是如何實現的呢?如果按照以上的做法,那系統在幾個月後就直接崩潰了。

分析比較

一篇正常的文章會有多少字(不計HTML代碼)?1W?我想1W的文章已經算是很長的了,而且想在如果直接在一個頁面顯示1W的文章相信沒有幾個人有耐心能看完的。 為了頁面美觀和使用者體驗,編輯通常都是將內容過多、篇幅超長內容的文章分段處理(分為幾篇文章,或分章節)。 如果我們能事先將可能出現內鏈的字從文章中提取出來,再從資料庫裡檢索,這樣效率是不是就可以得到很大的提高?答案是肯定的。 我們就拿1W字的文章來說,假設文章的所有文字都需要內鏈,迴圈的次數是1W次。 比上面的例子假設要強得多吧?

在傳統方式中,不管你要不要,把內鏈表的東西全查一邊。 而下面這種思路是事先將有可能出現內鏈的字詞全部整理出來,再用這些詞分別去檢索內鏈表。 這樣一比較問題就出來了。

新思路就是:從文章中取出需要內鏈的字詞,然後去查詢內鏈表。

可行操作

我們暫且把傳統方式稱為被動方式,把新思路的方法稱為主動方式。

主動方式的實現方法如下。

利用中文分詞技術,我們可以對一篇文章進行分詞。 然後根據分詞後的詞表,過濾掉常用的物主代詞、副詞、感歎詞等。 把名詞、品牌、地名、商標等留下,或者根據自己的詞庫表來分詞。 然後把剩餘的字詞去檢索內鏈表,如果有存在,我們就做上連結,不存在就PASS。

以上只是思路的一個初步構思,在實際實現過程中需要考慮的因素很多。 我覺得重點就在分詞這個環節。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.