仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
內鏈:顧名思意就是在自己網站的內容中的相關文字加入連結,並且連結到網站內部的相關頁面。 合理的網站內空連結構造,能提高搜尋引擎的收錄與網站權重。 相對外部連結,內部連結也很重要。
傳統方式
以前我們做文章系統或新聞發佈系統的時候,做文章內鏈(標籤)的時候,通常是通過以下方式來實現的:
資料庫:article(文章表)欄位(id, title, body, adddate, userid),keyword(內鏈表)欄位(id, name, link)
在發佈文章的時候,迴圈內鏈表內的所有,來替換文章的body。
這樣確實是實現了想要的功能,但是如果我們的內鏈表的資料達到很大的數目,比如2W、5W或更多的時候。 每發佈和修改一片文章的效率是可想而知的。 那麼網易的新聞、百度的百科等這樣打大型網站是如何實現的呢?如果按照以上的做法,那系統在幾個月後就直接崩潰了。
分析比較
一篇正常的文章會有多少字(不計HTML代碼)?1W?我想1W的文章已經算是很長的了,而且想在如果直接在一個頁面顯示1W的文章相信沒有幾個人有耐心能看完的。 為了頁面美觀和使用者體驗,編輯通常都是將內容過多、篇幅超長內容的文章分段處理(分為幾篇文章,或分章節)。 如果我們能事先將可能出現內鏈的字從文章中提取出來,再從資料庫裡檢索,這樣效率是不是就可以得到很大的提高?答案是肯定的。 我們就拿1W字的文章來說,假設文章的所有文字都需要內鏈,迴圈的次數是1W次。 比上面的例子假設要強得多吧?
在傳統方式中,不管你要不要,把內鏈表的東西全查一邊。 而下面這種思路是事先將有可能出現內鏈的字詞全部整理出來,再用這些詞分別去檢索內鏈表。 這樣一比較問題就出來了。
新思路就是:從文章中取出需要內鏈的字詞,然後去查詢內鏈表。
可行操作
我們暫且把傳統方式稱為被動方式,把新思路的方法稱為主動方式。
主動方式的實現方法如下。
利用中文分詞技術,我們可以對一篇文章進行分詞。 然後根據分詞後的詞表,過濾掉常用的物主代詞、副詞、感歎詞等。 把名詞、品牌、地名、商標等留下,或者根據自己的詞庫表來分詞。 然後把剩餘的字詞去檢索內鏈表,如果有存在,我們就做上連結,不存在就PASS。
以上只是思路的一個初步構思,在實際實現過程中需要考慮的因素很多。 我覺得重點就在分詞這個環節。