仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
互聯網存在的價值就是低成本、高容量、多方的資訊傳遞。
互聯網每一個殺手級應用都離不開資訊和傳遞這兩個關鍵字。 郵箱是、即時通訊是、搜尋引擎還是、將來的殺手級應用還依然離不開資訊和傳遞這兩個關鍵字。
搜尋引擎的發展歷史是一個挖掘使用者需求然後滿足使用者需求的過程。 在可以預見的不久的將來,從產品角度看待網頁搜尋引擎的發展大致有如下幾個方面:
1. 確解使用者之意 資訊抽取,優化排序
使用者在搜索用到「最新」、「免費」、「官方網站」、「北京」、「電話」等關鍵字的時候並不是一定需要網頁中有這個關鍵字,而是找這類資訊。
使用者在找「最新」的時候實際上是希望獲取其它詞彙的最新相關內容,而不一定是需要含有「最新」這兩個詞彙的。 所以在排序的時候考慮見新的網頁排列在靠前位置更滿足了使用者的需求。
使用者搜索「十八街麻花 北京」是想找在北京的十八街麻花的位址或者電話。
使用者搜索「北京澤通華程科技發展有限公司 電話」的時候是想找電話號碼。
在處理這類請求需要對地理位置資訊和「電話」這類詞彙進行前端分析,在索引的時候識別電話號碼、位址資訊,在排序的時候將有相關資訊的頁面放置在前面、並且在做摘要提取的時候直接體現使用者需要。
2. 基於視覺網頁塊分析
這項技術激動人心,對於優化網頁的排序、自動摘要的品質很有説明。 網頁搜尋引擎可以全文檢索一樣在幾乎純淨的資料中處理,再加上網頁中富有的其它資訊,你說網頁搜索的相關性能不大幅度提升嗎?
3. 網頁庫內容分類
使用者在搜索「申花」,那他有可能是兩個需求,1.足球相關 2.申花電器 3.其它
如果使用者搜索「申花」出來的全部是足球相關資訊,這顯然不能代表不同線民的需求。 作為一個入口而言,如果將不同類型(行業不同、知識類型不同)的資訊排列在首頁,那使用者會感覺很happy,滿足了多樣性的需求。
這也可為將來做個人化搜索提供準備。
4. 潛在相關性
搜索「恐怖」,出現一篇拉登的新聞,雖然這篇文章裡面沒有「恐怖」這個關鍵字。
搜索「番茄」出現「番茄」,但是網頁中沒有「番茄」這個關鍵字。
這個技術好像還不是很成熟。
5. 網頁結構化資訊抽取類技術,網頁上文本內容的相關性分析
結構化資訊抽取實在是未來應用前景最好的一種技術,自動的抽取任意網頁上的結構化資料。 主要可用垂直搜尋引擎:對網頁數據進行採集、抽取、深度加工後為使用者提供更好的、更專業的服務。
結構化資訊抽取可以識別網頁中文本之間的相關度,可用於改善多詞彙檢索的關聯度(計算偏移量不僅僅在文本距離上而且在表格儲存格的相關性上);改善連結的相關性;改善檔和文本的相關性......
地圖搜索、黃頁搜索、mp3搜索、圖片搜索、bbs搜索等等各種搜索都離不開網頁結構化資訊抽取。
6. 自然語言處理、簡單的語意語法分析
NLP還有很遠的路要走,在走路的過程中也可以獲得很多可應用的價值。 說不定NLP不很成功,但是有可能催生了某種新技術的非常成功。
而NLP不需要完全成功前就可以使用他了。
搜尋引擎可以根據內容來進行簡易的語法分析,將某些呈現在使用者面前。 比如google的「DEFINE:「就用到了這種方法、同義字的識別等都可以用到這種簡單的語法分析來搞定!還可以對具有某類語法的形式的正文進行關鍵字調權,改善檢索效果。
7. 重複識別
互聯網的資料冗余實在太厲害了,一篇文章可能會被轉載數千數萬次。
識別重複的網站、網頁、重複的正文、重複的段落識別............
讓使用者感覺到「哇噻!這裡的內容不重複!」
同時對重複的資訊進行調權,裝載量大的資訊一般比較受歡迎,應該具有更高的權值。 但是要對新聞類的內容進行識別,一定時間內加權、一定時間後降權。
8. 行業優化
搜尋引擎的行業化是不可避免的。 唯一影響搜尋引擎行業化的門檻就是技術還是存在難度(這裡說的技術不是那種小兒科的基於範本的中繼資料採集分詞索引)。
但是網頁搜尋引擎可以最大程度的行業化,在這點百度顯得卓有遠見。 建立百度知道不僅僅可以豐富內容、語料庫、拴住使用者、甚至盈利。 更大的用處可以用百度知道的各個行業的專業搜索使用者群來改善百度搜索對各個行業的效果的使用者分析,確解各行業使用者之意百度可以很低成本的通達,調動專業人員來優化效果百度可以做到。
9. 相關搜索
前幾天一個朋友對我說「相關搜索」的主要作用是兩個,1.提示給網友其它網友搜索的詞彙(説明不太會選擇關鍵字的使用者選擇關鍵字、提供使用者之間的一種交互)2.推薦提供效果更好的更相關的相關搜索詞彙
第一個功能基本上滿足了。 第二個搜尋引擎基本上還很不到位。 如何完成第二個功能,很難。 但是要做到一定程度,很容易。
10. 採集更多的資料
互聯網上的資料只是整個世界的資料的很少的一部分,搜尋引擎已經不滿足于各個螞蟻搬磚頭的網站的速度了。 通過某種低成本高效的資料獲取方式採集線下的資料、人腦中的資料是搜尋引擎公司追逐的。
spider製造+使用者製造+自己製造+合作製造
11. 跟蹤互聯網變化,細節上的優化,博弈
搜尋引擎是和互聯網各網站、線民密切相關的一個應用,其資料的全面性和資料來源、採集系統密切相關。
針對網頁的結構變化、內容變化,線民的需求變化,需要不斷的改善。 對各種各類細節的改善都是搜尋引擎的難點,也是必須走的道路,搜尋引擎的發展就是關注細節,一個一個問題解決。
還有,和搜尋引擎優化全民化的的博弈。 本文由HTTP://WWW.DIGCARS.COM 供稿。