仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
注:實在不知道起什麼題目為好,文章內容大部分是從個人使用體驗而推匯出的改進。 本人不是搜尋引擎的專業人士,權當是對之前所瞭解知識的整理得了。
一、搜尋引擎原理和使用者使用習慣
1.1 搜尋引擎是一個可供所有人檢索的資料庫
圖1:搜尋引擎簡單的人機交互過程
其中:
1)被檢索的資料庫即搜尋引擎所抓取的網頁數據。
通過蜘蛛爬取到原始資料後,搜尋引擎會對其進行處理後才入庫。 即搜尋引擎的搜索演算法,比如大家熟知名字(當然是名字啦,內容原理是最高機密)的Google的PageRank。
2)搜尋引擎是高度簡化後的產品。
使用者需要做的即是輸入想要檢索的關鍵字,確定,查看結果。 這裡有個需要說明的是,使用者連搜尋條件都不需要輸入。 而對搜尋引擎來講,不僅要在海量資料中快速找到相關結果,還要揣測使用者的期望並提取正確的內容給使用者,內部的機制已經不能用繁瑣來形容了。
這個難度就好比在大量圖書中快速準確找出某一個未知問題的答案一樣。
圖2:剛拍攝的國家圖書館,使用了濾鏡。
1.2 搜尋引擎資料處理過程
搜尋引擎是一個超級複雜的系統,內部具體的處理規則和技術原理不可能是簡單的闡述清楚。 我們通過產品的思維來理解一下這個過程即可。 拿寫論文的例子分析即可,論文在成文之前材料的整理過程大致如下:
1)從網路、圖書館、書籍雜誌、講座等等收集大量原始資料
2)排除相關重複內容
3)排除跟主題關聯性不大的內容
4)根據主題、邏輯順序、優先順序等進行人為的計算、分析、排版、處理等。 這個過程是最為繁瑣和耗時的,使用的武器便是史上最牛逼的工具:人腦!!!
5)成文輸入結果
忍不住再重申一下:所有的產品其實都是在模仿人類的實際社會活動。。。 明白這個對於產品經理很重要哦。
搜尋引擎資料處理流程基本類似(想要瞭解的可以自行搜索相關資料),唯一的也是搜尋引擎想消除的區別:
一個是有感情有邏輯的人腦在分析,一個是機器按照一定規則來分析。
所以,想要搜尋結果更精准,那就讓它像人腦一樣分析輸入資料並輸入結果。
恩,我也覺得不怎麼現實,但是可以想辦法讓他比較精准。
二、獲取資訊的方式
我們還是先從日常行為的來入手然後再推導產品的操作方式。
2.1 通常,我們從周圍環境如下獲取資訊:
1、 已知獲取途徑和方法
如想獲知今天美元對人民幣的匯率抑或北京飛青島的機票價格和時刻表,因為途徑已知,此類資訊只要按圖索驥即可。 差別在於不同途徑的成本。 匯率可通過網路查詢、電話諮詢、銀行網點詢問等,顯然第一種方法更便捷。 (的確是廢話)。
這些資訊都是規則化,概念明確的。
2、瞭解核心關鍵需要整理的
如剛才提到的論文寫作,假設題目為弱關係社區設計,我們就需要去詢問什麼弱關係,和強關係有什麼區別,已有的設計案例是什麼。
這些資訊的獲取建立在人為分析的前提下。
2.2 提問方式
還是舉兩個例子。
1、 在形成完整的序言邏輯前,小孩子提問的方式是最簡單的關鍵字,大人們要做的便是通過他的咿呀來理解孩子的需求。 一般大人都能準確預測,原因在於其非常瞭解孩子的習慣、行為、方式、特徵等。
2、有了完整的語言邏輯後,我們一般選擇直接提問:今天的匯率是什麼?北京飛青島的票價多少,都是幾點的?人腦也完全可以處理這些問題。 當然,人是複雜的感情動物,好多東西還不能完全通過字面意思去理解。 說一個不是很恰當的例子:約會中,女孩提問你覺得現在的房價如何。 字面意思是房價,潛在意思是你的購房能力如何。
2.3 搜尋引擎該這麼處理
假設搜尋引擎具有跟我們一樣的大腦的話,那他處理問題的方式應該是這樣的:
1、分析所查詢的問題是檢索關鍵字還是提問
2、結果分為三種,
答案已知直接輸出結果;
途徑已知,輸入解決途徑;
提供最符合使用者預期的排序結果共使用者挑選
3、不同的情況下會出現相互組合。 當搜尋引擎對關鍵字理解越充分時,結果越準確。
三、改進方法和策略
再總結一下使用者的操作行為:
3.1 當使用者輸入的為關鍵字時:
1)已知使用者的特徵,根據其特徵對搜尋結果進行符合其本身的排序
2)未知使用者特徵,則視為普通的查詢。 提供結構話的搜尋結果,即具有相關性的提示,相關性越高,結果越靠前。
3.2 當使用者進行提問時:
1)分析提問的語義,簡單的語義輸出結果或途徑
2) 無法分析確切的語義,提供多個結果給使用者,同時根據使用者的回饋不斷調整結果。 這也是使用者特徵的一部分。
3.3 搜尋結果出現交叉時,痛癢還是需要參考使用者的行為特徵來對結果排序。
有幾個名詞,感興趣的可再去搜索一下:Baidu-框計算; Google-知識圖譜; Facebook-社交圖譜搜索; Siri-語義搜索;概率-瑪律可夫模型。
說白了,就是
搜尋引擎對使用者的搜索意圖越理解,資料庫越完備,輸出的結果越精准。
還是舉個例子來佐證一下:同樣一個問題,好朋友的解答一般比陌生人要好,因為好朋友更瞭解你提問的動機,背景甚至期望得到的答案。
問題來了,電腦畢竟不是生物,他執行的僅僅是規則。 能做的便是收集你的一些行為和特徵來推斷你的喜好:
1、個人資訊:姓名、性別、籍貫、職業、行業、興趣愛好、使用偏好等。
2、個人行為:搜索記錄、流覽記錄、社交行為等
3、處理方法:聚類、分類、資料採礦
恩,其實是一個推薦引擎。 更多知識和操作方法可以看一下Ibm Developer的文章:探索推薦引擎的秘密。
———-分割線————
本來想把推薦演算法寫一下的,查了一部分資料後發現自己還是瞭解的太少,還需要好好學習啊。 未完待續。