我喜歡流覽網頁時多個心眼。 這個心眼需要觀察許多元素,每個元素都能提供資訊。 孤立的一個元素不重要,但是多個元素組成的資訊,往往能獲得有價值的判斷。 那麼從這些元素說起:
永遠不忽略URL
URL是一個重要的資訊,職業敏感讓分析師絕對不會忽略URL位址的特點。 URL反映出網站的蛛絲馬跡,直接以例子說話:
$URL位址所在的功能變數名稱
很多人在網上被騙,很大原因就是從來不關注URL所在的功能變數名稱。
比如:HTTP://www.taobao.ipx32.com/about.html,看似弱智的騙術卻讓很多網友 誤以為是淘寶的網站而落入圈套。 這是ipx32域的網站,而不是taobao的網站。
在流覽的過程中,時刻關注頁面的URL功能變數名稱,可以知道點選連結是否離開本站,而關注新到的網站功能變數名稱有何特徵。 在許多大客戶的行銷過程中,跨域的連結是很常 見的,不同的域意味著站長或廣告主的監測工具與策略也會有所不同。 比如:在IT門戶中常有Intel,華碩,HP等硬體廠商的專題頁面(可能會添加Google Analytics或Nielsen的監測代碼),這些頁面中會有連結將訪問者導入新的功能變數名稱, 如intel.com.cn,或者hp.com.cn(可能 會添加Omniture、HBX或Webtrends的監測代碼)。 這種跨域的URL是顯而易見的。 $ URL位址所包含的參數
URL中包含參數是再常見不過了,但每個參數都有含義,關注它們能夠全面掌握網站的功能特點。 比如:
HTTP://www.chinawebanalytics.cn/?p=917 這是Sidney的新博客的位址,可以分析這個博客運營了挺長的一段時間了,ID號都排到917了。 HTTP://adsclick.qq.com/adsclick?oid=1112901&loc=QQ_SX_JY_Test6&url=HTTP://www.52-abc.com/這是QQ首頁的右側廣告連結 ,裡面豐富的參數告訴了我們對這些廣告位的名稱定義,以及跳轉的目標位址。 HTTP://www.soso.com/q?sp=S&sc=web&cid=w.q.in.sb.web&ty=1&bn=&op=entry&kw=&w=WA 這是騰訊搜搜的「WA」結果頁,告訴我們搜索關鍵字參數是用W變數。 還有一些別的參數,也許一下子看不懂,如果有需要可再多次試驗研究,就可以確定。
總之,對URL的參數關注是分析師的基本功。
$ URL位址所指向的檔案類型
URL中會包括檔案類型的資訊。
HTML/HTM:這說明這種網站的頁面是經過靜態化處理的,以方便搜尋引擎抓取。 現在大部分門戶與CMS系 統都會有靜態化處理功能。 再有一些簡單的個人網頁也會使用html檔案名。 JSP/PHP/ASPX/ASP:這說明這是一種動態頁面,網頁原始檔案是存在伺服器端,這些檔的特性可自 行搜索瞭解。 無類型:有些位址,HTTP://www.ectend.com,這是屬於伺服器 自訂了主頁,效果其實是HTTP://www.ectend.com/index.php.do:HTTP://www.ems.com.cn/ qcgzOutQueryAction.do?reqCode=gotoSearch 這種情況是jsp開發的網站。 其實不需要完全知道,能輔助即可。 這種網站一般有一定的技術含量,但技術實力不強,不夠先進,常見於一些國資背景企業的功能 型網頁,或者網站的後臺。 因為時下好的網站,在前端頁面都能將URL隱藏得很好,不會出現.do這種情況。 另外:還有一些開源專案的網站URL位址比較特別,如Wordpress:HTTP://www.ectend.com/index.php/excellent-analytics/; 或 Wikipedia:HTTP:// zh.wikipedia.org/wiki/Wikipedia:首頁。 $ URL位址命名的特徵
從URL的命名也能發現蹊蹺或有趣的事,比如:
淘寶的URL特徵就很有意思,是通過base 64編碼的。 (感謝money的指點,修正原來錯誤,很有收穫,再次說明URL裡有乾坤),很 多「-」。 我推測「–」之間代表著變數,如果中間沒有值,就代表這個變數沒有定義。
HTTP://list.taobao.com/browse/50018957-50018960/ n-1-1---------------------0---------yes---------------------2-------b--40--commend-0-all-50018960.htm?ssid=r18 ?ad_id=&am_id=&cm_id=&pm_id=凡客誠品的URL也很有特色:
HTTP://www.vancl.com/Product_1E10000/RuanNiuPiXiDaiXiuXianXie+HeiSe.html, 產品拼音+顏色。 另外還能找出他們員工粗心之處:我們知道中文括弧()與英文括弧()不同,URL位址中只能出現英文括弧,中文括弧會翻譯成編碼。 可見Vancl 的員工在產品錄入時沒有統一標準:
HTTP://www.vancl.com/CategoryList-1440-1--1/GaoJiMianTangQuanMianChenShan%EF%BC%88ZunGuiKuan%EF%BC%89.html
HTTP://www.vancl.com/CategoryList-1324-1--1/ShangWuXiuXianKu(BiaoZhunKuan).html網頁原始檔案
對於好奇的網頁,一定要查看網頁原始檔案。 通過原始檔案的快速流覽能夠確定網站的技術實力、設計人員的素質,監測工具與監測方法的部署情況。 一般關注以 下四點:
代碼是否乾淨還是冗煩部署了哪些監測工具監測工具的代碼部署的位置與順序是否加入了可疑代碼查看本文來源