搜尋子網域名稱
比如搜尋jb51.net會把www.jb51.net、jb51.net、host.jb51.net等都搜尋出來。
如果使用mysql用like的話效率是非常低的,幾百萬甚至上千萬的資料那是沒有辦法使用的,於是採取sphinx來做。
在使用的過程中發現了諸多問題,這裡將其總結起來,也讓不知道的朋友注意下這些字元。
分析:
sphinx是全文索引,它搜尋的是包含的記錄。
首先如果我們不做任何設定的話,搜尋jb51.net會出現把aajb51.net、jb51.a.cn、jb51.net.com(當然這個網域名稱尾碼不存在,但是會有符合相應規則的網域名稱,這裡只舉例)等等。
為什麼會出現這種情況呢?
我們使用./search -c 設定檔 -i 索引名 'jb51.net' 搜尋的時候會發現下面words部分被分成了兩部分'jb51'和'cn',預設以.作為分隔字元,如果我們不想讓它做為分隔字元,就需要把.添加到charset_table裡面,這裡需要說的是我們搜尋網域名稱只需要有字母、數字、"-"等字元,其他的不需要。設定如下:
charset_table = 0..9,A..Z->a..z, a..z,U+002e,U+002d,U+0040,U+0060 #其中U+002e代表".",U+002d代表"-",U+0040代表"@",U+0060代表"`",這裡為ascii碼值。
這樣會解決掉搜出jb51.a.cn這類網域名稱。
那麼jb51.net.com這類呢?我們可以在索引的欄位中增加惟一尾碼比如“XXXXX”,concat(search,'XXXXX')這樣,就不會出來了。
現在就剩下aajb51.net這類網域名稱,我們使用關鍵字“ '".jb51.net"' ”(注意是單引號裡面套雙引號)這樣來搜尋,主網域名稱單獨加上,但是使用的過程中發現這樣搜出了與這個網域名稱無關的網域名稱,比如aa.bb.cn這樣,經後來研究是"."的問題,後來把"."替換成"@",來搜尋又出現12306等好多網域名稱無法讀取到的問題,後來經研究估計這些特殊字元在sphinx中都有特殊的意義,於是找到了"`"這個字元,換成這個以後一切才算正常了。
注意:將"."替換成"`"等相應字元後需在charset_table裡增加這個字元,不然是被忽略的。
所以在搜尋的過程中我們需要注意下這些特殊字元。