mysql中使用sphinx搜尋子網域名稱需注意的問題

來源:互聯網
上載者:User

搜尋子網域名稱

比如搜尋jb51.net會把www.jb51.net、jb51.net、host.jb51.net等都搜尋出來。

如果使用mysql用like的話效率是非常低的,幾百萬甚至上千萬的資料那是沒有辦法使用的,於是採取sphinx來做。

在使用的過程中發現了諸多問題,這裡將其總結起來,也讓不知道的朋友注意下這些字元。

分析:
sphinx是全文索引,它搜尋的是包含的記錄。

首先如果我們不做任何設定的話,搜尋jb51.net會出現把aajb51.net、jb51.a.cn、jb51.net.com(當然這個網域名稱尾碼不存在,但是會有符合相應規則的網域名稱,這裡只舉例)等等。

為什麼會出現這種情況呢?

我們使用./search -c 設定檔 -i 索引名 'jb51.net' 搜尋的時候會發現下面words部分被分成了兩部分'jb51'和'cn',預設以.作為分隔字元,如果我們不想讓它做為分隔字元,就需要把.添加到charset_table裡面,這裡需要說的是我們搜尋網域名稱只需要有字母、數字、"-"等字元,其他的不需要。設定如下:
charset_table = 0..9,A..Z->a..z, a..z,U+002e,U+002d,U+0040,U+0060 #其中U+002e代表".",U+002d代表"-",U+0040代表"@",U+0060代表"`",這裡為ascii碼值。
這樣會解決掉搜出jb51.a.cn這類網域名稱。

那麼jb51.net.com這類呢?我們可以在索引的欄位中增加惟一尾碼比如“XXXXX”,concat(search,'XXXXX')這樣,就不會出來了。

現在就剩下aajb51.net這類網域名稱,我們使用關鍵字“ '".jb51.net"' ”(注意是單引號裡面套雙引號)這樣來搜尋,主網域名稱單獨加上,但是使用的過程中發現這樣搜出了與這個網域名稱無關的網域名稱,比如aa.bb.cn這樣,經後來研究是"."的問題,後來把"."替換成"@",來搜尋又出現12306等好多網域名稱無法讀取到的問題,後來經研究估計這些特殊字元在sphinx中都有特殊的意義,於是找到了"`"這個字元,換成這個以後一切才算正常了。

注意:將"."替換成"`"等相應字元後需在charset_table裡增加這個字元,不然是被忽略的。

所以在搜尋的過程中我們需要注意下這些特殊字元。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.