標籤:
由於項目需要全文檢索索引,後面就去網上查了下資料,找到了Sphinx【中文是獅身人面像】這個全文檢索索引引擎,聽說挺好用的,不過沒有中文分詞。後面又去找了一下,找到了Coreseek,一款中文全文檢索索引/搜尋軟體。
一、Sphinx PHP擴充下載
PHP已經有專門的Sphinx的擴充檔案,點擊這裡可以下載到不同版本的擴充。
擴充安裝成功後,就能看到sphinx資訊了。
也可以通過引用一個php類檔案達到同樣的效果,檔案是在api檔案夾下面的sphinxapi.php。這個更好用點,在調試的時候發現,如果是直接引用的那個dll有時候會報方法不存在,但是明明在PHP:Sphinx的API說明裡面是有的。
二、安裝Coreseek
1) 我這邊下載了4.1的版本。按照網站上面寫的過程,我在本地布了一下。
這個local目錄其實可以自己隨便建立,這裡建的我感覺好深,打dos命令的時候挺麻煩的。
2) 開啟下載下來的壓縮包,etc裡面有很多conf的設定檔。
在var\test檔案裡有個documents.sql的檔案,這一個demo資料庫,等下就會用這個做測試。
3) 把etc中的csft_mysql.conf檔案複製到bin中,並改名為sphinx.conf。
因為我的全文檢索索引需要配合MySQL資料庫,所以需要配置這個檔案。
4) 修改設定檔,剛開始設定檔沒設定好,老會報錯。
#MySQL資料來源配置,詳情請查看:http://www.coreseek.cn/products-install/mysql/#請先將var/test/documents.sql匯入資料庫,並配置好以下的MySQL使用者密碼資料庫#源定義source mysql{ type = mysql sql_host = localhost sql_user = root sql_pass = 123456 sql_db = sphinx sql_port = 3306 sql_query_pre = SET NAMES utf8 sql_query = SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content FROM documents #sql_query第一列id需為整數 #title、content作為字串/文字欄位,被全文索引 sql_attr_uint = group_id #從SQL讀取到的值必須為整數 sql_attr_timestamp = date_added #從SQL讀取到的值必須為整數,作為時間屬性 sql_query_info_pre = SET NAMES utf8 #命令列查詢時,設定正確的字元集 sql_query_info = SELECT * FROM documents WHERE id=$id #命令列查詢時,從資料庫讀取未經處理資料資訊}#index定義index mysql{ source = mysql #對應的source名稱 path = C:/usr/local/coreseek-4.1-win32/var/data/documents #請修改為實際使用的絕對路徑,例如:/usr/local/coreseek/var/... docinfo = extern mlock = 0 morphology = none min_word_len = 1 html_strip = 0 #中文分詞配置,詳情請查看:http://www.coreseek.cn/products-install/coreseek_mmseg/ #charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux環境下設定,/符號結尾 charset_dictpath = C:/usr/local/coreseek-4.1-win32/etc/ #Windows環境下設定,/符號結尾,最好給出絕對路徑,例如:C:/usr/local/coreseek/etc/... charset_type = zh_cn.utf-8}#全域index定義indexer{ mem_limit = 128M}#searchd服務定義searchd{ compat_sphinxql_magics = 0 listen = 9312 read_timeout = 5 max_children = 30 max_matches = 1000 seamless_rotate = 0 preopen_indexes = 0 unlink_old = 1 pid_file = C:/usr/local/coreseek-4.1-win32/var/log/searchd_mysql.pid #請修改為實際使用的絕對路徑,例如:/usr/local/coreseek/var/... log = C:/usr/local/coreseek-4.1-win32/var/log/searchd_mysql.log #請修改為實際使用的絕對路徑,例如:/usr/local/coreseek/var/... query_log = C:/usr/local/coreseek-4.1-win32/var/log/query_mysql.log #請修改為實際使用的絕對路徑,例如:/usr/local/coreseek/var/... binlog_path = #關閉binlog日誌}
5) 建立索引,打一句dos命令就行。
在#index定義中,設定了path的路徑,在這個路徑裡面能夠看到索引檔案。
6) 開啟控制台讓Sphinx監聽連接埠,接收搜尋命令。
searchd 可以安裝成一個Windows服務,命令如下:
C:\usr\local\coreseek> C:\usr\local\coreseek\bin\searchd.exe --install --config C:\usr\local\coreseek\etc\coreseek.conf --servicename Coreseek
這樣 searchd
服務應該出現在“控制台->系統管理->服務”的列表中了. 服務應該出現在“控制台->系統管理->服務”的列表中了。
刪除服務的命令如下:
sc delete Coreseek
三、PHP代碼測試
<?phpheader(‘Content-Type: text/html; charset=utf-8‘);//防止中文顯示為亂碼$s = new SphinxClient;//已經引入擴充,所以不需要額外require檔案了$s->setServer("127.0.0.1", 9312); $s->setMatchMode(SPH_MATCH_PHRASE); $s->setMaxQueryTime(30); $res = $s->query(‘愚人‘, ‘mysql‘); #[愚人]關鍵字,[mysql]資料來源source $err = $s->GetLastError(); echo ‘<pre>‘; var_dump($res); var_dump($err); echo ‘</pre>‘;
查看到結果:
與資料庫比對一下,可以看到搜尋出了第一條的資料。
demo下載:
http://download.csdn.net/detail/loneleaf1/8285169
參考資料:
http://www.xingdonghai.cn/sphinx-2-0-3-windows-install-and-instructions/ Sphinx 2.0.3 Windows下安裝與使用說明, 附查詢執行個體
http://my.oschina.net/melonol/blog/127438 sphinx中文分詞搜尋coreseek windows下安裝與基本使用簡介
http://blog.csdn.net/hfahe/article/details/5603294 Sphinx找不到索引檔案的解決辦法
http://my.oschina.net/melonol/blog/127441 sphinx全文檢索索引之PHP使用教程
Coreseek Windows下安裝調試