用PHPdig打造屬於你自己的Google

來源:互聯網
上載者:User
關鍵字 用PHPdig打造屬於你自己的Google

 一、什麼是phpdig?

 PHPdig是國外非常流行的垂直搜尋引擎產品(與其說是產品,不如說是一項區別於傳統搜尋引擎的搜尋技術),採用PHP語言編寫,利用了PHP程式啟動並執行高效性,極大地提高了搜尋反應速度,它可以像Google或者Baidu以及其它搜尋引擎一樣搜尋互連網,搜尋內容除了普通的網頁外還包括txt, doc, xls, pdf等各式的檔案,具有強大的內容搜尋和檔案解析功能。PHPdig同傳統的搜尋引擎一樣,包含了以下三種最基本的技術:

 1.Spider技術

 2.網頁結構化資訊抽取技術或中繼資料採集技術

 3.分詞、索引技術

 區別於傳統搜尋引擎,PHPdig適用於專業化更強、層次更深的個人化搜尋引擎,利用它打造針對某一領域的垂直搜尋引擎是最好的選擇。

 二、如何獲得這PHPdig?

 PHPdig是免費產品(需要保留著作權),最新版本是 phpdig-1.8.9 為了避免Apache以及MySQL的版本相容性問題,建議採用較低級的版本,其網站地址是:http://www.phpdig.net ,下載地址是:http://www.phpdig.net/navigation.php?action=download 說明一下,我試用過phpdig-1.8.9版本,但出現了很多問題,改用PHPdig-1.8.8則問題較少。

 三、具體步驟

 1.擷取產品

 訪問http://www.phpdig.net/navigation.php?action=download下載PHPdig-1.8.8至案頭,解壓縮至Apache伺服器html目錄,一般路徑為:D:\usr\www\html\,(如果你沒有安裝Apache伺服器請事先安裝,推薦使用Mappm-Server v1.1.9 Final,Mappm-Server 採用傻瓜式安裝,一次搞定,方便調試和運行 PHP/CGI+MySQL 程式)。

 2.運行並配置PHPdig資料庫

 開啟瀏覽器輸入http://localhost/phpdig/按斷行符號鍵,頁面列出PHPdig的所有檔案及包含檔案夾,找一找發現沒有預設首頁檔案(default,index),單擊search.php檔案出現錯誤提示:Unable to connect to database : Check the connection script。提示無法完成資料庫連接,原來我們還沒有完成PHPdig的資料庫配置。返回進入admin目錄找到install.php檔案,單擊運行,乍一看,全英文介面(說明一下,PHPdig目前所有版本均不支援中文介面),沒有關係,如果你有過漢化經驗不妨自己動手將其漢化,這裡提供一份我自己漢化的cn-language.php文檔的下載(請將其拷貝至locales目錄下)。另外你還需修改includes目錄下的config.php檔案(語言修改)和style.CSS檔案(字型修改和樣式修改)。

 進入install.php後系統要求我們輸入PHPdig系統管理使用者名和密碼,預設情況下均為admin,進入後出現如下介面(漢化後):


(圖1)

 所需提供的資訊有:

 如果你是在本地測試,請輸入預設情況下的伺服器名稱localhost(localhost是Mappm-Server下的預設務伺服器名稱,也就是mysql的預設伺服器名稱,Mappm-Server內建mysql資料庫)資料庫伺服器連接埠預設為3126,可以不填,資料庫sock協議預設為空白,使用者名稱預設為root(Mappm-Server預設使用者名),密碼是你在安裝Mappm-Server時輸入的使用者密碼,PHPdig資料庫名稱預設為phpdig,可任意修改,同時,你可以對資料庫中的資料表加首碼,預設為空白。

 如果你要上傳到與Internet相連的web伺服器請向伺服器供應商索要mysql伺服器的名稱或者IP地址以及資料庫伺服器連接埠、sock協議、使用者名稱、密碼等,資料庫名稱以及資料表首碼的設定同上。

 至於右邊的四個選項按鈕,你可以視情況而定,初次使用(安裝)選擇預設的“建立資料庫”

 確認上述資訊無誤後單擊安裝按鈕,如果串連資料庫不成功會提示“不能串連資料庫”的錯誤資訊,如果資料庫連接成功則會直接跳入管理頁面如:


(圖2)

 3. 介面地區介紹

 地區1是一個文本輸入區,預設文字有三行,都是以http開頭,大家一看就知道在這裡輸入要spider的網站的網站地址(建議每次只spider一個網站)。

 地區2是spider選項,搜尋深度是指對這個網站spider到幾級目錄,每頁連結數是指標對某個網頁最多抓取多少個下面的連結網頁。預設情況下都為0,指的是對這個網站進行全站spider。

 地區3顯示資料庫狀態資訊,包括已經spider的網站、關鍵詞、索引以及正在spider的網站資訊等。

 地區4是一個下拉式清單方塊,羅列出已經spider的網站的網址,選中其中的一個網站,在地區5可以對其進行清除和更新操作。

 地區5不僅提供了對地區4中所選網站的清除和更新操作外,還提供了相關的統計資訊入口和對spider的控制等。

 4. 針對特定網站運行spider

 如果你對天極軟體頻道的內容高度興趣,你就可以做一個比google更專業的搜尋引擎來搜尋天極軟體的內容,你的這個搜尋引擎將比google更全面更深層次。下面我們以spider天極軟體頻道的內容為例介紹一下如何spider一個網站。

 1)在圖2的地區1中輸入http://soft.yesky.com,搜尋深度和每頁連結數都保持預設為0

 2)單擊spider按鈕,頁面跳轉到spider資訊頁面,程式開始自動spider網站http://soft.yesky.com的內容。

 注意:spider網站的過程非常緩慢,如果該網站內容太多,這個過程可能會延續幾小時到一天,但你不必擔心指令碼運行逾時,因為系統的timeout時間被設定為最長達48小時。在這個過程中,你也可以中斷spider程式的運行,並能重新啟動spider程式運行未spider完的網站。需要注意的是若在這個過程中你不小心關閉了spider運行頁面,但事實上系統並沒有停止spider,仍在消耗系統資源。你可以重新開啟spider頁面,點擊停止spider連結方可釋放系統資源。


(圖3)

 5. 利用PHPdig進行搜尋

 經過一段時間後,spider程式啟動並執行結果是將http://soft.yesky.com網站上的資訊抓取到伺服器資料庫中,主要是對方內容的title資訊、關鍵詞資訊和頁面地址資訊等,此時,你就可以通過訪問search.php進行搜尋了。


(圖4)

 你可以選擇搜尋結果顯示的條數,可以選擇模糊尋找還是精確尋找,另外你可以選擇針對某個網站的搜尋,預設情況下搜尋已經被spider的所有網站。


(圖5)

 是搜尋“QQ2006”的搜尋結果頁面。

 6. 存在的問題

 由於PHPdig的語言設定問題、系統的分詞問題以及MYSQL資料庫的字元處理問題等,PHPdig對漢語詞彙的搜尋還存在許多不確定因素,這些東西都有待我們進一步去解決和完善,歡迎廣大對此感興趣的朋友們到網頁陶吧-PHPdig主題社區進行探討。

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.