全文檢索索引引擎入門
灰常不幸的是,關係型資料庫對全文檢索索引的支援沒有被標準化。不同的資料庫通過它們自己的方式來實現全文檢索索引,而且SQLAlchemy在全文檢索索引上也沒有提供一個好的抽象。
我們現在使用SQLite作為我們的資料庫,所以我們可以繞開SQLAlchemy而使用SQLite提供的工具來建立一個全文檢索索引索引。但這麼做不怎麼好,因為如果有一天我們換用別的資料庫,那麼我們就得重寫另一個資料庫的全文檢索索引方法。
所以我們的方案是,我們將讓我們現有的資料庫處理常規資料,然後我們建立一個專門的資料庫來解決全文檢索索引。
只有很少的開源的全文檢索索引引擎。據我說知只有一個Whoosh提供了Flask的擴充,它是用Python語言寫的全文檢索索引引擎。使用純Python引擎的優點是它可以運行在任何有Python解譯器的地方。缺點就是它的搜尋效能沒有達到用C或者C++寫的搜尋引擎那麼好。在我的腦子裡理想的解決方案是有一個搜尋引擎,它提供了Flask的擴充,能串連大多數資料庫,而且還要像Flask-SQLAlchemy那樣提供一個能自由使用大多數資料庫的方法,但現在貌似木有這樣的全文檢索索引引擎。Django的開發人員有一個非常棒的,支援大多數全文檢索索引引擎的擴充,叫django-haystack。希望有一天某個傢伙能為Flask提供一個相似的擴充。
但現在,我們將通過Whoosh實現我們自己的全文檢索索引。我們將使用Flask-WhooshAlchemy擴充,該擴充使得Whoosh資料庫和Flask-SQLAlchemy模組結合起來。
如果你還沒在你的虛擬環境中安裝Flask-WhooshAlchemy擴充,馬上安裝它。
Windows使用者用以下命令安裝:
複製代碼 代碼如下:
flask\Scripts\pip install Flask-WhooshAlchemy
其他使用者用以下命令安裝:
複製代碼 代碼如下:
flask/bin/pip install Flask-WhooshAlchemy
配置
配置Flask-WhooshAlchemy灰常簡單。我們只需要告訴擴充全文檢索索引資料庫的名字即可(fileconfig.py):
WHOOSH_BASE = os.path.join(basedir, 'search.db')
修改模組
在將Flask-WhooshAlchemy和Flask-SQLAlchemy結合起來時,我們需要在合適的模組類(fileapp/models.py)指定哪些資料時需要被索引的:
from app import appimport flask.ext.whooshalchemy as whooshalchemy class Post(db.Model): __searchable__ = ['body'] id = db.Column(db.Integer, primary_key = True) body = db.Column(db.String(140)) timestamp = db.Column(db.DateTime) user_id = db.Column(db.Integer, db.ForeignKey('user.id')) def __repr__(self): return '' % (self.text) whooshalchemy.whoosh_index(app, Post)
這個模組有一個新的__searchable__欄位,它是一個列表,包括了所有可以被當做搜尋索引的資料庫欄位。在我們的項目裡我們只需要所有文章文章的body欄位。
在這個模組中,我們也必須通過調用whoosh_index這個方法來初始化全文索引。
這不是一個能影響我們關係型資料庫的改變,所以我們沒必要換新的資料庫。
不幸的是所有的部落格文章在添加全文檢索索引引擎之前就已經存在於資料庫中了,而且沒有被索引。為了保持資料庫和全文檢索索引引擎的同步,我們將在資料庫中刪除所有已經存在的部落格文章,然後重新開始。首先我們開啟Python解譯器。Windows使用者為以下內容:
複製代碼 代碼如下:
flask\Scripts\python
其它作業系統使用者:
複製代碼 代碼如下:
flask/bin/python
然後在Python命令提示字元中刪除所有部落格文章:
>>> from app.models import Post>>> from app import db>>> for post in Post.query.all():... db.session.delete(post)>>> db.session.commit()
搜尋
現在我們開始做搜尋。首先,讓我們添加幾篇部落格文章到資料庫。我們有兩種方法做這個事。我們可以像普通使用者一樣通過網頁開啟應用程式添加文章,或者直接在Python命令列裡添加。
用一下方法從命令列添加:
>>> from app.models import User, Post>>> from app import db>>> import datetime>>> u = User.query.get(1)>>> p = Post(body='my first post', timestamp=datetime.datetime.utcnow(), author=u)>>> db.session.add(p)>>> p = Post(body='my second post', timestamp=datetime.datetime.utcnow(), author=u)>>> db.session.add(p)>>> p = Post(body='my third and last post', timestamp=datetime.datetime.utcnow(), author=u)>>> db.session.add(p)>>> db.session.commit()
Flask-WhooshAlchemy這個擴充非常不錯,因為它能串連Flask-SQLAlchemy然後自動認可。我們不需要維護全文索引,因為它已經很明顯的幫我們做了這件事。
現在我們已經在全文索引中有了一些文章,我們可以搜搜看了:
>>> Post.query.whoosh_search('post').all()[, , ]>>> Post.query.whoosh_search('second').all()[]>>> Post.query.whoosh_search('second OR last').all()[, ]
上面的例子可以看出,查詢不需要限制為一個單詞。實際上,Whoosh提供了一個漂亮又強大的搜尋查詢語言(search query language)。
整合全文檢索索引到應用程式
為了讓我們應用程式的使用者能用上搜尋功能,我們還需要增加一點小小的改變。
配置
就配置而言,我們僅僅需要指定最大的搜尋結果返回數(fileconfig.py):
MAX_SEARCH_RESULTS = 50
搜尋表單
我們需要在頁面頂部的導覽列中增加一個搜尋方塊。把搜尋方塊放到頂部是極好的,因為這樣所有頁面就都有搜尋方塊了(註:所有頁面公用導覽列)。
首先我們增加一個搜尋表單類(fileapp/forms.py):
class SearchForm(Form): search = TextField('search', validators = [Required()])
然後我們需要增加一個搜尋表單對象,而且要讓它對所有模板可用,這麼做是因為我們要將搜尋表單放到所有頁面的共同的導覽列。完成這個最簡單的方法是在before_request handler上建立一個form,然後將它傳到Flask的全域變數g(fileapp/views.py):
@app.before_requestdef before_request(): g.user = current_user if g.user.is_authenticated(): g.user.last_seen = datetime.utcnow() db.session.add(g.user) db.session.commit() g.search_form = SearchForm()
然後我們添加form到我們的模板(fileapp/templates/base.html):
Microblog: Home {% if g.user.is_authenticated() %} | Your Profile | | Logout {% endif %}
注意,我們只是當有使用者登入時才會顯示這個搜尋方塊。同樣的,before_request handler只有在有使用者登入時才會建立form,這是因為我們的應用程式不會展示任何內容給沒有經過認證的使用者。
搜尋顯示方法(search view funciton)
上面我們已經設定了form的action欄位,它會發送所有的搜尋請求到search view方法。這就是我們要執行全文檢索索引查詢的地方(fileapp/views.py):
@app.route('/search', methods = ['POST'])@login_requireddef search(): if not g.search_form.validate_on_submit(): return redirect(url_for('index')) return redirect(url_for('search_results', query = g.search_form.search.data))
這個方法乾的事也不是很多,它只是從表單收集了搜尋查詢的欄位,然後把這些欄位作為參數傳給查詢方法,最後重新導向到另一個頁面。不在這兒直接做查詢的原因是如果一個使用者點擊了重新整理按鈕,那麼瀏覽器就會彈出“表單資料將被重新提交”的警告視窗。所以當一個POST請求的響應結果為重新導向的時候,這種警告提示就被避免了,因為重新導向之後瀏覽器的重新整理按鈕將會在重新導向的頁面被重新載入。
搜尋結果頁面
一旦一個查詢欄位被接受,form POST handler就會通過頁面重新導向把它發送到search_result handler(fileapp/views.py):
@app.route('/search_results/')@login_requireddef search_results(query): results = Post.query.whoosh_search(query, MAX_SEARCH_RESULTS).all() return render_template('search_results.html', query = query, results = results)
然後搜尋結果顯示方法會發送這個查詢到Whoosh,參數是最大的搜尋結果數目,因為我們不想呈現一個很大數目的結果頁面,所以我們只顯示前50條資料。
最後一部分需要完成的是搜尋結果的模板(fileapp/templates/search_results.html):
{% extends "base.html" %} {% block content %}Search results for "{{query}}":
{% for post in results %} {% include 'post.html' %}{% endfor %}{% endblock %}
這兒,我們又可以重新使用我們的post.html頁面,所以我們不用擔心替換一個新的頁面或者其他格式的頁面元素,因為所有這些在sub-template中都是通用的方法。
後記
我們現在就有了一個完整的、非常重要的、也是經常被忽視的功能,這也是任何一個優秀的web應用必須具備的功能。
這個時刻更新的微部落格應用(換氣中···)的源碼你可以從這裡找到:
microblog-0.10.zip