Python使用RethinkDB總結

來源:互聯網
上載者:User

和 MongoDB 類似 RethinkDB 是一個主要用來儲存 JSON 文檔的資料庫引擎(MongoDB 儲存的是 BSON),可以輕鬆和多個節點連成分散式資料庫,非常好用的查詢語言以及支援表的 joins 和 group by 操作等。
昨天試玩了一下 RethinkDB,在一台虛擬機器上測試,插入2500萬行記錄效能比較穩定,維持在 1.5K 行到 2K 行每秒之間,RethinkDB 的資料分區(sharding)功能非常簡單,一個點擊就可以完成。下面的安裝和測試在 Ubuntu 12.04.4 LTS Server 版本上完成。
加入 RethinkDB 官方源後安裝:
複製代碼 代碼如下:$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:rethinkdb/ppa
$ sudo apt-get update
$ sudo apt-get install rethinkdb
拷貝一個例子設定檔後修改 bind 部分以便可以從其他機器訪問:
複製代碼 代碼如下:$ cd /etc/rethinkdb/
$ sudo cp default.conf.sample instances.d/default.conf

$ sudo vi instances.d/default.conf
...
# bind=127.0.0.1
bind=0.0.0.0
...
啟動 rethinkdb:
複製代碼 代碼如下:$ sudo /etc/init.d/rethinkdb start
rethinkdb: default: Starting instance. (logging to `/var/lib/rethinkdb/default/data/log_file')
訪問 http://192.168.2.39:8080/ 就可以看到 rethinkdb 的管理介面了:


如果不喜歡在命令列工作,web 介面還提供了 Data Explorer 線上查詢工具,支援文法高亮、線上函數提示等,不用額外查協助檔案。


要用程式的方式和 rethinkdb 打交道的話就需要安裝用戶端驅動(client drivers),官方支援的驅動有 JavaScript, Ruby 和 Python 3種語言,社區支援的驅動幾乎包括了 C, Go, C++, Java, PHP, Perl, Clojure, Erlang 等所有主流程式設計語言。本人用 Python 多一些,所以這裡安裝 Python 用戶端驅動:
複製代碼 代碼如下:$ sudo apt-get install python-pip
$ sudo pip install rethinkdb
測試一下驅動是否能工作了,如果 import rethinkdb 沒有出錯基本就可以說明模組安裝成功:
複製代碼 代碼如下:$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import rethinkdb
>>>
gene2go.txt 是一個含有基因資料的文字檔,大概1000多萬行記錄,格式如下:
複製代碼 代碼如下:$ head -2 gene2go.txt
#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category (tab is used as a separator, pound sign - start of a comment)
3702 814629 GO:0005634 ISM - nucleus - Component
寫個簡單程式把 gene2go.txt 的資料匯入到 rethinkdb 裡:
複製代碼 代碼如下:#!/usr/bin/python
# -*- coding: UTF-8 -*-

import os, os.path, sys, re, csv, string

def csv2db():
    data = csv.reader(open('gene2go.txt', 'rb'), delimiter='\t')
    data.next()

    import rethinkdb as r
    r.connect('localhost', 28015).repl()
    r.db('test').table_create('gene2go').run()
    gene2go = r.db('test').table('gene2go')
    for row in data:
        gene2go.insert({
            'tax_id': row[0],
            'GeneID': row[1],
            'GO_ID': row[2],
            'Evidence': row[3],
            'Qualifier': row[4],
            'GO_term': row[5],
            'PubMed': row[6],
            'Category': row[7]
        }).run(durability="soft", noreply=True)

def main():
    csv2db()

if __name__ == "__main__":
    main()

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.