Kaiju: Fast and sensitive taxonomic classification for metagenomics

來源:互聯網
上載者:User

標籤:時間   xom   pod   cal   java   who   send   dac   ase   

Kaiju: Fast and sensitive taxonomic classification for  metagenomics 

 

問題描述:However, nucleotide comparison using a fixed k-mer length often lacks the sensitivity to overcome the evolutionary distance between sampled species and genomes in the reference database.然而,使用一個定長的k-mer核酸序列比對往往會缺少克服在樣本物種和參考資料庫中的基因之間的進化距離的敏感度。  

 

解決方案:Here, we present the novel metagenome classifier Kaiju for fast assignment of reads to taxa.這裡,我們提出新的宏基因主分類器kaiju-將read快速分類到物種上。Kaiju finds maximum exact matches on the protein-level using the Borrows-Wheeler transform, and can optionally allow amino acid substitutions in the search using a greedy heuristic.kaiju用borrows-Wheeler變換尋找在蛋白質水平上的最大精確匹配,並且可以任意地選用用啟發學習法貪婪演算法搜尋氨基酸替代。We show in a genome exclusion study that Kaiju can classify more reads with higher sensitivity and similar precision compared to fast k-mer based classifiers, especially in genera that are underrepresented in reference databases.在基因分類研究中我們發現,kaiju相比基於k-mer的分類器,尤其是在那些在參考資料庫代表性不足的genera,能夠更加靈敏更加精確的對reads進行分類。 Kaiju最大的演算法精確匹配(右)和貪婪匹配(左)。灰色的線表示翻譯氨基酸片段搜尋在資料庫中,而紅和橙色線表示在MEM和貪婪模式比對。藍線表示片段不評價,因為他們的最大長度或獲得的分數比的長度或得分低從以前搜尋首選片段。   文章地址:http://biorxiv.org/content/early/2015/11/16/031229?rss=1  安裝:git clone https://github.com/bioinformatics-centre/kaiju  測試: cd src/            make           kaiju -t  /biostack/database/kaiju/nodes.dmp   -f   /biostack/database/kaiju/kaiju_db_nr_euk.fmi  -i   test.fa -o  kaiju.tsv  -z 20 

 

使用說明:


彼得·門澤爾[email protected]
安德斯·克羅[email protected]

建立參考資料庫和索引

kaiju是一個針對Illumina or Roche/454高通量宏基因組分類軟體。用NCBI分類學和微生物和病毒的蛋白質序列的參考資料庫將reads直接進行比對。

在進行reads分類之前,kaiju需要從參考蛋白資料庫中構建資料庫索引。你也可以從GenBank資料庫中當前可用的資料中構造索引,或者從kaijuweb伺服器上
下載一個索引。

為了建立一個索引,目錄中的該程式將直接從NCBI FTP伺服器上下載參考基因和分類檔案,把他們轉換成蛋白質資料庫並且構建kaiju索引。

從NCBI參考資料庫中下下載拼裝完整的和注釋好的古菌和細菌。截止到2016年10月,這個資料庫包含20M 蛋白質序列,kaiju要求14G的RAM才能運行。

自訂資料庫:

從蛋白序列集中可以構建一個自訂資料庫。格式必須是FASTA格式的檔案,其中標題是該蛋白質序列NCBI號,

分類標誌必須包含在NCBI分類檔案nodes.dmp and names.dmp.然後,kaiju
用程式mkbwt and mkfmi建立索引。如果資料庫fasta檔案被命名為proteins.faa,運行程式:
mkbwt -n 5 -a ACDEFGHIKLMNPQRSTVWY -o proteins proteins.faa
mkfmi proteins

運行kaiju

 

 


運行kaiju至少需要3個參數:

kaiju -t nodes.dmp -f kaiju_db.fmi -i inputfile.fastq

如果你選擇makeDB.sh -n或-e,然後要用 -f kaiju_db_nr.fmi or -f kaiju_db_nr_euk.fmi
對於雙端的序列要用  -i firstfile.fastq and -j secondfile.fastq。這兩
個reads檔案必須有相同的順序。kaiju將刪除所有 / 和空格。 reads名字
相同的將被合并在一起,如果兩者有不同將發出一個錯誤。

kaiju能讀取FASTQ and FASTA 格式的輸入檔案。如果檔案被壓縮,shell程式
可以在內部進行解壓。
預設情況下,kaiju將輸出到終端,輸出也可以被寫到指定的檔案夾中,使用
選項-o :
kaiju -t nodes.dmp -f kaiju_db.fmi -i inputfile.fastq -o kaiju.out

運行模式:

預設運行模式是MEM,只考慮精確匹配的情況下。如果使用貪婪模式,允許不進
行匹配,通過選項-a進行設定模式,用選項 -e設定允許替換的數量:
kaiju -t nodes.dmp -f kaiju_db.fmi -i inputfile.fastq -a greedy -e 5

為了降低最低要求的匹配長度和匹配率的的臨界值可以使用選項 -m和-s來改變
如果輸入序列已經是蛋白質序列,那麼要使用 -p選項來禁用輸入轉錄。

選項-x可用於使通過使用SEG演算法從鼓風+軟體包含低複雜性地區的查詢序列的過濾。啟用該選項,以避免因虛假匹配誤判匹配始終建議,由於簡單重複的圖案或其他測序噪音。

輸出格式:

kaiju將輸出每一個單端或者雙端reads。預設輸出格式包含由定位字元分割的三列。使用選項-v可啟用詳細輸出,將會額外列印三行:
1.C或U,表示reads被分類或未被分類。
2.每個read的名字。
3.NCBI分類號
4.用於分類的首選的分數和長度
5.首選的所有資料庫序列的分類識別
6.匹配的read

分類準確度:

分類的精度取決於參考資料庫的選擇和運行Kaiju當所選選項兩者。這些選擇也影響Kaiju的速度和記憶體使用量情況。對於靈敏度高的要求,建議使用NR庫作為參考資料庫,因為他們是最全面的蛋白質資料庫。另外,使用proGenomes的精確度超過Refseq
此外,貪婪演算法的運行模式,允許5個錯誤匹配,比MEM模式產生更高的靈敏度。
為了達到最快的分類,使用MEM模式和多個並行線程(-z); 和最低的記憶體使用量量使用proGenomes參考資料庫。並行線程數只對記憶體的使用影響不大。

此外,所需的最小匹配長度(的選擇-m的MEM模式或匹配分數() -s)的貪婪方式支配的分類的靈敏度和精確度之間的權衡。請參閱本文關於這一主題的討論。

Creating input file for Krona   

 

              本次翻譯是在2016.11.18號晚上於實驗室,由於時間有限只能翻譯重點部分。

 

Kaiju: Fast and sensitive taxonomic classification for metagenomics

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.