關於轉錄組比對STAR軟體使用

來源:互聯網
上載者:User

標籤:

參考文章:http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com

軟體串連:https://github.com/alexdobin/STAR/

因為不連續的轉錄本結構,相對短的片段長度,和測序技術持續增加的通量,高通量RNA-seq資料的準確比對是一個有挑戰性且仍未解決的問題。當前可用的RNA-seq比對器遭受高比對錯誤率,低比對速度,片段長度限制和比對偏差。結果:為了比對我們的大量(> 800億片段)ENCODE轉錄組RNA-seq資料集,我們基於一種以前未描述的RNA-seq比對演算法開發了STAR(Spliced Transcripts Alignments to a Reference,STAR)軟體,該演算法使用了未壓縮尾碼陣列中的連續最大可比對種子搜尋,接著種子聚類和縫合過程。STAR在比對速度上勝過其他比對器50多倍,在一個普通的12核伺服器上,每小時比對5.5億2 x 76 bp雙端片段到人類基因組上,同時改進了比對敏感性和準確性。除了典型剪接的非偏從頭檢測外,STAR能夠發現非典型拼接和嵌合(融合)轉錄本,並能夠比對全長RNA序列。使用逆轉錄彙總酶鏈式反應擴增子的羅氏454測序,我們實驗上驗證了1960個新的基因間剪接點,具有80-90%的準確率,證實了STAR比對策略的高準確性。可用性和實現:STAR被實現為一個單機C++代碼。STAR是在GPLv3許可證下發布的免費開源軟體。

 

1:STAR的比對分析基本上可以分為兩步:一是genomeGenerate(類似於tophat的index);二是:序列比對

 

2:關於第一步genomeGenerate運行一次就可以了:

 

STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles/home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa--sjdbGTFfile/home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf--sjdbOverhang 89

 

 

—runMode:運行程式模式,預設是比對,所以第一步這個參數設定很關鍵

—runThreadN: 啟動並執行線程數

—genomeDir: 這個參數很重要,是存放你聲稱index檔案路徑,需要你事先建立一個有可讀寫權限的檔案夾

—genomeFastaFiles: 基因組fasta格式檔案

—sjdbGTFfile :GTF注釋檔案

—sjdbOverhang: 這個值為你測序read的長度減1,是在注釋可變剪下序列的時候使用的最大長度值

 

5:運行比對

STAR不但可以進行比對,還可以輸出可變剪下,轉錄本融合,以及控制輸出格式為SAM或者BAM,並對輸出的BAM可進行選擇性排序輸出。最主要在比對的過程中還提供了ENCODE的比對參數。

STAR --runThreadN 20 --readFilesIn/home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq/home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq--quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate--outFileNamePrefix /home/fanyc/RNA-seq/STAR/23--outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20

 

上面結合了ENCODE的參數,同時又加上了比對輸出為BAM格式,並對BAM格式進行排序。另外輸出可變剪下,以及轉錄本融合的結果。

 

—readFilesIn 輸出的原始測序資料

 

--outSAMtype BAM SortedByCoordinate 輸出格式為BAM並排序

 

--chimSegmentMin20 輸出融合轉錄本,20代表比對的最短的堿基數目

 

--outFileNamePrefix  輸出檔案的首碼

--quantMode TranscriptomeSAM  轉錄本定量

 

6:產生的檔案:

Chimeric.out.junction  融合轉錄本

Aligned.sortedByCoord.out.bam  比對輸出

Aligned.toTranscriptome.out.bam 轉錄本比對輸出

SJ.out.tab 可變剪下結果輸出

 

關於轉錄組比對STAR軟體使用

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.