標籤:
參考文章:http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com
軟體串連:https://github.com/alexdobin/STAR/
因為不連續的轉錄本結構,相對短的片段長度,和測序技術持續增加的通量,高通量RNA-seq資料的準確比對是一個有挑戰性且仍未解決的問題。當前可用的RNA-seq比對器遭受高比對錯誤率,低比對速度,片段長度限制和比對偏差。結果:為了比對我們的大量(> 800億片段)ENCODE轉錄組RNA-seq資料集,我們基於一種以前未描述的RNA-seq比對演算法開發了STAR(Spliced Transcripts Alignments to a Reference,STAR)軟體,該演算法使用了未壓縮尾碼陣列中的連續最大可比對種子搜尋,接著種子聚類和縫合過程。STAR在比對速度上勝過其他比對器50多倍,在一個普通的12核伺服器上,每小時比對5.5億2 x 76 bp雙端片段到人類基因組上,同時改進了比對敏感性和準確性。除了典型剪接的非偏從頭檢測外,STAR能夠發現非典型拼接和嵌合(融合)轉錄本,並能夠比對全長RNA序列。使用逆轉錄彙總酶鏈式反應擴增子的羅氏454測序,我們實驗上驗證了1960個新的基因間剪接點,具有80-90%的準確率,證實了STAR比對策略的高準確性。可用性和實現:STAR被實現為一個單機C++代碼。STAR是在GPLv3許可證下發布的免費開源軟體。
1:STAR的比對分析基本上可以分為兩步:一是genomeGenerate(類似於tophat的index);二是:序列比對
2:關於第一步genomeGenerate運行一次就可以了:
STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles/home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa--sjdbGTFfile/home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf--sjdbOverhang 89
—runMode:運行程式模式,預設是比對,所以第一步這個參數設定很關鍵
—runThreadN: 啟動並執行線程數
—genomeDir: 這個參數很重要,是存放你聲稱index檔案路徑,需要你事先建立一個有可讀寫權限的檔案夾
—genomeFastaFiles: 基因組fasta格式檔案
—sjdbGTFfile :GTF注釋檔案
—sjdbOverhang: 這個值為你測序read的長度減1,是在注釋可變剪下序列的時候使用的最大長度值
5:運行比對
STAR不但可以進行比對,還可以輸出可變剪下,轉錄本融合,以及控制輸出格式為SAM或者BAM,並對輸出的BAM可進行選擇性排序輸出。最主要在比對的過程中還提供了ENCODE的比對參數。
STAR --runThreadN 20 --readFilesIn/home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq/home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq--quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate--outFileNamePrefix /home/fanyc/RNA-seq/STAR/23--outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20
上面結合了ENCODE的參數,同時又加上了比對輸出為BAM格式,並對BAM格式進行排序。另外輸出可變剪下,以及轉錄本融合的結果。
—readFilesIn 輸出的原始測序資料
--outSAMtype BAM SortedByCoordinate 輸出格式為BAM並排序
--chimSegmentMin20 輸出融合轉錄本,20代表比對的最短的堿基數目
--outFileNamePrefix 輸出檔案的首碼
--quantMode TranscriptomeSAM 轉錄本定量
6:產生的檔案:
Chimeric.out.junction 融合轉錄本
Aligned.sortedByCoord.out.bam 比對輸出
Aligned.toTranscriptome.out.bam 轉錄本比對輸出
SJ.out.tab 可變剪下結果輸出
關於轉錄組比對STAR軟體使用