[資料格式] (2)BED 格式的四種寫法
3。 BED 格式 與 bedGraph,bigBed 和 bed detail
(1)BED 格式
BED (Browser Extensible Data),是一種類似於表格的儲存格式,事實上也的確可以在Excel中開啟。
BED中的每一行,分別是染色體上的一個區段,一般來說BED中的區域按照在染色體上的位置來排列。
列與列之間一般用tab分割。
BED格式的前三列內容是固定的:
第一列:
chrom
染色體名稱。
第二列:
chromStart
區段在染色體上的起始位點,染色體上的第一個鹼基被編號為0。
第三列:
chromEnd
區段在染色體上的終止位點,但是在這一列的點並不存在於區段內。舉例:如果某一個區段的起始位點為0,終止位點為100,則這一區段實際只報考在染色體的 0-99 號鹼基,並不包括編號為100的鹼基。
BED格式還可以新增其他的列,以增加區段除位置資訊外的其他資訊:
name
:區段的特殊命名
score
:視評價標準而定,對不同區段的評分,如灰度值等
strand
:一般用加號和減號表示區段在正鏈還是負鏈上
thickStart
:特徵起始位點,該區段內某個特殊區域的起始位點,如起始密碼子
thickEnd
:特徵終止位點,如上
itemRgb
(這個我實在不知道怎麼翻譯了):RGB值,表示區段對應的顏色
blockCount
:外顯子數量
blockSizes
:外顯子區域列表,各個外顯子區塊之間用逗號分隔
blockStarts
:外顯子起始位點列表,各個位點之間用逗號分隔
例子:
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0
chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0
chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0
chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0
chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255
chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255
chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255
chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0
chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
(2)bedGraph
除了前三列,bedGraph與BED完全相同,和wiggle格式類似,bedGraph對各個區域給出了一個連續性資料(continuous-valued data),用於展示各個區域的表達量或對應的機率值。
例子:
chr19 49302000 49302300 -1。0
chr19 49302300 49302600 -0。75
chr19 49302600 49302900 -0。50
chr19 49302900 49303200 -0。25
chr19 49303200 49303500 0。0
chr19 49303500 49303800 0。25
chr19 49303800 49304100 0。50
chr19 49304100 49304400 0。75
chr19 49304400 49304700 1。00
(3)bigBed
二進位制壓縮版的BED或bedgraph,壓縮方式是將前三列的位置資訊用二進位制的索引代替。
轉換時可以使用
bedToBigBed
和
bigBedToBed
互相轉換
(4)bed detail
在BED 檔案的基礎上,再對每一行的區域增加細緻的文字描述,這就是 bed detail格式啦。
例子:
chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant
chr11 5255660 5255661 HBD c。1 G>A 2659 delta0 thalassemia
chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant
chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant
參考:
Genome Browser FAQ