從零開始生物資訊學(6):生物資訊學資料庫
前言
今天我們來談談生物資訊學的三大資料庫,想要深入生物資訊學這個領域,資料來源必定是其中十分重要的一環。
例如與參考基因組比對和基因註釋等等。今天主要介紹三個最常用的資料庫:
NCBI
Ensembl
UCSC
NCBI
NCBI
(National Center for Biotechnology Information,美國國家生物技術資訊中心)是由美國國立衛生研究院(NIH)於1988年創辦,除了維護
GenBank核酸序列資料庫
(該資料庫的資料資源來自全球幾大DNA資料庫,其中包括日本DNA資料庫DDBJ、歐洲分子生物學實驗室資料庫EMBL以及其它幾個知名科研機構) 外,還提供資料分析和檢索資源。
NCBI首先建立GenBank資料庫,在重點開發GenBank的同時,又於1991年開發了Entrez 資料庫檢索系統。該系統整合了GenBank、EMBL、PIR和SWISS-PROT等資料庫的序列資訊以及MEDLINE有關序列的文獻資訊,並有機地結合一起。
此外,NCBI還可以提供眾多功能強大的資料檢索與分析工具,例如我們常用的
Blast
,
Entrez Gene
等等,同時,這個網站還有一個模組叫
PubMed Central
,PubMed Central是一個收錄生命科學領域同行評審期刊(Peer Reviewed Journals)文獻的資料庫,現收錄超過160萬條全文文獻,是一個十分全面且方便的論文文獻。
常用的資源索引都可以在主頁直接連結
如何在NCBI查詢基因序列?
例如,我們需要下載一種酶Kinase, 這裡我們需要選擇“Nucleotide”選項,點選‘search’就可以出現結果:
在結果中,通常我們根據需要選擇只需要下載的序列,在需要的前面打個勾,然後拉到最下面的‘send to’,然後選擇’File‘,選擇需要的下載檔案格式,最常用的就是FASTA格式,這種格式只包括基因的名稱來源和序列排列資訊:
Ensembl
Ensembl
是由英國Sanger研究所Wellcome基金會(WTSI)和歐洲分子生物學實驗室所屬分部歐洲生物資訊學研究所(EMBI-EBI)共同協作運營的一個專案。Ensembl計劃開始於1999年,目的是希望自動地進行基因組註釋(
automatic annotation
),並把這些註釋與其他有用的生物資料整合起來,透過網路公開給所有人使用。
和NCBI類似,Ensembl得到的資料也可以透過其基因組瀏覽器檢視,用於支援脊椎動物基因組的比較基因組,進化,序列突變和轉錄調控方面研究。Ensembl註釋基因,多重序列比對,預測結構和收集疾病資料。
資料下載
進入Ensembl的首頁,在搜尋框裡選擇自己想要搜尋的基因及物種,比如我搜索人類human的TTN基因,點選Go會返回搜尋結果,通常第一條就是自己查詢的基因:
選擇之後,裡面就有該基因的各種資訊,包括轉錄資訊,外顯子的資訊,也可以透過自帶的基因組瀏覽器直接看結果。如果我們需要下載,直接選擇左下角的export即可,然後選擇輸出的格式,通常也是FASTA,和NCBI一樣:
Ensembl VS NCBI
Ensembl與NCBI的NCBI Map Viewer是最為常用基因組檢索資料庫。但是Ensembl 與NCBI Map Viewer也有一定的區別:
Ensembl是一個開源(Perl API )的全自動的基因註釋軟體系統,很多網站都採用Ensembl這套軟體系統,遷移性更好
Ensembl與其它資料庫相整合,擁有強大的資料來源
Ensembl的基因資料集是依據mRNA和蛋內序列的資料資訊自動註釋的。資料來源為新的基因組資料,因此需要基因組註釋的資訊還是首選Ensembl
UCSC
UCSC
是生物領域裡常用的資料庫之一,由University of California Santa Cruz (UCSC)創立和維護,主要包含了人類、小鼠、果蠅等多種常見動物的基因組資訊。UCSC裡也包括了一系列的分析工具,幫助使用者瀏覽基因資訊、檢視已有基因組註釋資訊和下載基因序列等。
在生物資訊分析過程中,有時會需要fasta、GTF或BED等格式的資料檔案,而UCSC是這些檔案的主要下載來源之一。雖然不及Ensembl 和 NCBI那麼龐大,但是也資料的一個重要補充。
使用流程
同樣的,還是先進入首頁,點選選項卡的‘Tool’,然後選擇‘Table Browser’,會跳轉到這個介面, 假如我們需要下載人的全部基因組資料,採用最新的GRCh38版本,然後再選擇Gene and Gene Predictions裡的NCBI RefSeq作為想要匯出的本地資料庫。在匯出格式裡,我們選擇了比較常用的BED格式,BED格式提供了一種靈活的方式來定義的資料行,以用來描述註釋資訊,然後點選get output,就可以得到最終的資料格式:
這三個主流資料庫還有很多強大的功能,由於很多功能還沒學習到,日後會慢慢補充!
歡迎大家關注我的知乎專欄:從零開始生物資訊學
相同內容也可以關注我的微信公眾號: 壹讀基因:
上一篇:機器學習+生物大資料之機遇與挑戰
下一篇:最大熵模型