您當前的位置:首頁 > 娛樂

從零開始生物資訊學(6):生物資訊學資料庫

作者:由 小狗賢 發表于 娛樂時間:2019-01-14

前言

今天我們來談談生物資訊學的三大資料庫,想要深入生物資訊學這個領域,資料來源必定是其中十分重要的一環。

例如與參考基因組比對和基因註釋等等。今天主要介紹三個最常用的資料庫:

NCBI

Ensembl

UCSC

NCBI

NCBI

(National Center for Biotechnology Information,美國國家生物技術資訊中心)是由美國國立衛生研究院(NIH)於1988年創辦,除了維護

GenBank核酸序列資料庫

(該資料庫的資料資源來自全球幾大DNA資料庫,其中包括日本DNA資料庫DDBJ、歐洲分子生物學實驗室資料庫EMBL以及其它幾個知名科研機構) 外,還提供資料分析和檢索資源。

NCBI首先建立GenBank資料庫,在重點開發GenBank的同時,又於1991年開發了Entrez 資料庫檢索系統。該系統整合了GenBank、EMBL、PIR和SWISS-PROT等資料庫的序列資訊以及MEDLINE有關序列的文獻資訊,並有機地結合一起。

此外,NCBI還可以提供眾多功能強大的資料檢索與分析工具,例如我們常用的

Blast

Entrez Gene

等等,同時,這個網站還有一個模組叫

PubMed Central

,PubMed Central是一個收錄生命科學領域同行評審期刊(Peer Reviewed Journals)文獻的資料庫,現收錄超過160萬條全文文獻,是一個十分全面且方便的論文文獻。

從零開始生物資訊學(6):生物資訊學資料庫

常用的資源索引都可以在主頁直接連結

如何在NCBI查詢基因序列?

例如,我們需要下載一種酶Kinase, 這裡我們需要選擇“Nucleotide”選項,點選‘search’就可以出現結果:

從零開始生物資訊學(6):生物資訊學資料庫

在結果中,通常我們根據需要選擇只需要下載的序列,在需要的前面打個勾,然後拉到最下面的‘send to’,然後選擇’File‘,選擇需要的下載檔案格式,最常用的就是FASTA格式,這種格式只包括基因的名稱來源和序列排列資訊:

從零開始生物資訊學(6):生物資訊學資料庫

Ensembl

Ensembl

是由英國Sanger研究所Wellcome基金會(WTSI)和歐洲分子生物學實驗室所屬分部歐洲生物資訊學研究所(EMBI-EBI)共同協作運營的一個專案。Ensembl計劃開始於1999年,目的是希望自動地進行基因組註釋(

automatic annotation

),並把這些註釋與其他有用的生物資料整合起來,透過網路公開給所有人使用。

和NCBI類似,Ensembl得到的資料也可以透過其基因組瀏覽器檢視,用於支援脊椎動物基因組的比較基因組,進化,序列突變和轉錄調控方面研究。Ensembl註釋基因,多重序列比對,預測結構和收集疾病資料。

資料下載

進入Ensembl的首頁,在搜尋框裡選擇自己想要搜尋的基因及物種,比如我搜索人類human的TTN基因,點選Go會返回搜尋結果,通常第一條就是自己查詢的基因:

從零開始生物資訊學(6):生物資訊學資料庫

選擇之後,裡面就有該基因的各種資訊,包括轉錄資訊,外顯子的資訊,也可以透過自帶的基因組瀏覽器直接看結果。如果我們需要下載,直接選擇左下角的export即可,然後選擇輸出的格式,通常也是FASTA,和NCBI一樣:

從零開始生物資訊學(6):生物資訊學資料庫

Ensembl VS NCBI

Ensembl與NCBI的NCBI Map Viewer是最為常用基因組檢索資料庫。但是Ensembl 與NCBI Map Viewer也有一定的區別:

Ensembl是一個開源(Perl API )的全自動的基因註釋軟體系統,很多網站都採用Ensembl這套軟體系統,遷移性更好

Ensembl與其它資料庫相整合,擁有強大的資料來源

Ensembl的基因資料集是依據mRNA和蛋內序列的資料資訊自動註釋的。資料來源為新的基因組資料,因此需要基因組註釋的資訊還是首選Ensembl

UCSC

UCSC

是生物領域裡常用的資料庫之一,由University of California Santa Cruz (UCSC)創立和維護,主要包含了人類、小鼠、果蠅等多種常見動物的基因組資訊。UCSC裡也包括了一系列的分析工具,幫助使用者瀏覽基因資訊、檢視已有基因組註釋資訊和下載基因序列等。

在生物資訊分析過程中,有時會需要fasta、GTF或BED等格式的資料檔案,而UCSC是這些檔案的主要下載來源之一。雖然不及Ensembl 和 NCBI那麼龐大,但是也資料的一個重要補充。

使用流程

同樣的,還是先進入首頁,點選選項卡的‘Tool’,然後選擇‘Table Browser’,會跳轉到這個介面, 假如我們需要下載人的全部基因組資料,採用最新的GRCh38版本,然後再選擇Gene and Gene Predictions裡的NCBI RefSeq作為想要匯出的本地資料庫。在匯出格式裡,我們選擇了比較常用的BED格式,BED格式提供了一種靈活的方式來定義的資料行,以用來描述註釋資訊,然後點選get output,就可以得到最終的資料格式:

從零開始生物資訊學(6):生物資訊學資料庫

這三個主流資料庫還有很多強大的功能,由於很多功能還沒學習到,日後會慢慢補充!

歡迎大家關注我的知乎專欄:從零開始生物資訊學

相同內容也可以關注我的微信公眾號: 壹讀基因:

從零開始生物資訊學(6):生物資訊學資料庫

標簽: 資料庫  Ensembl  基因組  ncbi  基因