從零開始生物資訊學(6):生物資訊學資料庫

作者：由小狗賢發表于娛樂時間：2019-01-14

前言

今天我們來談談生物資訊學的三大資料庫，想要深入生物資訊學這個領域，資料來源必定是其中十分重要的一環。

例如與參考基因組比對和基因註釋等等。今天主要介紹三個最常用的資料庫：

NCBI

Ensembl

UCSC

NCBI

（National Center for Biotechnology Information，美國國家生物技術資訊中心）是由美國國立衛生研究院（NIH）於1988年創辦，除了維護

GenBank核酸序列資料庫

（該資料庫的資料資源來自全球幾大DNA資料庫，其中包括日本DNA資料庫DDBJ、歐洲分子生物學實驗室資料庫EMBL以及其它幾個知名科研機構）外，還提供資料分析和檢索資源。

NCBI首先建立GenBank資料庫，在重點開發GenBank的同時，又於1991年開發了Entrez 資料庫檢索系統。該系統整合了GenBank、EMBL、PIR和SWISS-PROT等資料庫的序列資訊以及MEDLINE有關序列的文獻資訊，並有機地結合一起。

此外，NCBI還可以提供眾多功能強大的資料檢索與分析工具，例如我們常用的

Blast

，

Entrez Gene

等等，同時，這個網站還有一個模組叫

PubMed Central

，PubMed Central是一個收錄生命科學領域同行評審期刊（Peer Reviewed Journals）文獻的資料庫，現收錄超過160萬條全文文獻，是一個十分全面且方便的論文文獻。

常用的資源索引都可以在主頁直接連結

如何在NCBI查詢基因序列？

例如，我們需要下載一種酶Kinase，這裡我們需要選擇“Nucleotide”選項，點選‘search’就可以出現結果：

在結果中，通常我們根據需要選擇只需要下載的序列，在需要的前面打個勾，然後拉到最下面的‘send to’，然後選擇’File‘，選擇需要的下載檔案格式，最常用的就是FASTA格式，這種格式只包括基因的名稱來源和序列排列資訊：

Ensembl

是由英國Sanger研究所Wellcome基金會（WTSI）和歐洲分子生物學實驗室所屬分部歐洲生物資訊學研究所（EMBI-EBI）共同協作運營的一個專案。Ensembl計劃開始於1999年，目的是希望自動地進行基因組註釋（

automatic annotation

），並把這些註釋與其他有用的生物資料整合起來，透過網路公開給所有人使用。

和NCBI類似，Ensembl得到的資料也可以透過其基因組瀏覽器檢視，用於支援脊椎動物基因組的比較基因組，進化，序列突變和轉錄調控方面研究。Ensembl註釋基因，多重序列比對，預測結構和收集疾病資料。

資料下載

進入Ensembl的首頁，在搜尋框裡選擇自己想要搜尋的基因及物種，比如我搜索人類human的TTN基因，點選Go會返回搜尋結果，通常第一條就是自己查詢的基因：

選擇之後，裡面就有該基因的各種資訊，包括轉錄資訊，外顯子的資訊，也可以透過自帶的基因組瀏覽器直接看結果。如果我們需要下載，直接選擇左下角的export即可，然後選擇輸出的格式，通常也是FASTA，和NCBI一樣：

Ensembl VS NCBI

Ensembl與NCBI的NCBI Map Viewer是最為常用基因組檢索資料庫。但是Ensembl 與NCBI Map Viewer也有一定的區別：

Ensembl是一個開源（Perl API ）的全自動的基因註釋軟體系統，很多網站都採用Ensembl這套軟體系統，遷移性更好

Ensembl與其它資料庫相整合，擁有強大的資料來源

Ensembl的基因資料集是依據mRNA和蛋內序列的資料資訊自動註釋的。資料來源為新的基因組資料，因此需要基因組註釋的資訊還是首選Ensembl

UCSC

是生物領域裡常用的資料庫之一，由University of California Santa Cruz （UCSC）創立和維護，主要包含了人類、小鼠、果蠅等多種常見動物的基因組資訊。UCSC裡也包括了一系列的分析工具，幫助使用者瀏覽基因資訊、檢視已有基因組註釋資訊和下載基因序列等。

在生物資訊分析過程中，有時會需要fasta、GTF或BED等格式的資料檔案，而UCSC是這些檔案的主要下載來源之一。雖然不及Ensembl 和 NCBI那麼龐大，但是也資料的一個重要補充。

使用流程

同樣的，還是先進入首頁，點選選項卡的‘Tool’，然後選擇‘Table Browser’，會跳轉到這個介面，假如我們需要下載人的全部基因組資料，採用最新的GRCh38版本，然後再選擇Gene and Gene Predictions裡的NCBI RefSeq作為想要匯出的本地資料庫。在匯出格式裡，我們選擇了比較常用的BED格式，BED格式提供了一種靈活的方式來定義的資料行，以用來描述註釋資訊，然後點選get output，就可以得到最終的資料格式：