您當前的位置:首頁 > 書法

什麼是基因組Survey?為什麼要做基因組Survey?

作者:由 百邁客生物 發表于 書法時間:2022-08-03

為什麼要做調研圖

基因組測序現在已經成為生物學研究的一個重要手段,基因組的雜合度和重複序列對後續基因組組裝有很大的影響。高雜合的基因組往往無法合併姊妹染色體,導致組裝的結果偏大,而重複序列在組裝中會被摺疊,使組裝中出現缺口、錯誤,導致組裝的結果偏小。不同的生物體的基因組之間雜合率和重複序列含量差異巨大,因此在進行基因組測序前往往需要對基因組的特徵進行調研,以確定測序方案,週期等。目前常用的調研手段有三種:

用流式細胞儀測定細胞核內的DNA總量

用核型分析方法,識別染色體數量、倍性

用調研圖,透過二代測序,估算基因組大小、雜合度、重複序列比例、GC含量等。

不同的技術手段有不同的側重,其中調研圖以低成本,低難度和更多的評估內容成為使用最多的技術手段,同時調研圖所測的二代資料還可以用於回比基因組,以評估組裝質量。調研圖是基於數學統計學手段獲取物種資訊的方式,因此對於已經研究的較為清晰的物種——主要是普通二倍體和簡單多倍體,其染色體條數、倍性、大概基因組大小是已知的,此時僅選擇調研圖就足以滿足瞭解基因組特徵的需要,但對於多倍體複雜基因組更推薦補充核型分析和流式的結果,以和調研圖相互印證補充。

調研圖原理(以二倍體調研圖為例)

評估基因組大小

調研圖最重要的用處是對基因組的大小進行估計。,對於沒有測序錯誤的理想情況下,用測序資料估算基因組大小可以按照這個公式:基因組大小=測序量/reads平均覆蓋深度。但由於測序錯誤的存在,較長的reads非常容易受到錯誤的影響,而將reads切碎為“長度為k的片段”,即k-mer,能大大減輕這個問題,因此調研圖繪製的是k-mer的深度-頻率分佈圖。此時估算基因組大小的公式就變成了:基因組大小=正常kmer數量/k-mer平均覆蓋深度。因為錯誤總是隨機出現的,所以這裡正常的k-mer數是過濾掉過低頻率的k-mer(即錯誤)後得到的數量。在理想狀態下,K-mer曲線服從泊松分佈,即只會出現一個明顯的主峰。但對於一個雜合二倍體,主峰前1/2出會出現一個雜合峰,在雜合度較高的時候可能出現高過主峰的情況。下圖即為一個高雜合二倍體kmer的頻率-深度分佈圖。主峰後二倍位置內的峰為重複峰。但如果雜合度很低,可能分佈圖中只有一個峰存在。主峰所代表的就是k-mer平均覆蓋深度,用主峰深度代替公式中的k-mer平均覆蓋深度即可算得該基因組的大小。

什麼是基因組Survey?為什麼要做基因組Survey?

Figure 1,一個二倍體的kmer頻率-深度分佈圖,橫軸為深度,縱軸為kmer出現的頻率,主峰位於深度100左右,雜合峰位於深度50左右

k-mer也並不是切的越小越好,過短的k-mer將無法保證多數k-mer在基因組中只出現一次,導致主峰深度估計偏大,而較長的k-mer具有跨越更長重複片段的能力,因此

k-mer的選擇其實是一個平衡錯誤和重複的過程

。通常k的選擇為15到21的奇數,既能夠保證k-mer的種類能覆蓋基因組,又足夠小以避免錯誤的影響。基因組中往往還存在一些重複序列,這些重複序列也會引起kmer的重複,但這些重複的存在雖然會削低主峰的高度,卻不會改變主峰的位置,上圖主峰後的小峰即為重複峰。

評估雜合率和重複序列

前面已經提到了雜合率的高低對基因組的組裝有非常大的影響,那麼如何計算基因組的雜合率和重複率呢?通常有兩種不同的方法,一種是

直接計算峰的面積

,即上圖中雜合峰和重複峰的面積佔總面積的比例,從而估算出雜合率和重複率。另一種是

透過模型擬合各個峰

。genomescope21就是一個透過負二項分佈擬合基因組k-mer分佈來評估基因組特徵的工具,其結果被普遍認可。以下圖為例,一個二倍體的genomeScope分析結果。

藍色

柱子是kmer的觀測值;

橙紅色

擬合線部分對應著深度過低的kmer,這些kmer被認為是測序錯誤引入的;

黑色

擬合線是除去被認為是錯誤的部分(橙紅色擬合線部分)之後剩下的所有k-mer,這些被認為是可靠的kmer資料;

黃色

擬合線被認為來自基因組非重複區域的K-mer分佈;

垂直的黑色虛線

為預測最低深度峰的整數倍覆蓋度;

什麼是基因組Survey?為什麼要做基因組Survey?

Figure 2一個二倍體的調研圖,橫軸是測序深度(覆蓋度),縱軸是k-mer出現的頻率,主峰位於100左右。

多倍體調研圖

多倍體又分為異源多倍體和同源多倍體,其調研圖的情況更為複雜。以四倍體為例,異源四倍體又被稱為雙二倍體,從k-mer分析的角度來說,其調研圖和二倍體並無太大差異。雖然如此,他們的染色體之間仍然存在一定的相似性,所以在主峰二倍的位置上往往存在一個小的凸起,這樣的凸起和高重複率的二倍體調研圖非常接近。如下圖是一個異源四倍體的調研圖:

什麼是基因組Survey?為什麼要做基因組Survey?

Figure 3一個異源四倍體的調研圖,主峰位於212深度,三個峰的比例為1:2:4

同源四倍體的兩套亞基因組之間的區別比異源四倍體更為接近,體現在調研圖上就是在主峰的二倍位置處有一個明顯隆起的峰。如果存在一定的雜合率,調研圖上就會存在三個比例為1:2:4的峰,但如果基因組的雜合率很低,雜合峰不明顯,此時調研圖看起來和二倍體仍然非常接近。不同的倍性對整套基因組的大小影響不大,所以面對多倍體時,調研圖的結果最好同時結合流式細胞儀或者核型來判斷。對於雜合率約在0。5%~20%左右,重複序列不超過約40%的物種,也可以利用smudgeplot軟體1對雜合k-mer進行分析,得到可能的物種倍性,從而輔助基因組雜合率和重複序列的估計。Smudgeplot透過尋找雜合k-mer來研究基因組的倍性,其定義的雜合k-mer對指的是一對k-mer之間只相差一個鹼基,且沒有第三個k-mer與他們再相差一個鹼基(如ATGATCA, ATGCTCA, ATGGTCA)。對於一個AB形式的雜合,smudgeplot試圖從所有k-mer中尋找一對雜合k-mer,而對於一個AAB形式的雜合,smudgeplot試圖尋找兩條相同的k-mer和一條它們的雜合k-mer,在圖中表示為更高的亮度。如下圖對一個四倍體的smudgeplot分析,可以明顯的看出AABB雜合模式附近的k-mer數量明顯高於其它k-mer,左上角也描述了這個結果。

什麼是基因組Survey?為什麼要做基因組Survey?

Figure 4一個四倍體的smudgeplot分析結果,橫軸是雜合k-mer對的深度佔總深度的比例,縱軸是所有k-mer對的總深度,二者的交點即代表了不同的雜合結構。交點的亮度代表了落入其中的k-mer數。

需要注意的是,調研圖一般需要50x以上的資料對基因組進行評估,在測序深度不足的情況下,調研圖可能無法很好的形成真正意義上的峰,此時最好的選擇是加測資料,重新繪製調研圖進行評估。

1

] Ranallo-Benavidez, T。R。, Jaron, K。S。 & Schatz, M。C。 GenomeScope 2。0 and Smudgeplot for reference-free profiling of polyploid genomes。

Nat Commun

11,

1432 (2020)。

標簽: MER  基因組  雜合  調研  測序