您當前的位置:首頁 > 農業

育種技術的驕子:全基因組選擇

作者:由 歐易生物 發表于 農業時間:2021-12-22

#FormatImgID_1#

What is GS?

全基因組選擇(Genomic Selection,簡稱GS)這一概念由挪威生命科學大學的Theo Meuwissen 教授於2001年提出。它是一種利用覆蓋全基因組的高密度分子標記進行選擇育種的方法,可透過構建預測模型,根據基因組估計育種值(Genomic Estimated Breeding Value, GEBV)進行早期個體的預測和選擇,從而縮短世代間隔,加快育種程序,節約大量成本。

育種技術的驕子:全基因組選擇

野豬到家豬身體比例變化圖與玉米野生種到栽培種的變化圖

GS預測模型

統計模型是全基因組選擇的核心,極大地影響了預測的準確度和效率。根據統計模型的不同,主要有以下幾類:

1、BLUP ALPHABET(BLUB系列)

又稱為直接法,此方法把個體作為隨機效應,訓練群體(參考群體)和預測群體(候選群體)遺傳資訊構建的親緣關係矩陣作為方差協方差矩陣,透過迭代法估計方差組分,進而求解混合模型獲取待預測個體的估計育種值;

育種技術的驕子:全基因組選擇

根據不同資訊構建的親緣關係矩陣可建立不同的模型,比如以傳統系譜矩陣構建的ABLUP模型,以基因型矩陣構建的GBLUP模型,以系譜和基因型結合矩陣構建的ssBLUP模型(single-step BLUP)等(如下圖,BLUP發展歷程)。

2、BAYESIAN ALPHABET(貝葉斯系列)

又稱為間接法,此方法則首先在訓練群體(參考群體)中估計標記效應,然後結合預測群體(候選群體)的基因型資訊將標記效應進行累加,最後獲得預測群體(候選群體)的個體估計育種值;

根據預先假定基因的數量和基因效應值分佈的不同,可以建立不同的貝葉斯模型,如BayesA、BayesB、BayesC、BayesCπ、Bayes LASSO等,其差別主要在於:是否所有標記都有效應值,標記效應是否符合相同分佈以及標記效應方差服從何種分佈。

育種技術的驕子:全基因組選擇

簡言之,直接法是透過構建A/G/D/H等矩陣求解育種值,間接法是透過計算標記效應來獲得育種值。性狀遺傳構建複雜多樣,目前還沒有一種模型能廣泛適用於所有性狀。間接法的假設更加複雜,但是更加符合性狀的遺傳構建,對於性狀的遺傳解析具有很好的理論研究價值,缺陷是計算速度較慢,需要多次迭代才能達到收斂。

3、MACHINE LEARNING(ML,機器學習)

機器學習(ML)是計算機科學的一個領域,它使用演算法來獲得從經驗中自動學習和改進的能力,而無需明確程式設計。在大基因組資料分析中,與傳統統計方法相比,ML方法的一些主要優勢包括:

1。 它們能夠處理“large p, small n”問題;

2。 它們是black-box方法,不需要任何關於影響性狀的可靠變數分佈或優先遺傳模型的先驗知識;

3。 它們可以考慮特徵之間的多重互動或相關性;

由於單個演算法的過程中內建了訓練和驗證程式,允許使用者預定義訓練和驗證資料集,或者允許ML對大量群體應用隨機分配的交叉驗證方法來預測個體表型,因此它們可以提供較高的預測精度;

親屬關係矩陣(kinship matrix)在工程領域被稱為“kernel”。親屬關係矩陣K可以自身相乘,從而匯出一個新的kernel K2=K‘K。這個過程可以迭代,直到乘法沒有進一步的變化。在矩陣乘法趨於均衡的過程中,乘法的最佳水平可以透過機器學習的典型訓練過程來確定,eg。 透過將整個群體劃分為訓練和測試群體。最近,機器學習在基因組預測中的應用已經擴充套件到機器學習的許多領域,包括神經網路或深度學習等,這裡只介紹幾種用於基因組預測的機器學習方法,包括支援向量迴歸、隨機森林、Gradient Boosting Machine和深度學習。

3.1 支援向量迴歸(Support Vector Regression,SVR)

支援向量機(Support Vector Machine,SVM)是在統計學習理論基礎上發展起來的演算法,是一種典型的非引數方法,屬於監督學習方法。SVM的一個特點是它能同時最小化包含模型複雜度和訓練資料誤差的目標函式,可以基於結構風險最小化原則,兼顧了模型擬合和訓練樣本的複雜性,尤其是當我們對自己的群體資料不夠了解時,SVM或許是基因組預測的備選方法。SVR透過使用kernel functions將輸入空間對映到高維特徵空間,利用線性模型實現非線性迴歸。

3.2 Random Forest (RF) and Gradient Boosting Machine (GBM)

RF和GBM都是基於決策樹的整合方法。RF和GBM之間的主要區別在於,RF中的決策樹是獨立生成的,其中個體特徵(例如SNP)的更替和預測誤差由可變重要性度量值表示(variable importance measurement value),它是透過平均包含特定特徵的所有決策樹的預測誤差來計算的。GBM透過許多“weak learners”(例如,SNP的小子集)的逐步組合來構建預測模型。

3.3 Deep learning

深度學習(Deep learning)是另一類ML方法,可用於有監督和無監督學習。它透過使用多層單元(神經元)從輸入資料中獲得代表性資訊。每個神經元計算其輸入的加權和,加權和透過非線性函式傳遞。然後,每個層將輸入資料轉換為越來越抽象的表示形式。使用輸入資料為該神經網路尋找最佳權重是深度學習的目標。

目前已經有研究表明,在存在顯性和上位性的情況下,非引數機器學習方法BART(Bayesian additive regression trees)與隨機森林、BLASSO、GBLUP和RKHS迴歸方法相比,給出了更小的基因組預測誤差和更高的表型值預測精度。使用模擬資料集(一個性狀),比較了三種機器學習方法(RF、GBM和SVM)對性狀的基因組育種值(GEBVs)的預測準確性,發現GBM表現最好,其次是SVM,然後是RF。比較遺憾的是研究並沒有在真實資料集中評估這些方法的效率,也沒有選擇用於基因組預測的SNPs子集。總的來說,在存在顯性和上位性的情況下ML方法預測的效果確實優於傳統線性統計模型,特別是多種ML方法組合預測效果。

GS預測準確性評估

交叉驗證是在建立模型和驗證模型引數時常用的辦法,一般被用於評估一個模型的表現。更多的情況下,我們也用交叉驗證來進行模型選擇(model selection)。

一般有下面三種方法:

1)簡單交叉驗證

隨機將樣本資料集分為兩部分(比如:70%的訓練集,30%的測試集),然後用訓練集來訓練模型,在測試集上驗證模型及引數。隨後將樣本打亂,重新選擇訓練集和測試集,繼續訓練資料和檢驗模型。最後選擇損失函式評估最優的模型和引數。

2)K折交叉驗證(K-Folder Cross Validation)

是經常用到的一種驗證方法,與第一種不同,K折交叉驗證先將資料集D隨機劃分為K個大小相同的互斥子集,每次隨機選擇K-1份作為訓練集,剩下一份做測試集。當這一輪完成後,下一輪重新隨機選擇K-1份來訓練資料,最後多輪結果取均值。

3)留一交叉驗證(Leave-one-out Cross Validation)

是K折交叉驗證的特例,即K等於樣本數N。每次N-1樣本訓練,留一個樣本驗證。一般用於樣本量很少的情況(如小於50)。

參考文獻

[1]McGowan M, Wang J, Dong H, et al。 Ideas in genomic selection with the potential to transform plant molecular breeding: A review[J]。 2020。

[2]尹立林, 馬雲龍, 項韜, 朱猛進, 餘梅, 李新雲, 劉小磊, 趙書紅。 全基因組選擇模型研究進展及展望[J]。 畜牧獸醫學報, 2019, 50(2): 233-242。

[3]Moser G, Tier B, Crump R E, et al。 A comparison of five methods to predict genomic breeding values of dairy bulls from genome-wide SNP markers[J]。 Genetics Selection Evolution, 2009, 41(1): 1-16。

[4]Li B, Zhang N, Wang Y G, et al。 Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods。 Front Genet 9: 1–20[J]。 2018。

[5]Montesinos-López O A, Martín-Vallejo J, Crossa J, et al。 New deep learning genomic-based prediction model for multiple traits with binary, ordinal, and continuous phenotypes[J]。 G3: Genes, genomes, genetics, 2019, 9(5): 1545-1556。

標簽: 模型  預測  基因組  驗證  方法