AlphaFold2成功秘訣:注意力機制取代卷積網路,預測準確性提升超30%
明敏 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
最近,DeepMind開源AlphaFold2,讓學術圈再一次沸騰了。
這意味著,對於普通研究人員而言曾需要花幾年時間才能破解的蛋白質結構,現在用AlphaFold2
幾小時
就能算出來了!
那麼,如此厲害的AlphaFold2究竟如何做到的呢?
DeepMind團隊已經將它的詳細資訊在《Nature》上公開發表。
現在,就讓我們來看看AlphaFold2的魔法是怎麼實現的吧。
卷積消失了,Attention來了
論文中,研究人員強調AlphaFold2是一個
完全不同於
AlphaFold的新模型。
的確,它們使用的模型框架都不一樣,這也是AlphaFold2準確性能夠突飛猛進的主要原因。
此前AlphaFold中所有的
卷積神經網路
,現在都被替換成了
Attention
。
為什麼要這樣做呢?
我們首先要了解一下AlphaFold的工作原理:
它主要是透過預測蛋白質中每對氨基酸之間的距離分佈,以及連線它們的化學鍵之間的角度,然後將所有氨基酸對的測量結果彙總成2D的距離直方圖。
然後讓卷積神經網路對這些圖片進行學習,從而構建出蛋白質的3D結構。
△AlphaFold主要架構
但這是一種從區域性開始進行預測的方式,很有可能會忽略蛋白質結構資訊的
長距離依賴性
。
而Attention的特點剛好可以彌補這一缺陷,它是一種模仿人類注意力的網路架構,可以
同時聚焦多個細節部分
。
這樣可以使得框架預測的結果更加全面、準確。
在CASP13中,AlphaFold預測的準確性還只有不到60分。
但是在CASP14中AlphaFold2就將準確性直接拔高到了92。4/100。
圖網路+Attention
具體來看,AlphaFold2主要利用多序列比對(MSA),把蛋白質的結構和生物資訊整合到了深度學習演算法中。
它主要包括兩個部分:神經網路
EvoFormer
和
結構模組
(Structure module)。
在EvoFormer中,主要是將
圖網路
(Graph networks)和
多序列比對
(MSA)結合完成結構預測。
圖網路可以很好表示事物之間的相關性,在這裡,它可以將蛋白質的相關資訊構建出一個圖表,以此表示不同氨基酸之間的距離。
研究人員用Attention機制構建出一個特殊的“三重自注意力機制(Triangular self-attention)”,來處理計算氨基酸之間的關係圖。
#FormatImgID_9##FormatImgID_10#△三重自注意力機制(Triangular self-attention)
然後,他們將這一步得到的資訊與
多序列比對
結合。
多序列比對主要是使相同殘基的位點位於同一列,暴露出不同序列之間的相似部分,從而推斷出不同蛋白質在結構和功能上的相似關係。
計算出的氨基酸關係與MSA進行資訊交換,能直接推理出空間和進化關係的配對錶徵。
預測所有原子的3D結構
架構的第二部分是一個
結構模組
(Structure Module),它的主要工作是將EvoFormer得到的資訊轉換為蛋白質的3D結構。
#FormatImgID_11##FormatImgID_12#△結構模組(Structure module)
在這裡,研究人員同樣使用了Attention機制,它可以單獨計算蛋白質的各個部分,稱為“不變點注意力(invariant point attention)”機制。
它以某個原子為原點,構建出一個3D參考場,根據預測資訊進行旋轉和平移,得到一個結構框架。
#FormatImgID_13##FormatImgID_14#△不變點注意力(invariant point attention)
然後Attention機制會對所有原子都進行預測,最終彙總得出一個高度準確的蛋白質結構。
此外,研究人員還強調AlphaFold2是一個“端到端”的神經網路。
他們會反覆把最終損失應用於輸出結果,然後再對輸出結果進行遞迴,不斷逼近正確結果。
這樣做既能減少額外的訓練,還能大幅提高預測結構的準確性。
為破解蛋白質摺疊謎題帶來希望
Alphafold2的出現,能更好地預判蛋白質與分子結合的機率,從而極大地加速新藥研發的效率。
此次Alphafold2開源,將進一步推動科學界前進。
據瞭解,目前DeepMind已經與瑞士的一些研究團隊合作,透過預測蛋白質結構開展藥物方面的研究。
事實上,研究Alphafold2預測程式本身,也為探索蛋白質結構摺疊原理帶來了希望。
芝加哥大學的計算生物學家Jinbo Xu就表示:
這些工具的開源,意味著科學界能夠在此基礎上開發出更加強大的軟體。
論文地址:
https://www。
nature。com/articles/s41
586-021-03819-2_reference。pdf
補充材料:
https://
static-content。springer。com
/esm/art%3A10。1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM。pdf
*
參考連結:
https://www。
zdnet。com/article/deepm
inds-alphafold-2-reveal-what-we-learned-and-didnt-learn/
—完—
@量子位 · 追蹤AI技術和產品新動態
深有感觸的朋友,歡迎贊同、關注、分享三連վ‘ᴗ’ ի ❤