您當前的位置:首頁 > 曲藝

圖神經網路自監督學習 之 GCL-Aug-BS

作者:由 AI知其然 發表于 曲藝時間:2022-04-16

文章名稱

【WWW-2022】【University of Michigan/University of California, Berkeley】Augmentations in Graph Contrastive Learning: Current Methodological Flaws & Towards Better Practices

核心要點

文章旨在解決現有圖對比學習方法採用任務無關圖資料增廣策略,導致任務相關資訊被消除,模型判別能力下降的問題。並(在小的基準資料集上)發現利用(任務相關)的歸納偏差,可以很好的彌補判別能力的下降,加強模型判別能力。基於此發現,作者提出了一系列方法來校驗學習的向量表示的質量,並提出了一種任務感知的圖增廣設計方法。

本文是對圖對比學習和檢視增廣的實證研究(Best Practice),從實驗的角度證明隨機對比檢視會影響下游任務效能(通篇都是實驗,所以自然沒有實驗分析的章節:P),提出了利用相似度熱力圖來驗證自監督表示學習的判別能力。同時也給出了一些任務上的增廣設計方法的指引,在對比學習始終不能取得好的效果的時候,也許可以看看。

研究背景

最近在影象領域、自然語言處理和推薦領域自監督方法都取得了很大的成功。然而,作者發現CV中的對比學習通常使用與任務相關的增廣方法,並基於大型的、多樣化的資料集進行訓練。而圖資料上的對比學習方法一般採用與領域無關的圖增廣方法(DAGAs),並在數量級較小的資料集進行訓練和效能評估。因此,作者嘗試利用實驗的方法探究兩者的區別帶來的影響。

實驗的結果表明,基於任務無關(上下文無關)的圖增廣方法得到的效果並不是最優的,並且DAGAs會破壞任務相關的資訊,生成False Negative Sample Pairs。很多文章都在攻克這個問題,但是沒有詳細的實驗分析和對比探究。因此,作者根據簡單的實驗設計,提出了一些針對圖對比學習得到的向量表示(判別)效能的驗證方法,並指出了現在benchmark資料中存在的問題。

「此外,作者建議利用先驗資訊,在先驗的特徵空間進行圖增廣(先在原始資料增廣,如文字上。再構造圖資料,進行對比學習)。」

方法細節

REVISITING AUGMENTATIONS & EVALUATION IN GCL

如前所述,作者發現圖對比學習的增廣方法與影象對比學習的增廣方法有很多區別,且這些區別極大的影響了模型的效果。因此,作者進行了大量的case study得到如下結論,

現有的圖資料增廣方法容易改變圖的語義和任務相關資訊。

由於資料增廣對錶示學習起著至關重要的作用,許多學者對此進行了大量研究。[42]的研究表明,資料增廣方法應該儘可能生成與原始樣本具有較大任務相關的語義相似的樣本,且這些樣本能夠幫助區分那些與任務無關的其他細枝末節(原文用的trivial)相似性。顯然,這兩種需要進行平衡(其實判別哪些相似性是trivial,本就不容易,特別是到很細緻的程度)。有2項指標可以用來衡量資料增廣方法在這方面的質量,

Affinity。該指標衡量的是增廣樣本分佈和原始樣本分佈之間的分佈偏移。

Diversity。該指標衡量的是在原始樣本和增廣樣本上訓練模型的難易程度。

如下圖所,現有的任務無關圖增廣方法(特別是在分子圖任務上),雖然充分地增加了樣本的多樣性(Diversity),卻有可能破壞了樣本的相似性(Affinity)。

圖神經網路自監督學習 之 GCL-Aug-BS

為了驗證上述猜想,作者進行了如下實驗,

利用隨機節點或子圖dropping的方法(drop強度是20%)進行資料增廣。

「原始資料」

(特別注意,這裡不是單獨在增廣或在混合樣本上)訓練圖編碼器(PNA[11])。

分別在

「原始資料」

「增廣資料」

上進行evaluation(注意,只驗證,不訓練,且是分別驗證,不混合)。

遵循[42],作者驗證準確率作為分佈偏移的度量。其假設是,在原始資料上訓練的編碼器,雖然會因為底層分佈偏移導致在增廣資料上的準確率下降,但不應該有特別大的差距(如果我們假設增廣資料和原始分佈沒特別大差別[76,79])。然而,實驗結果表明(如下圖所示),增廣資料的分佈與原始樣本的分佈發生了較大偏移,進一步說明任務無關圖增廣方法破壞了任務相關的資訊。

圖神經網路自監督學習 之 GCL-Aug-BS

基於上述增廣方法進行訓練,可能會導致學習到的向量表示的判別性較弱。

圖對比學習期望透過拉近正樣本對的距離、拉遠負樣本對的距離,實現類內向量表示的距離比類間向量表示的距離近。然而,如上所述,任務無關的圖增廣方法得到的正樣本對不一定是語義(從任務的角度)相關的,也就是可能有一些錯誤的正樣本對被拉近,導致類內向量的距離與類間向量的距離無法有效區分。為證明存在這一問題,作者進行了如下實驗。在多個數據集上,分別利用GraphCL[87]、InfoGraph[62]、MVGRL[22]、隨機初始化的GNN,4個模型得到資料集中所有樣本的向量表示,並計算所有樣本對兩兩之間的餘弦相似度。依據具有好的判別能力的向量表示,應該符合上述類內、類間相似度差異。作者按照類別對樣本排序,繪製了相似度熱力圖(如下圖所示)。符合上述類內、類間相似度差異的模型,應該在左上角、右下角具有較高的相似度(類內),而在反對角線(類似2、3象限)的矩陣中具有較低相似度(類間)。

「圖中可以看出,MVGRL由於使用了基於diffusion的對比檢視,保留了較好的類內、類間相似度差異。InfoGraph由於直接最大化區域性和全域性互資訊,能夠較好的保留類內相似性,類間效果稍遜。而利用任務無關的增廣方法的GraphCL在某些類別上無法保量較好的類內相似性(下圖子圖b的左上角)整體效果較差。令人驚訝的是,隨機初始化的圖神經網路,能夠初見類內類間差異的區別(下圖子圖a),這部分下面會討論。」

圖神經網路自監督學習 之 GCL-Aug-BS

「基於上述結果,作者表示,利用相似度熱力圖能夠較好的反映圖對比學習得到的向量表示的判別效能,這些效能在訓練分類器,並在下游任務中比較分類準確性時,會被掩蓋。」

隨機初始化的GNN的強歸納偏差混淆了弱表示和錯誤對齊評估實踐的效能。 如上所述,隨機初始化的GNN具有較好的歸納偏差,能夠直接提供較好的類內、類間相似度差異,從而幫助圖對比學習方法減緩了學習到的向量表示判別能力下降的問題(說白了,就是隨便用圖對比學習沒啥卵用,投入產出比要低於GNN的歸納偏差)。為了證明這一點,作者進行了如下實驗。

在多個數據集上,隨機初始化各種配置的GNN,並與利用GraphCL、InfoGraph訓練的編碼器比較(比較得到的向量表示在下有任務上的效果)

,實驗結果如下圖所示。

圖神經網路自監督學習 之 GCL-Aug-BS

從結果中可以看出,在多個數據集上,隨機初始化的模型能夠獲得相當的效能,且

「在DEEZER上,可以看到訓練造成的負向效果」

。所以作者認為,很難說明利用任務無關的圖增廣方法進行圖對比學習,帶來了多少提升(因為看到的提升可能是正負向綜合的結果),同時,對比學習的開銷可能遠高於帶來的提升。

作者表示,大多數採用batch內負取樣的對比學習方法,由於batch較小,很難保證穩定訓練。且一些小的評測集主要是二分類,那麼batch內很容易就會出現False Negative Pair,也就是把本來是同類的樣本當做負樣本對處理(很多方法討論這部分,例如PGCL[*1]等)。這個時候對比學習的評估結果其實需要打折扣的,因為本身非黑即白,容易掩蓋上述熱力圖所展示出來的性質。另外,個人認為,頂層分類器,也可能是在利用歸納偏差(

「所以,對比學習一定要在相同的backbone上進行比較,要GIN就都GIN」

,並且作者表示基於BYOL的東西還是比較好用的)。

「此外,作者指出,現有benchmark中的規模較小的資料集本身就不能很好的評測圖對比學習結果[14](具體可以參考引文內容)。」

基於上述發現,作者提出需要上下文感知的圖增廣方法(什麼是上下文?)。

BENEFITS & DESIGN OF TASK-AWARE AUGMENTATIONS

作者表示,可以借鑑現有影象領域的自監督學習方法的經驗,充分利用資料的先驗知識來構造增廣方法。作者其實是在圖構造的環節就期望引入先驗知識(所以作者的最後實驗是在文字、影象分類領域做的),即利用與原始結構化資料有關的知識在抽象的圖空間中尋找適合的圖增廣方法,以期

保留與任務相關的資訊

打破檢視對稱性

引入語義上有意義的不變性

具體地,作者在文字分類和影象分類兩個任務上證明,

「應該在原始任務上構造增廣資料,而不是等到構造了相應的圖之後在進行增廣」

Text Classification

作者首先在文字分類進行了實驗,文字分類的圖資料,是利用在文字上滑窗計算詞的共現特性來構造圖網路,節點特徵原來是詞向量(Word2Vec)。在該圖資料上,對比了任務無關的圖增廣方法,和基於同義詞替換、隨機詞插入、隨機單詞交換和隨機單詞刪除[78]等文字增廣方法(先增廣後構建圖)。

「此外,作者採用的是BYOL[17]和SimSiam[9]這類不需要batch內負取樣的自監督學習方法」

。實驗結果如下圖所示,基於先驗知識的任務增廣方法,顯著的提升了下游任務的效能。

圖神經網路自監督學習 之 GCL-Aug-BS

Document Classification

針對上述文字增廣方法,作者將他們類比到了圖上的增廣方法,類別示意如下圖所示。具體來說,

同義詞替換相當於,利用最接近的word2vec向量(文字embedding)替換選中詞(節點)的節點特徵。

隨機插入相當於,建立一個新節點,其節點屬性是隨機選擇的詞向量,隨後複製現有節點的連線(根據插入點位置把新節點和其他window size內的節點連起來)。

隨機刪除相當於,隨機刪除一個節點,並修正圖中節點之間的連線關係。

隨機交換相當於,交換兩個節點的特徵。

「作者強調,任務無關的圖增廣方法,在子圖和節點刪除後,是不會重新修正共現圖的連邊的(刪除了詞,肯定共現關係發生了變化,因此需要修改連結關係),這是任務無關和任務相關方法的本質不同」

圖神經網路自監督學習 之 GCL-Aug-BS

Augmentations for Document Classification

Image Classification

與文字分類的場景不同,影象分類的圖網路構造是利用super-pixels進行的,圖的節點特徵是super-pixels的強度和位置,邊是

k

近鄰super-pixels,圖網路的釋義如下圖所示,具體構造方法可以參考[14,36]。

圖神經網路自監督學習 之 GCL-Aug-BS

Augmentations for Super-pixel Classification

**值得注意的是,為了和任務無關圖增廣進行比較,作者沒有采用複合影象增廣,而是採用的單一影象增廣(例如,只進Colorize等)。水平翻轉和旋轉影象是天然能夠保持super-pixels圖拓撲結構不變的(GNN具有permutation invariant的性質),因此不適合用來驗證先驗引導的圖增廣比任務無關的圖增廣要好。而剪裁等影象增廣方法可能使得圖拓撲結構發生極大變化,同樣不適合進行驗證。因此,作者採用random colorization這種只改變圖中節點屬性(也就是super-pixels屬性)的增廣方法。實驗結果如下圖所示,任務相關的增廣方法配合大部分學習自監督方法時,效果優於任務無關方法。

圖神經網路自監督學習 之 GCL-Aug-BS

Super-pixel Classification

心得體會

探索與驗證不一致

個人感覺,作者在分析時採用GraphCL、InfoGraph、MVGRL進行驗證,而在最終實驗時使用SimSiam和BYOL稍顯不妥。因為本質是不同的多種自監督學習正規化。並且,BYOL本就是Negative Sample Free的。但從對比檢視構造和增廣方法層面講,可以做到一定程度上的驗證。

並且,其實最終也沒有說比MVGRL好多少,因為MVGRL也能夠保證不錯的類內、類間方差。

「阻礙MVGRL成為比較好的增廣方法的,是文中提到的,1)MVGRL用了雙編碼器,且並不知道diffusion是如何做到保留類內、類間差異的;2)MVGRL會在很多資料集上OOM。」

原始空間的增廣

個人理解,作者提出的所謂任務相關或者叫上下文感知增廣方法,其實是在先驗知識領域進行增廣,利用了該領域的知識做了perturbation的選擇。雖然,沒有利用標籤,但確實依賴人工經驗,還是labor intensive task。

「但文章的意義在於,說明無腦搞對比是不行的。」

不同角度的相似性

作者將batch內負取樣問題的時候,提到False Negative。其實二分類裡可能還可以分細小的類別,所以對比學習要麼學出了這些,要麼乾脆就打亂了,學習了另外一個角度的相似,但和下游任務的無關,例如,節點role上的相似,和屬性值大小上的相似就是兩個不同角度的相似,但對不同的下游任務的影響不同。

個人感覺NLP中大量語料訓練和Multi-head其實學到了這種多視角的相似,所以效能可能更好。

兩極化的增廣方法

有許多文章在研究如何進行高效的圖增廣,包括各種自動的增廣方,例如,

。不過這篇與其他方法不同,強調先驗知識引導,是在最貼近任務的表示空間中進行圖增廣。而另一篇

則是另一個極端,期望把增廣推進到最後的向量表示空間,感覺各有優劣。

影象分類任務相關增廣的侷限性

「這裡另外一個問題是,如上所述,影象分類只能選擇節點dropping這類方法,所以可能差別不大。但是,反過來說,這才能比對出任務相關的方法,不是隨機刪除,而是有目的的調整。因此,看起來並不是和所有方法搭配都有很好的效果。」

其他場景的先驗增廣

同NLP一樣,推薦場景也可以利用先驗知識進行增廣,例如隨機替換行為序列等方法,或者替換歷史互動資訊。

敬閱讀的同學

「個人覺得,這篇文章從資料的角度進行了比較細緻的分析,也從某個角度證明了隨機增廣的問題,同時還有一些校驗學習到的向量表示的方法,值得仔細閱讀。雖然,NLP場景提出的先驗和隨機增廣的對比非常有啟發性。但是最後的所謂先驗增廣的驗證感覺有些牽強。歡迎批評指正以及對寫作方法提出意見(比如,分成幾個部分寫之類的),有其他喜歡的主題也歡迎留言。感謝大家閱讀到這裡!期待你的 點贊 喜歡 和 收藏!」

文章引用

[9] Xinlei Chen and Kaiming He。 2021。 Exploring Simple Siamese Representation Learning。 In Proc。 Int。 Conf。 on Computer Vision and Pattern Recognition (CVPR)。

[11] Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, and Petar Velickovic。 2020。 Principal Neighbourhood Aggregation for Graph Nets。 In Proc。 Adv。 in Neural Information Processing Systems (NeurIPS)。

[14] Vijay Prakash Dwivedi, Chaitanya K。 Joshi, Thomas Laurent, Yoshua Bengio, and Xavier Bresson。 2020。 Benchmarking Graph Neural Networks。 arXiv abs/2003。00982 (2020)。

[17] Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H。 Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Ávila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos, and Michal Valko。 2020。 Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning。 In Proc。 Adv。 in Neural Information Processing Systems (NeurIPS)。

[22] Kaveh Hassani and Amir Hosein Khas Ahmadi。 2020。 Contrastive Multi-View Representation Learning on Graphs。 In Proc。 Int。 Conf。 on Machine Learning (ICML)。

[42] Raphael Gontijo Lopes, Sylvia J。 Smullin, Ekin D。 Cubuk, and Ethan Dyer。 2020。 Tradeoffs in Data Augmentation: An Empirical Study。 In Int。 Conf。 on Learning Representations (ICLR)。

[62] Fan-Yun Sun, Jordan Hoffmann, Vikas Verma, and Jian Tang。 2020。 InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization。 In Proc。 Int。 Conf。 on Learning Representations (ICLR)。

[76] Julius von Kügelgen, Yash Sharma, Luigi Gresele, Wieland Brendel, Bernhard Schölkopf, Michel Besserve, and Francesco Locatello。 2021。 Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style。 In Proc。 Adv。 in Neural Information Processing Systems (NeurIPS)。

[78] Jason W。 Wei and Kai Zou。 2019。 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks。 In Proc。 Conf。 on Empirical Methods in Natural Language Processing and Int。 Joint Conf。 on Natural Language Processing (EMNLP-IJCNLP)。

[79] Zixin Wen and Yuanzhi Li。 2021。 Towards Understanding the Feature Learning Process of Self-supervised Contrastive Learning。 In Proc。 Int。 Conf。 on Machine Learning (ICML)。

[87] Yuning You, Tianlong Chen, Yongduo Sui, Ting Chen, Zhangyang Wang, and Yang Shen。 2020。 Graph Contrastive Learning with Augmentations。 In Proc。 Adv。 in Neural Information Processing Systems (NeurIPS)。

[*1] Lin, Shuai, Pan Zhou, Zi-Yuan Hu, Shuojia Wang, Ruihui Zhao, Yefeng Zheng, Liang Lin, Eric P。 Xing and Xiaodan Liang。 “Prototypical Graph Contrastive Learning。” ArXiv abs/2106。09645 (2021): n。 pag。

[*2] Kefato, Zekarias T。, Sarunas Girdzijauskas and Hannes Stark。 “Jointly Learnable Data Augmentations for Self-Supervised GNNs。” ArXiv abs/2108。10420 (2021): n。 pag。

[*3] Yin, Yihang, Qingzhong Wang, Siyu Huang, Haoyi Xiong and Xiang Zhang。 “AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators。” ArXiv abs/2109。10259 (2021): n。 pag。

標簽: 增廣  方法  任務  對比  作者