您當前的位置:首頁 > 攝影

[論文筆記] NeurIPS2021 transformer相關論文摘要泛讀

作者:由 nano 發表于 攝影時間:2022-02-15

2022/2/15 [transformer相關]摘要泛讀

2021 NIPS Shapeshifter- a Parameter-efficient Transformer using Factorized Reshaped Matrices

摘要

由intrinsic dimension和模型壓縮、引數共享、因式分解表示、知識蒸餾等工作,發現在訓練模型過程中,極少部分的引數起著極大的作用。因此,論文對支撐嵌入、自注意層等架構的矩陣進行因式分解。具體來說,論文將原始矩陣用一種低秩的因式分解後的矩陣表示。論文證明透過堆疊這類低秩層,他們在深度網路中的表達性會大大提高。特別是在Transformer中,論文的方法能夠減少原來總引數的1/10那麼多(包含嵌入層、注意力層、前向傳播層)

總結

解決的是transformer引數太多的問題

2021 NIPS NxMTransformer- Semi-Structured Sparsification for Natural Language Understanding via ADMM

摘要

Transformer引數太多,線上部署不方便。通常可以使用稀疏矩陣來減少引數,但由於transformer的高度複雜性,使用標準稀疏矩陣會導致transformer在nlp下游任務中的表現能力大大降低。

本文提出了NxMTransformer模型,引入了NxM半結構化稀疏方法。具體來說,將NxM方法作為限制條件的最佳化問題,將ADMM作為最佳化器。

總結

解決的是transformer與稀疏矩陣不適配的問題

2021 NIPS Systematic Generalization with Edge Transformers

摘要

transformer和GNN的系統泛化能力比較弱,因此本文提出了Edge Transformer模型。

本文有2個創新點:將Transformer和基於規則的符號人工智慧相結合。使用了正方形注意力機制。

總結

光從摘要,看不出這篇文章要做什麼。

2021 NIPS Long Short-Term Transformer for Online Action Detection

摘要

本文針對線上行為檢測,提出了LSTR(Long Short-term TRansformer)模型。該模型由LSTR編碼器和LSTR解碼器組成,其中LSTR編碼器用於處理粗粒度的歷史資訊,LSTR解碼器用於聚焦短時間的視窗。(猜測編碼器體現了long-term,解碼器體現了short-term)。LSTR的優勢在於可以處理沒有啟發函式的影片(啥?)

總結

將transformer和long-term、short-term結合,然後用於一個全新領域的例子。光從摘要看不出這篇文章的idea是啥。

2021 NIPS TransMatcher- Deep Image Matching Through Transformers for Generalizable Person Re-identification

摘要

在影象領域,transformer主要用於特徵表示學習,即對影象分類和密集分類等任務,transformer的一般性是不可知的。

論文發現ViT和原始transformer對於影象的效果不好,因為他們缺乏影象到影象(image-to-image)的注意力機制。論文給出了2種解決方法,1種是ViT中的詢問走廊壓縮(query-gallery concaenation),一種是原始transformer的詢問交叉注意力(query-gallery cross-attention)。後者仍然表現得不盡如人意,論文據此提出了簡化的解碼器。

總結

主要是針對transformer在影象領域應用時,transformer本身的改進。注重在解碼器和注意力機制上進行改進。

2021 NIPS Associating Objects with Transformers for Video Object Segmentation

摘要

論文主要提出一種在多物件場景下半監督影片物件分割的嵌入方法。具體來說,論文提出了AOT(Associating Objects with Transformers),這個機制將多個目標變形到一個高維嵌入空間中,透過這個方法,我們可以同時處理多個物件的匹配和分割解碼問題。為了建立多物件連線,論文使用了Long Short-Term Transformer。

總結

用transformer處理影片中多物件分割的問題,思路是把多物件變形到高維空間。

再一次提到了Long Short-Term Transformer。

2021 NIPS TransMIL- Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classification

摘要

多示例學習(Multiple instance learning,MIL)對於在基於全視野數字切片(whole slide image,WSI)的病理學診斷中的弱監督分類問題又重要意義。但是當前多示例學習常常忽略不同示例之間的聯絡。本文提出一種基於Transforer的MIL(TransMIL),把空間資訊也考慮進MIL中。

總結

本文屬於Transformer的一個應用,還是醫學的應用。

2021 NIPS Test-Time Personalization with a Transformer for Human Pose Estimation

摘要

提出一個2D的人體姿勢評價器,並且不需要手工標註。首先透過有監督和半監督姿勢評價目標,在大量資料上進行聯合訓練。其次透過一個Transformer模型,建立自監督和有監督的keypoints之間的連結。在測試時間,以自監督目標為基準,微調模型。

總結

好像就是用Transformer做了一個人體姿勢評價器的實驗,具體還需要深入看下去。

2021 NIPS Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation

摘要

強化學習通常使用資料增強來提高模型的一般化能力,但是資料增強會降低樣本的效率,甚至引起不收斂。論文發現了2個問題(具體啥問題沒說),然後提出了一個簡單的方法以穩定資料增強下此類演算法的穩定性。

標簽: Transformer  2021  NIPS  摘要