如何看待最近提出的R-FCN-3000實時目標檢測框架？

作者：由知乎使用者發表于曲藝時間：2017-12-12

匿名使用者2017-12-12 17:25:28

想起大學發生的一件真事……

大三的時候，選了系裡一個很有名的教授一門課，期中有一個大作業——設計一個目標檢測系統

老師可能覺得大家水平不太夠，就把自己帶的一個已畢業優秀博士生髮的

一篇接近頂會的文章

給大家參考（就是一個很好的目標檢測）……文章把其效果描述得盡善盡美，最後也寫了一句：

程式碼今後會開源

當時課堂上有60個人，其中很多大神……大家按照老師給的論文，各種出bug，各種無法實現……最後，所有同學建了一個微信群，大

家交流了很多，依然無法實現這個系統

……

最後一致決定去找該老師請教，在老師的辦公室討論了一下午。最後老師得出的結論是：不是大家不夠努力，不是無法復現，是論文的結果本身就造假了……

介於大家已經花費了那麼多時間，最終大作業給所有人滿分。末了老師挺無奈是嘆了口氣：

我的學生PS用的還是挺不錯的呀……

前幾天實驗室師兄看了一堆論文，長嘆一聲

：以後我要是XX學術會議的編輯，以後誰發文章，不給demo，統統不給過。。。。不然鬼知道他結果怎麼來的……

其實人不公佈程式碼，主要三種情況：

1：要產業化，出於專利和隱私需求，這種情況下，可以遇見的幾年基本上不可能

2：論文的撰寫者可能擅長本身用PS或者MATLAB或者opencv等最佳化，這種情況在國人身上尤其不少，這明白就是天坑

3：人自己想繼續做研究，還想更進一步，這種情況是，一般人做出結果之前，也崩想拿到

就本篇論文而言，就是把YOLO 9000改進增加了精度吧，一般情況下對於實時性要求，YOLO 9000和SSD都能達到……至於文中說的，

即將公佈程式碼，即將指的是十天，一年還是十年？

至於想等別人原始碼公佈這種事情，還是找一個靠譜的往前做吧，畢竟，雲裡霧裡的空話，哪裡靠得住呢……

匿名使用者2017-12-14 21:21:59

謝邀3次。。。

大致看了下論文，歡迎來討論哈。

key insight 作者說是 decouple 了 detection和Classification。

文章裡面提到了一個極端情況：Detector只用來區分前後景，具體前景屬於哪個類別，交給Classification網路部分來做。

在看下面的內容之前最好了解一下R-FCN的工作細節哈

來看看R-FCN-3000的position-sensitive filter部分，主要看看P^2（K+1）這個feature，其中的P不出意外是每個RoI的劃分，這裡和R-FCN是一樣的，而這個（K+1）怎麼理解呢？咱們先看看原來的R-FCN是怎麼做的（見下圖）

（上圖為R-FCN-3000）

（上圖為R-FCN）

這裡的k可不要和R-FCN-3000的K搞混了，這裡的k對應R-FCN-3000的P，也就是每個ROI會被分成P*P個bin（在R-FCN中是被分成k*k個bin），這裡的C對應R-FCN-3000的K的含義，

類別數

。

在

R-FCN

中，類別大概只有20類，所以這個feature map的channel數是3*3 *（20 +1 ）， + 1是background類。

在

R-FCN-3000

中，如果按照相同的處理，channel數得到3*3*（3000+1），其實還是蠻高的。

作者基於”Classification 時，position-sensitive filters不需要“這個出發點，對類別進行了聚類降維，所以從原來的C類降維到K類。大概理解成我只需要知道某種類別的目標在哪就行，具體是貓還是狗，交給分類網路來做。當然這個比喻不是特別恰當，不過大概是這樣一個方式。K-means降維時的feature是從Resnet101的最後一層2048dim的輸出拿過來的。

在R-FCN-3000中，分類網路的結構是這樣的：