嵌入式AI簡報 (2019-03-31)

作者：由開心的派大星發表于文化時間：2019-04-01

關注模型壓縮、低位元量化、推理最佳化、移動端加速、部署

awesome-embedded-ai/embedded-ai-report

注：PC端的微信公眾號連結會提示文章過期，移動端可以正常瀏覽。

業界新聞

影片：波士頓動力釋出倉儲搬運機器人Handle搬箱子，子不高，動作迅捷 | 新智元

摘要：Handle 是一款專為物流設計的移動操作機器人。在抓取箱子前利用視覺系統定位，在將箱子放到托盤上時，它的 “力度控制” 能力可以將每個箱子碼放整齊。

華為晶片大動作：英國投資3億圈地劍橋，緊鄰ARM自建工廠 | 新智元

摘要：近日，華為宣佈將“圈地造芯”：投資3。3億元人民幣買下劍橋大學500英畝地，其中100英畝計劃設立研發部門和園區。我們常說的ARM 微處理器，就是採用ARM技術知識產權（IP核）的微處理器。全世界超過95%的智慧手機和平板電腦都採用ARM。基於ARM 技術的微處理器應用約佔據了32 位微處理器75 %以上的市場份額。

阿里自研NPU將於下半年推出，阿里雲十年再出發，達摩院加持 | 機器之心

摘要：自研的第一款阿里 NPU 2019年下半年將正式釋出，且在同等晶片裡效能領先十倍以上。早在2018年阿里宣佈達摩院在研發一款神經網路晶片——Ali-NPU，該晶片將運用於影象影片分析、機器學習等 AI 推理計算。之後全資收購中天微，中天微是中國大陸唯一基於自主指令架構研發嵌入式 CPU 並實現大規模量產的 CPU 供應商，專注於 32 位嵌入式 CPU IP 研發與規模化應用，面向多媒體、安防、家庭、交通、智慧城市等 IoT 領域，全球累計出貨超過 7 億顆晶片。

華為P30 Pro釋出，50倍變焦，黑夜拍成白天，7k起售，手機中的天文望遠鏡 | 量子位

摘要：華為P30搭載了麒麟980處理器，該處理器是全球首次採用7nm製程工藝的移動手機SoC晶片，擁有69億個電晶體，集成了Mali-G76 GPU，再結合華為獨家的GPU Turbo，帶來了暢快的遊戲體驗。在拍人像時，AI HDR+機器學習技術讓逆光的照片也能十分清晰。在拍影片的情境下，也能充分發揮暗光拍攝和光學防抖+AI防抖，讓畫面更清晰，電源鍵化身智慧助理按鍵，可以一鍵召喚谷歌智慧語音助理。

論文

［1812。00332］ PROXYLESSNAS： DIRECT NEURAL ARCHITECTURE SEARCH ON TARGET TASK AND HARDWARE ［報道原文］［新智元解讀］

摘要：MIT韓松等人團隊開發了一種高效的神經結構搜尋演算法，可以為在特定硬體上自動設計快速執行的神經網路提供一個“按鈕型”解決方案，演算法設計和最佳化的機器學習模型比傳統方法快200倍。

［SysML 2019］ DISCRETE ADVERSARIAL ATTACKS AND SUBMODULAR OPTIMIZATION WITH APPLICATIONS TO TEXT CLASSIFICATION 機器之心解讀

摘要：以往對抗攻擊大多用於影象識別網路，這篇文章用了一個更廣泛的對抗攻擊的定義，指出一個用於文字處理的網路也可以進行對抗攻擊。此方法較為新穎，它把矩陣輸入泛化到離散集輸入，因而衍生出許多相關應用，並不侷限於語言處理。

［SysML 2019］ To Compress or Not to Compress： Understanding the Interactions between Adversarial Attacks and Neural Network Compression 機器之心解讀

摘要：本文對神經網路壓縮和對抗攻擊的關係進行了研究。pruning 減少了網路的引數密度，對於用原網路作出的攻擊有較小防禦性，對引數和啟用函式的大幅度量化也能使攻擊的轉移性變小。但是總地來說，駭客如果對大多數現有應用中的高 bit-width 壓縮過的網路進行攻擊，可以成功的攻擊原網路或者是別的壓縮過的網路。

百度增強現實自動駕駛模擬系統登上 Science 子刊 | 機器之心［science子刊］

摘要：傳統的自動駕駛模擬環境都是根據遊戲引擎或高保真計算機圖形建立的，這種環境缺乏現實世界影象的豐富性和真實性，訓練效果有限，擴充套件性差、成本高。為彌補這一短板，百度開發了一個增強現實的全新自動駕駛系統，利用鐳射雷達和相機掃描得到的街景影象合成模擬環境。這一研究論文刊登在 3 月 27 日的《Science》子刊「Science Robotics」上。

開源專案

YuvalNirkin/face_swap： End-to-end， automatic face swapping pipeline

Oldpan/Pytorch-Memory-Utils： pytorch memory track code

摘要：Pytorch記憶體跟蹤外掛。

6個JavaScriptd框架構建計算機視覺程式 | 機器之心［原文］

摘要：除了TensorFlow。js，還有基於雲的Amazon Rekognition，JS版本的OpenCV。js，tracking。js，獲取使用者正在看什麼的WebGazer。js，此外還有來自Google的three。ar。js，可擴充套件ARCore到前端，檢測和目標檢測整合進瀏覽器，是 AR 遊戲的完美工具。

idealo/cnn-exposed： Interpreting Convolutional Neural Network （CNN） Results ［slide］

摘要：理解CNN，視覺化中間層feature map，繪製熱力圖，並有相關slide。

jphall663/awesome-machine-learning-interpretability： A curated list of awesome machine learning interpretability resources

摘要：專注模型可解釋性的awesome-list專案。

linnanwang/AlphaX-NASBench101： Neural Architecture Search with Deep Neural Network and Monte Carlo Tree Search

摘要：AlphaX是一個新的神經結構（NAS）搜尋器，使用特定的搜尋模型架構與Meta-DNN搜尋預測模型來估計取樣結構的準確性。與隨機搜尋相比，AlphaX構建一個線上模型來指導未來的搜尋，且可用較少迭代次數便能逃出區域性最優。實現細節見：AlphaX： eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search。

博文

Android Neural Networks API —— 一種神經網路軟體系統中間層的設計與實現 | 黎明灰燼部落格

摘要：隨著深度學習的進一步發展，用於減輕框架層和硬體廠商開發代價的「中間層表示」以各種形式湧現：包括採用編譯技術做圖最佳化的、制定模型檔案格式的、作業系統中間層的。本文重點介紹了作業系統中間層的代表 Android Neural Networks API 的軟體架構、內部模組互動方式，並討論了其設計。總體而言，Android Neural Networks API 簡潔有效，符合軟體系統的設計方法學。

杜克大學終身教授陳怡然專訪：讓非主流成為主流，AI晶片的起源、現狀與前路 | 新智元

摘要：陳怡然教授說道，通用晶片仍然會長期存在也是主幹，但隨著業務多樣性通用晶片可能會作為通用晶片的輔助，專用晶片的設計要經歷很長時間，行業特定設計（Domain specific design）。針對特定場景的重要步驟進行抽象和實現。專用晶片可能跟不上未來人工智慧發展，要麼技術上重構關鍵器件，要麼增加協處理器，要麼等待下一個生命週期。

後摩爾時代對於AI晶片設計來說，電晶體目前做到更小的成本在增大，重點也在於如何在相同邏輯數量下提高計算效率，一是基於緊密結合業務的新器件和材料如特性像神經突觸的憶阻器，二是用新制造工藝如3D堆疊在單位面積堆更多層的儲存和計算邏輯，提高計算時的資料傳輸效率。未來的AI晶片發展會朝著軟硬體結合，業務結合為導向，雖然AI有泡沫但也是頭部公司和應用，還有很多問題待解決，AI沒有運算的支撐是不可能大量更好更有效的部署的。我們要更多的去重視它的計算平臺，更多的注重它在具體場景的實現。

如何在CUDA中為Transformer編寫一個PyTorch自定義層 | 機器之心

摘要：根據寫Transformer，學到許多關於 CUDA 如何工作的知識，以及諸如 block、執行緒、核函式、記憶體、同步、快取這樣的概念，希望本文能夠對那些想要入門 CUDA 效能最佳化的人有所幫助。此外，作者提到 python 的逐行效能分析器line_profiler，在要分析的函式頂部新增「@profiler」裝飾器後，在命令列中用「kernprof」替換「python」來執行分析器。

再見，Yarn！滴滴機器學習平臺架構演進 | AI前線

摘要：不同公司都有自己的機器學習平臺，但就平臺所要解決的問題和技術選型基本還是大同小異。所謂大同是指大家所要處理的問題都相似，技術架構和選型也差不太多，比如都會使用 GPU 叢集、採用 Spark 或 K8s 平臺等。所謂小異是指各家規模不同，各家都在結合自己的情況、所處的階段並根據自己的特點解決平臺化的問題。

滴滴機器學習平臺的治理思路主要是：減少重複、提高效率。本文將對滴滴的機器學習平臺進行全面解讀，重點分享機器學習平臺不同階段所要解決的問題，以及解決問題的思路和技術方案。針對框架層自主研發了深度學習框架 IFX，並適配於 GPU 伺服器和移動端平臺。

由於GPU伺服器上 CUDA 存在 context 管理的問題，所以實現了一種 GPU 上的併發機制，有效地繞開了這些問題所帶來的額外開銷，另外對大量的 OP 做了最佳化，使得 IFX 的效能遠高於 Tensoflow 乃至 TensorRT ；IFX 針對移動端的不同硬體配置，比如：流水線長度、順序亂序、超標量等特點進行指令重排、訪存最佳化，結合業務的計算特點，使得 IFX 的效能取得不俗的表現：

在 IFX 的最佳化過程中，大量的重複工作基本在 Tuning Blas 計算，由於硬體架構不同，不同模型的計算量、計算訪存比、計算訪存模式都不同，在極高效能要求下都需要綜合這些具體的情況做針對性的最佳化。為解決這類問題，平臺開發了 Autotuning 工具鏈，包括 Kepler、Pascal、Volta 架構的原生彙編器。對於使用者來講，只需要把 GPU 上的二進位制程式碼發給平臺，平臺就可產生在該 GPU 平臺上幾乎是最優，也就是當前最高效能最佳化後的二進位制程式碼。

四種除錯深度學習模型的方式 | 機器之心

摘要：作者總結了四種除錯深度神經網路的方法，分別是預測合成輸出、視覺化啟用值（透過在熱圖中繪製單元啟用值，分析發現如無法傳導梯度的死神經元）、梯度分析（衡量模型能否追蹤長期依賴的一種簡單方法是去檢查輸入資料的每個時間步長對輸出預測的影響。如果後面的時間步長具有特別大的影響，則說明模型沒有有效地利用早期資料）、分析模型預測。此外，檢視最好和最壞的樣本也是很有啟發性的。

Editor：

https：//

github。com/ysh329

Project： awesome-embedded-ai