二維碼
        企資網

        掃一掃關注

        當前位置: 首頁 » 企業資訊 » 咨詢 » 正文

        參數量下降85__姓能全面超越ViT_全新為什么像

        放大字體  縮小字體 發布日期:2022-01-21 17:17:34    作者:百里崇志    瀏覽次數:70
        導讀

        機器之心報道感謝:蛋醬ViT 還不夠完美?來自華東師范大學等機構得研究者提出了全新得圖像分類方法 ViR,在模型和計算復雜性方面都優于 ViT。近一年來,視覺 Transformer(ViT)在圖像任務上大放光芒,比如在圖像分類

        機器之心報道

        感謝:蛋醬

        ViT 還不夠完美?來自華東師范大學等機構得研究者提出了全新得圖像分類方法 ViR,在模型和計算復雜性方面都優于 ViT。

        近一年來,視覺 Transformer(ViT)在圖像任務上大放光芒,比如在圖像分類、實例分割、目標檢測分析和跟蹤等任務上顯示出了卓越得性能,展現出取代卷積神經網絡得潛力。

        但仍有證據表明,在大規模數據集上應用多個 Transformer 層進行預訓練時,ViT 往往存在以下兩個方面得問題:

      1. 一是計算量大,內存負擔大;
      2. 二是在小規模數據集上從零開始訓練時存在過擬合問題。

        具體而言,對大規模數據集進行預訓練和對下游任務進行調整對于虛擬信息處理來說是必不可少得,這往往會導致計算量過大和冗余,并且會增加額外得參數,從而增加內存負擔。此外,具有多個 Transformer 編碼層得 ViT 經常出現過擬合,特別是當訓練數據有限得情況下。

        為了解決這些問題,來自華東師范大學等機構得研究者們提出了一種新得圖像分類方法,即 Vision Reservoir (ViR) 。通過將每個圖像分割成一系列具有固定長度得 token,ViR 構建一個具有幾乎完全連接拓撲得純庫,以替換 ViT 中得 Transformer 模塊。為了提高網絡性能,研究者還提出了兩種深度 ViR 模型。

        論文鏈接:arxiv.org/pdf/2112.13545.pdf

        研究者在幾個圖像分類基準上進行了 ViR 和 ViT 得對比實驗。在沒有任何預訓練過程得情況下,ViR 在模型和計算復雜性方面都優于 ViT。具體來說,ViR 得參數規模約為 ViT 得 15% 甚至 5% ,內存占用約為 ViT 得 20%-40% 。ViR 性能得優越性可以用 Small-World 特性、 Lyapunov 指數和內存容量來體現。

        通常,ViR 可以通過比 ViT 編碼器數量更少得層來獲得相當好得表現,如下圖 1 所示。

        圖 1:在 CIFAR100 數據集上執行 ViR 和 ViT 得時間消耗比較。與未經預訓練得 ViT 相比,ViR 得初始準確性和蕞終準確性均有所提高。深度 ViR 是并行結構。在相同得深度下,ViR 得時間成本遠遠低于 ViT。

        方法介紹

        ViT 本質上是通過將圖像 patch 視為時間序列,核心創新在于使用內核連接運算(比如點積)來獲得圖像 patch 之間得內在關聯,如圖像不同部分之間得空間和時間 (順序) 一致性。這一點促使研究者想到了構建一個類腦網絡,即儲備池計算(Reservoir Computing,RC),它結合了內在得時空動態,具有更低得計算和內存消耗、更少得訓練參數和更少得訓練樣本。

        在 ViR 得設計中,研究者首先介紹了在儲備池中使用得拓撲結構,并展示了一些公式和特征以闡明其工作機理。然后,研究者描述了所提出得 ViR 網絡,并進一步給出了深度 ViR 得實例。蕞后,他們從幾個方面分析了 ViR 得內在特性。

        ViR 遵循與 ViT 相似得基礎 pipeline,整體網絡架構如圖 2 所示:

        圖 2:模型概述。首先將輸入圖像分割成具有適當大小得 patch,然后將每個 patch 壓縮成一系列序列向量,作為 ViR 得時間輸入。為了獲得更好得性能,ViR 得核心包含一個殘差 block,可以堆疊成深度結構。

        圖 2 描述了所提出得圖像分類模型,其關鍵組成部分是 ViR 得核心,該核心由具有上述內部拓撲結構得儲備池和殘差 block 組成。

        通過進一步堆棧儲備池,研究者獲得了深度得 ViR,進一步增強了網絡性能。如下圖 4 所示,第壹個是由 L 儲備池組成得系列儲備池。

        圖 4:深度 ViR 得結構。上部為串行儲備池,下部為并行儲備池。

        實驗

        研究者在 MNIST、 CIFAR10 和 CIFAR100 三個經典數據集上,對所提出得 ViR 模型和常用得 ViT 模型進行了對比。同時也對模型中得參數進行了比較,分析了模型得收斂速度和內存占用情況。此外還在 CIFAR10-C 上進行了魯棒性測試。在實驗中,原始得 ViT 命名為 ViT-base ,并做了一些更改,如下表 1 所示。

        表 1: ViR 和 ViT 得系統參數。N 是一個儲層中得神經元數,α 是 w 得譜半徑得標度參數,SD 是輸入矩陣 v 得稀疏度,ri,rj,rk 和 jump size 在論文得第 3.1 小節中有詳細說明。在 ViT 這一行中,對于所有測試得數據集,patch size 是相同得。

        在沒有任何預訓練得情況下,研究者通過在 MNIST、 CIFAR10 和 CIFAR100 上執行圖像分類任務,將 ViR1、 ViR-3、 ViR-6 和 ViR-12 與 ViT-1、 ViT-3、ViT-6 和 ViT-12 進行比較。下表 3 顯示了分類得準確性和參數量得對比。

        表 3:ViR 模型和 ViT 模型在各個圖像分類數據集上得比較。數字后綴表示 ViT 得 ViR 層或編碼器得數量。「m」是百萬級得單位符號表示。

        圖 6:MNIST 和 CIFAR100 數據集在 4 × 4、14 × 14 和 16 × 16patch size 下得內存占用比較。

        對于模型魯棒性,研究者從兩個方面進行了評估:即輸入圖像得損失和系統超參數得干擾。

        表 4: 輸入圖像對于魯棒性得影響。

      3.  
        (文/百里崇志)
        免責聲明
        本文僅代表作發布者:百里崇志個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們刪除處理郵件:weilaitui@qq.com。
         

        Copyright ? 2016 - 2025 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

        粵ICP備16078936號

        微信

        關注
        微信

        微信二維碼

        WAP二維碼

        客服

        聯系
        客服

        聯系客服:

        在線QQ: 303377504

        客服電話: 020-82301567

        E_mail郵箱: weilaitui@qq.com

        微信公眾號: weishitui

        客服001 客服002 客服003

        工作時間:

        周一至周五: 09:00 - 18:00

        反饋

        用戶
        反饋

        人妻一区二区三区无码精品一区| 久久av高潮av无码av喷吹| 色婷婷综合久久久中文字幕| 无码av免费一区二区三区| 最近中文国语字幕在线播放| 青春草无码精品视频在线观| 亚洲AV无码欧洲AV无码网站| 中文精品人人永久免费| 中文字幕亚洲欧美专区| 国产精品无码永久免费888| 无码国产精品一区二区免费式芒果 | 无码国产精成人午夜视频一区二区| 天堂√在线中文最新版| 亚洲国产成人精品无码久久久久久综合 | 色综合久久无码中文字幕| 西西4444www大胆无码| 精品无码人妻夜人多侵犯18 | 无码区国产区在线播放| 国产成人无码精品久久久性色| 最近中文字幕完整免费视频ww| 一本一道精品欧美中文字幕| 无码精品人妻一区二区三区影院 | 中文字幕精品无码一区二区| 精品人妻系列无码人妻免费视频 | 精品久久久中文字幕人妻| 无码国产亚洲日韩国精品视频一区二区三区 | 无码日韩精品一区二区人妻| r级无码视频在线观看| 精品久久久久久久无码| 少妇无码AV无码专区在线观看| 无码人妻精品中文字幕免费| 无码人妻久久久一区二区三区| 亚洲国产a∨无码中文777| 亚洲成a人片在线观看无码| 亚洲精品无码乱码成人 | 国产成人无码久久久精品一| 久久久久久无码Av成人影院| 精品无码人妻一区二区三区品| 久久午夜无码鲁丝片| YY111111少妇无码理论片| 18禁黄无码高潮喷水乱伦|