比特幣價格 比特幣價格
Ctrl+D 比特幣價格
ads

atc:別再用平均池化層了!Meta AI把注意力塞到池化層,性能提升0.3_FLO

Author:

Time:1900/1/1 0:00:00

編輯:LRS

注意力機制這么好用,怎么不把它塞到卷積網絡里?最近MetaAI的研究人員提出了一個基于注意力的池化層,僅僅把平均池化層替換掉,就能獲得+0.3%的性能提升!

VisualTransformer作為計算機視覺領域的新興霸主,已經在各個研究任務中逐漸替換掉了卷積神經網絡CNN。

ViT與CNN之間存在著許多不同點,例如ViT的輸入是imagepatch,而非像素;分類任務中,ViT是通過對類標記進行決策等等。

classtoken實際上是ViT論文原作者提出,用于整合模型輸入信息的token。classtoken與每個patch進行信息交互后,模型就能了解到具體的分類信息。

并且在自注意力機制中,最后一層中的softmax可以作為注意力圖,根據classtoken和不同patch之間的交互程度,就能夠了解哪些patch對最終分類結果有影響及具體程度,也增加了模型可解釋性。

但這種可解釋性目前仍然是很弱的,因為patch和最后一層的softmax之間還隔著很多層和很多個header,信息之間的不斷融合后,很難搞清楚最后一層softmax是否真的可以解釋分類。

馬斯克推特賬號位置信息出現?符號:金色財經報道,馬斯克推特賬號的個人資料位置信息現在同時出現了“X”和“?”,X指的是Twitter的新品牌,而?被人解釋為狗狗幣,馬斯克過去一直公開支持狗狗幣。[2023/7/25 15:57:31]

所以如果ViT和CNN一樣有視覺屬性就好了!

最近MetaAI就提出了一個新模型,用attentionmap來增強卷積神經網絡,說簡單點,其實就是用了一個基于注意力的層來取代常用的平均池化層。

仔細一想,池化層和attention好像確實很配啊,都是對輸入信息的加權平均進行整合。加入了注意力機制以后的池化層,可以明確地顯示出不同patch所占的權重。

并且與經典ViT相比,每個patch都會獲得一個單一的權重,無需考慮多層和多頭的影響,這樣就可以用一個簡單的方法達到對注意力可視化的目的了。

數據:Alameda Research轉移價值約200萬美元FTT:2月8日消息,據加密貨幣情報平臺Arkham周二鏈上數據監測,標記為Alameda的地址‘brokenfish.eth’從BentoBox轉移了價值200萬美元的FTT。[2023/2/8 11:54:16]

在分類任務中更神奇,如果對每個類別使用不同顏色進行單獨標記的話,就會發現分類任務也能識別出圖片中的不同物體。

基于Attention的池化層

文章中新提出的模型叫做PatchConvNet,核心組件就是可學習的、基于attention的池化層。

比特幣挖礦報告:TeraWulf股票暴跌33%,Digihost跌超11%:金色財經報道,The Block追蹤的大多數比特幣礦企股票下跌,其中TeraWulf股票暴跌33%,Digihost跌超11%,比特幣礦企TeraWulf和Digihost是表現最差的股票之一。[2022/12/13 21:40:36]

模型架構的主干是一個卷積網絡,相當于是一個輕量級的預處理操作,它的作用就是把圖像像素進行分割,并映射為一組向量,和ViT中patchextraction操作對應。

最近也有研究表明,采用卷積的預處理能讓模型的性能更加穩定。

模型的第二部分column,包含了整個模型中的大部分層、參數和計算量,它由N個堆疊的殘差卷積塊組成。每個塊由一個歸一化、1*1卷積,3*3卷積用來做空間處理,一個squeeze-and-excitation層用于混合通道特征,最后在殘差連接前加入一個1*1的卷積。

安全團隊:沈波資產被盜原因極大可能是私鑰泄露:金色財經報道,據OKLink安全團隊透露,沈波個人錢包資產被盜的情況是其被盜地址直接發起轉賬交易,將ETH,USDC等資產transfer給其它地址,而不是transferFrom,所以其被盜原因不是常規的授權釣魚,很可能是私鑰泄露。另外,盜竊地址已經將3800萬USDC置換為DAI,無法再通過中心化實體進行凍結。

此前報道,沈波價值4200萬美元的個人資產錢包被盜。[2022/11/23 7:59:48]

研究人員對模型塊的選擇也提出了一些建議,例如在batchsize夠大的情況下,BatchNorm往往效果比LayerNorm更好。但訓練大模型或者高分辨率的圖像輸入時,由于batchsize更小,所以BatchNorm在這種情況下就不太實用了。

下一個模塊就是基于注意力的池化層了。

在主干模型的輸出端,預處理后的向量通過類似Transformer的交叉注意力層的方式進行融合。

Yuga Labs聯創:要把Otherside打造成“Web3原生Roblox”,不會設置圍欄花園:金色財經報道,Bored Ape Yacht Club和Yuga Labs的聯合創始人Wylie Aronow和Greg Solano在最新采訪中分享了他們對Yuga的“Otherside”元宇宙游戲的愿景,并表示要把Otherside打造成“Web3原生Roblox”,即:在具有NFT資產的視頻游戲上押下重注,但不會創建一個“圍欄花園”。 Wylie Aronow表示:“元宇宙的想法不是為你建造一個圍欄花園,有些游戲隨著時間的推移就像另一個Web2 MMORPG,對我來說,這不是創新,我喜歡讓社區一起兜風的想法。”此外,Wylie Aronow透露Otherside游戲并不是給兒童,而是給成年人設計的。(decrypt)[2022/10/19 17:31:55]

注意力層中的每個權重值取決于預測patch與可訓練向量之間的相似度,結果和經典ViT中的classtoken類似。

然后將產生的d維向量添加到CLS向量中,并經過一個前饋網絡處理。

與之前提出的class-attentiondecoder不同之處在于,研究人員僅僅只用一個block和一個head,大幅度簡化了計算量,也能夠避免多個block和head之間互相影響,從而導致注意力權重失真。

因此,classtoken和預處理patch之間的通信只發生在一個softmax中,直接反映了池化操作者如何對每個patch進行加權。

也可以通過將CLS向量替換為k×d矩陣來對每個類別的attentionmap進行歸一化處理,這樣就可以看出每個塊和每個類別之間的關聯程度。

但這種設計也會增加內存的峰值使用量,并且會使網絡的優化更加復雜。通常只在微調優化的階段以一個小的學習率和小batchsize來規避這類問題。

實驗結果

在圖像分類任務上,研究人員首先將模型與ImageNet1k和ImageNet-v2上的其他模型從參數量,FLOPS,峰值內存用量和256張圖像batchsize下的模型推理吞吐量上進行對比。

實驗結果肯定是好的,可以看到PatchConvNet的簡單柱狀結構相比其他模型更加簡便和易于擴展。對于高分辨率圖像來說,不同模型可能會針對FLOPs和準確率進行不同的平衡,更大的模型肯定會取得更高的準確率,相應的吞吐量就會低一些。

在語義分割任務上,研究人員通過ADE20k數據集上的語義分割實驗來評估模型,數據集中包括2萬張訓練圖像和5千張驗證圖像,標簽超過150個類別。由于PatchConvNet模型不是金字塔式的,所以模型只是用模型的最后一層輸出和UpperNet的多層次網絡輸出,能夠簡化模型參數。研究結果顯示,雖然PatchConvNet的結構更簡單,但與最先進的Swin架構性能仍處于同一水平,并且在FLOPs-MIoU權衡方面優于XCiT。

在檢測和實例分割上,研究人員在COCO數據集上對模型進行評估,實驗結果顯示PatchConvNet相比其他sota架構來說,能夠在FLOPs和AP之間進行很好的權衡。

在消融實驗中,為了驗證架構問題,研究人員使用不同的架構對比了Transformer中的classattention和卷積神經網絡的平均池化操作,還對比了卷積主干和線性投影之間的性能差別等等。實驗結果可以看到卷積主干是模型取得最佳性能的關鍵,class-attention幾乎沒有帶來額外的性能提升。

另一個重要的消融實驗時attention-basedpooling和ConvNets之間的對比,研究人員驚奇地發現可學習的聚合函數甚至可以提高一個ResNet魔改后模型的性能。

通過把attention添加到ResNet50中,直接在Imagenet1k上獲得了80.1%的最高準確率,比使用平均池化層的baseline模型提高了+0.3%的性能,并且attention-based只稍微增加了模型的FLOPs數量,從4.1B提升到4.6B。

參考資料:

https://arxiv.org/abs/2112.13692

Tags:atcFLOPFLOatc幣是什么幣FLOP幣FLOP價格FLO價格FLO幣

比特幣最新價格
人工智能:留學專業鄙視鏈曝光!這個專業被集體鄙視,超70%學生想換專業……_學人工智能后悔死了

你知道嗎?留學圈有一條隱形的鄙視鏈!就像美國留學生鄙視英國留學生,英國留學生鄙視加拿大留學生,加拿大留學生鄙視歐洲留學生......學術上也不例外!錢鐘書先生早在《圍城》中論述:“在大學里.

1900/1/1 0:00:00
NFT:周杰倫稱經典歌曲的Demo將制成NFT,NFT成為娛樂圈的新潮玩_NFT幣

記者|司林威 1月30日,此前一直對NFT多有關注的華語流行樂歌手周杰倫稱新專輯雖然不會做成限量版NFT,但會考慮將經典歌曲的Demo制成NFT.

1900/1/1 0:00:00
元宇宙:元宇宙是泡沫?還是新的變革!_人工智能元宇宙平臺公司找幻霄

在剛剛過去的2021年,“元宇宙”的火熱有目共睹。被資本盯上后,元宇宙賽道更是擠滿了嗅覺敏銳的各行業頭部玩家。元宇宙火出新高度后,唱衰的聲音也隨之而來.

1900/1/1 0:00:00
比特幣:密織防范網絡,淘汰虛擬貨幣“挖礦”_數字貨幣交易所官方網

本文轉自:科技日報 禁止虛擬貨幣“挖礦”,將電力投向實體經濟,是出于工業生產產值的考慮,也是出于保證供應鏈、產業鏈正常運轉,防止缺電導致就業形勢下滑的考慮.

1900/1/1 0:00:00
CELO:跨越百年的牽手,寶山與上海海洋大學簽署區校系列合作協議_CEL

繼去年寶山發布了“百年教育”尋根計劃,向曾經在寶山辦學的高等院校發出了回寶山尋根溯源的邀請,今天迎來了上海海洋大學回到寶山開啟尋根之旅。這既是一次久別重逢的相聚,又是一次跨越百年的牽手.

1900/1/1 0:00:00
Curve:以Curve和Sushi為例,談談DeFi基座理論_CRV

原文作者:0xSami 原文編譯:DeFi之道 DeFi協議過于關注價值捕獲,而對價值創造關注不足。作為一個行業,我們已經把金錢樂高這個概念看得太重了.

1900/1/1 0:00:00
ads