CVPR 2023 ,BP網(wǎng)絡(luò)剪枝了就不好使?(2)
如今,存在各種各樣的預(yù)訓(xùn)練離散網(wǎng)絡(luò)。因此,建立一個(gè)將此類網(wǎng)絡(luò)轉(zhuǎn)換為完整網(wǎng)絡(luò)的過程將是有益的,這種轉(zhuǎn)換后的網(wǎng)絡(luò)可以作為積分網(wǎng)絡(luò)訓(xùn)練的更好的初始化。為此,作者提出了一種對權(quán)重張量的卷積核和通道進(jìn)行排列的算法,以便在離散網(wǎng)絡(luò)中獲得平滑的結(jié)構(gòu)。圖 5 提供了該策略的直觀說明。作者還提出了一種使用梯度下降來優(yōu)化 INN 的平滑參數(shù)表示的算法。這使地能夠獲得一個(gè)可以重新采樣(結(jié)構(gòu)修剪)的網(wǎng)絡(luò),而無需在推理時(shí)進(jìn)行任何微調(diào)。
6 實(shí)驗(yàn)使用 PyTorch 庫實(shí)現(xiàn)了數(shù)值積分的通用框架 ??蚣茉试S使用自定義積分求積在 Nvidia GPU 上進(jìn)行數(shù)值積分。我們的積分神經(jīng)網(wǎng)絡(luò)使用 PyTorch 層來快速評估積分算子。人們可以使用我們的框架在積分網(wǎng)絡(luò)上獨(dú)立地進(jìn)行多個(gè)積分的數(shù)值積分。為了驗(yàn)證 INN,我們進(jìn)行了圖像分類和圖像超分辨率任務(wù)的實(shí)驗(yàn)。對于圖像分類,使用了 Cifar10 和 ImageNet 數(shù)據(jù)集。對于圖像超分辨率任務(wù),選擇了分別在 Div2k 數(shù)據(jù)集 和 91-image dataset數(shù)據(jù)集上訓(xùn)練的 4-x EDSR和 3-x SRCNN 模型。在 Set5 、Set14 和 B100 數(shù)據(jù)集上進(jìn)行驗(yàn)證。主要驗(yàn)證流程的示意圖如圖 6 所示。
6.1 Pipeline A. 與離散NNs的比較使用兩種不同的初始化來訓(xùn)練 INN:從頭開始和轉(zhuǎn)換后的預(yù)訓(xùn)練離散網(wǎng)絡(luò)。可以看到,從預(yù)訓(xùn)練的離散網(wǎng)絡(luò)微調(diào)的 INN 具有與相應(yīng)離散網(wǎng)絡(luò)相同或更高的性能,并且顯著優(yōu)于從頭訓(xùn)練的 INN(見表 1)。使用算法 1 微調(diào)的 INN 可以重新采樣為任何所需大小的相應(yīng)離散網(wǎng)絡(luò)。圖 7 顯示了 EDSR INN 與其離散對應(yīng)物的比較??梢钥闯?,即使經(jīng)過 40% 的修剪,INN 仍保持幾乎相同的性能。
6.2 Pipeline B. 通過轉(zhuǎn)換為INN而不進(jìn)行微調(diào)的結(jié)構(gòu)化修剪在這個(gè)實(shí)驗(yàn)中,使用論文第 4 節(jié)中描述的方法通過將離散網(wǎng)絡(luò)轉(zhuǎn)換為 INN 來修剪離散網(wǎng)絡(luò),并調(diào)整一些樣本的積分分區(qū)。結(jié)果如圖 1 所示(表示為 INN + 分區(qū)調(diào)整)。值得注意的是,排列步驟在論文的轉(zhuǎn)換算法中非常重要。事實(shí)上,當(dāng)部署分區(qū)調(diào)優(yōu)而不使用分區(qū)調(diào)整時(shí),可以觀察到更高的精度下降。這與變異和積分誤差的理論聯(lián)系(參見附錄 A)以及作者在表 2 中報(bào)告的實(shí)證評估一致。圖 1. 與我們提出的積分神經(jīng)網(wǎng)絡(luò)相比,無需微調(diào)的不同通道選擇方法的可視化。a) Cifar10 上的 ResNet-18。b) Cifar10 上的 NIN 架構(gòu)。c) ImageNet 上的 ResNet-18。d) Div2k 驗(yàn)證集上的 4x EDSR。通過壓縮,我們表示刪除參數(shù)的百分比。表2.從預(yù)訓(xùn)練DNN轉(zhuǎn)換過程中有和無排列步長INN積分劃分的調(diào)優(yōu),所有模型都被壓縮到40%。
6.3 Pipeline C. 離散神經(jīng)網(wǎng)絡(luò)無微調(diào)的結(jié)構(gòu)化剪枝獲得緊湊神經(jīng)網(wǎng)絡(luò)的一種直接方法是以結(jié)構(gòu)化方式刪除訓(xùn)練網(wǎng)絡(luò)的一些參數(shù)。通常,每層神經(jīng)元或過濾器的重要性是根據(jù)取決于網(wǎng)絡(luò)權(quán)重 W 和數(shù)據(jù) X 的各種標(biāo)準(zhǔn) ρ(W, X) 進(jìn)行評估的,例如權(quán)重的 ?1-范數(shù)或?qū)p失。在本文的研究中,結(jié)構(gòu)剪枝應(yīng)用于卷積層。要修剪的神經(jīng)元是根據(jù)其內(nèi)核的 ?1-范數(shù)或在整個(gè)數(shù)據(jù)集上估計(jì)的特征圖的各種統(tǒng)計(jì)數(shù)據(jù)來選擇的。最后,所有 3 個(gè)流程的結(jié)果如圖 1 所示。從這些結(jié)果中我們可以看到,INN 顯著優(yōu)于其他具有無需微調(diào)的剪枝能力的替代方法。此外,我們觀察到非均勻可訓(xùn)練分區(qū)優(yōu)于具有均勻采樣的預(yù)訓(xùn)練 INN,而均勻采樣提供了更快且無數(shù)據(jù)的重新離散化分區(qū)。這里也推薦「3D視覺工坊」新課程《面向三維視覺算法的C++重要模塊精講:從零基礎(chǔ)入門到進(jìn)階》。
用于改進(jìn)連續(xù)表示的可訓(xùn)練劃分三次卷積插值通常應(yīng)用于圖像或體積等離散數(shù)據(jù)。然而,均勻采樣的分區(qū)會(huì)限制重建質(zhì)量。因此,可訓(xùn)練分區(qū)提供了額外的靈活性來豐富信號重建,并可能導(dǎo)致更高質(zhì)量的表示。我們通過執(zhí)行圖像重建來評估具有固定和可分離可訓(xùn)練分區(qū)的插值內(nèi)核的表示能力(圖8)。此外,還使用由一組獨(dú)立的 2D 坐標(biāo)參數(shù)化的不可分離的可訓(xùn)練分區(qū)來測試重建。由于分區(qū)參數(shù)化引入了額外的參數(shù),因此我們通過調(diào)整插值節(jié)點(diǎn)的數(shù)量和分區(qū)大小來均衡參數(shù)總數(shù)。
7 總結(jié)在本文中,作者提出了一種新穎的神經(jīng)網(wǎng)絡(luò)積分表示,它允許我們通過積分核的簡單重新離散化在推理時(shí)生成任意形狀的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,所提出的連續(xù) INN 實(shí)現(xiàn)了與離散 DNN 對應(yīng)物相同的性能,同時(shí)在結(jié)構(gòu)化剪枝下保持穩(wěn)定,無需使用任何微調(diào)。在這個(gè)新方向上,以下問題值得進(jìn)一步研究:? INN 為研究神經(jīng)網(wǎng)絡(luò)的能力開辟了新的可能性。奈奎斯特定理可用于選擇采樣點(diǎn)的數(shù)量。? 自適應(yīng)積分求積。在這項(xiàng)工作中,本文僅研究了訓(xùn)練 INN 的統(tǒng)一分區(qū)。研究無數(shù)據(jù)的非均勻分區(qū)估計(jì)也可能對 INN 產(chǎn)生重大影響。? 從頭開始訓(xùn)練INN 需要改進(jìn)分類網(wǎng)絡(luò)。當(dāng)前精度下降可能是由于缺少批量歸一化層造成的。需要平滑的標(biāo)準(zhǔn)化模擬。
8 一些思考8.1 INN和DNN的比較INN 可以被視為連續(xù)的,或者換句話說,DNN 的模擬擴(kuò)展。盡管 INN 具有相同數(shù)量的參數(shù),但其性能與 DNN 相當(dāng)。然而,使用不同的離散化進(jìn)行訓(xùn)練會(huì)鼓勵(lì)沿連續(xù)軸的平滑表示,從而為權(quán)重添加更多結(jié)構(gòu)和正則化,這種精細(xì)的結(jié)構(gòu)對于解決許多問題至關(guān)重要,例如神經(jīng)網(wǎng)絡(luò)的有效修剪。此外,任何預(yù)先訓(xùn)練的 DNN 都可以轉(zhuǎn)換為 INN,而不會(huì)降低質(zhì)量,這是通過通道排列算法實(shí)現(xiàn)的,該算法利用了著名的組合旅行商問題的解決方案。這意味著我們可以將 DNN 轉(zhuǎn)換為 INN,反之亦然。它開啟了使用現(xiàn)有 INN 推理框架以及使用所有現(xiàn)有預(yù)訓(xùn)練 DNN 來獲得預(yù)訓(xùn)練 INN 的可能性。
8.2 INN對人工智能發(fā)展的影響INN 為進(jìn)一步研究和更深入地理解模型容量等基本 DNN 問題提供了巨大的可能性。展望未來,作者團(tuán)隊(duì)計(jì)劃利用差異分析來探索適合特定任務(wù)的最小 DNN 配置。此外,作者團(tuán)隊(duì)打算研究 INN 在其他結(jié)構(gòu)(例如生成對抗網(wǎng)絡(luò)(GAN))中的應(yīng)用,并仔細(xì)研究 INN 如何處理對抗攻擊。初步分析表明,INN 可能在 GAN 訓(xùn)練期間提供更高的穩(wěn)定性,并表現(xiàn)出更強(qiáng)的抵御對抗性攻擊的能力。一個(gè)有趣的探索領(lǐng)域是識(shí)別能夠完全以模擬方式計(jì)算 INN 的物理(模擬)系統(tǒng),從而促進(jìn)光速神經(jīng)網(wǎng)絡(luò)推理。作者團(tuán)隊(duì)還計(jì)劃以開源方式發(fā)布 TorchIntegral 框架,這有助于以與 DNN 相同的方式構(gòu)建 INN,該框架還支持使用 PyTorch 優(yōu)化操作來計(jì)算任何積分。作者團(tuán)隊(duì)打算提供一個(gè) INN 的“模型動(dòng)物園”,為開源社區(qū)的進(jìn)一步貢獻(xiàn)做好準(zhǔn)備,堅(jiān)信 INN 技術(shù)及其所促進(jìn)的創(chuàng)新將為邊緣計(jì)算帶來高度優(yōu)化的網(wǎng)絡(luò)。
9 參考https://medium.com/@TheStage_ai/thestage-ais-integral-neural-networks-paper-is-selected-as-an-award-candidate-at-cvpr-2023-773d459b7cfc
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。