在不同初始化條件下,同一神經網絡經過兩次訓練可以得到相同的結果嗎。

CVPR 2022的一篇研究通過將決策邊界可視化的方法,給出了答案mdash,mdash,
有的容易,有的很難。
例如,從下面這張圖來看,研究人員就發現,ViT比ResNet要更難復現:
研究人員還發現,模型的可復現性和模型本身的寬度也有很大關聯。
同樣,他們利用這種方法,對2019年機器學習最重要的理論之一mdash,mdash,雙下降現象進行了可視化,最終也發現了一些很有意思的現象。
來看看他們具體是怎么做的。
更寬的CNN模型,可復現性更高
深度學習中的決策邊界,可以用來最小化誤差。
簡單來說,分類器會通過決策邊界,把線內線外的點歸為不同類。
從中我們可以發現:
左邊三個和右邊四個差異很大,也就是說不同架構之間的相似性很低。
再進一步觀察,左邊的全連接網絡,ViT和MLP Mixer之間的決策邊界圖又不太一樣,而右邊CNN模型的則很相似。
在CNN模型中,我們還可以觀察到不同隨機數種子之間明顯的的重復性趨勢,這說明不同初始化配置的模型可以產生一樣的結果。
并發現更寬的CNN模型似乎在其決策區域具有更高的可復現性,比如WideRN30。
以及采用殘差連接結構的CNN模型的可復現性得分比無此連接的模型要略高。
此外,優化器的選擇也會帶來影響。
在下表中,我們可以看到SAM比標準優化器產生了更多可重復的決策邊界。
不過對于MLP Mixer和ViT,SAM的使用不能總是保證模型達到最高的測試精度。
有網友表示好奇,如果通過改善模型本身的設計,能改變這種現象嗎。
可視化ResNet—18的雙下降現象
雙下降是一個有趣的概念,描述是測試/訓練誤差與模型大小的關系。
在此之前,大家普遍認為參數太少的模型泛化能力差mdash,mdash,因為欠擬合,參數太多的模型泛化能力也差mdash,mdash,因為過擬合。
而它證明,兩者的關系沒有那么簡單。具體來說:
誤差會先伴隨著模型的增大而減小,然后經過模型過擬合,誤差又增大,但伴隨著模型大小或訓練時間的進一步增加,誤差又會再次減小。
他們通過寬度參數的改變來增加模型容量。
訓練出的兩組模型,其中一組使用無噪聲標簽的訓練集,另一組則帶有20%的噪聲標簽。
最終,在第二組模型中觀察到了明顯的雙下降現象。
線性模型預測的模型不穩定性也適用于神經網絡,不過這種不穩定性表現為決策區域的大量碎片。
也就說,雙下降現象是由噪聲標簽情況下決策區域的過度碎片引起的。
具體來說,當k接近/達到10時,由于模型此時擬合了大部分訓練數據,決策區域被分割成很多小塊,變得混亂和破碎,并不具備可重復性,此時模型的分類功能存在明顯的不穩定性。
而在模型寬度很窄和很寬時,決策區域碎片較少,有高水平的可重復性。
模型的可復現性得分如下:
同樣可以看到,在參數化不足和過參數化的情況下,整個訓練過程的可復現性很高,但在插值閾值處會出現故障。
有趣的是,即使沒有噪聲標簽,研究人員發現他們設計的量化方法也足夠敏感,可以檢測到可復現性的細微下降。
目前代碼已經開源,要不要來試試你的模型是否容易復現。
論文地址:
GitHub鏈接:
。聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22