9月27日消息,由圖靈獎獲得者、人工智能巨頭Yoshua Bengio 和 Yann LeCun牽頭創辦的頂級會議ICLR,被譽為深度學習“無冕之王”,獲得學術研究者們廣泛認可。ICLR 2019 共收到 1591 篇論文投稿,其中 oral 論文 24 篇,poster 論文 476 篇。ICLR 2020 更瘋狂,到9月25日論文提交截止日期,已投稿的論文有2594篇!比去年增加了近1000篇。其中,來自谷歌的一篇論文引起格外矚目,該論文提出ALBERT模型,比BERT-large 參數更少,卻在GLUE、RACE和SQuAD三大NLP基準測試中取得第一。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


全部論文:https://openreview.net/group?id=ICLR.cc/2020/Conference


當然這也不算特別震驚,畢竟最近幾年頂會論文的瘋狂增長大家早就有了心理準備。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


在這么多投稿中,一篇來自谷歌的論文很快引起研究社區矚目。該論文提出一個名為ALBERT的模型,比BERT-large 參數更少,卻在 GLUE 基準遠遠甩開 BERT-Large 拿到榜首。不僅如此,該模型橫掃 GLUE、RACE 和 SQuAD,以顯著的優勢穩坐第一。


事情經過是這樣的:


有Reddit網友發現,一個叫做 ALBERT 的模型,在 SQuAD 2.0 leaderboard 和 GLUE benchmark 都達到了最佳水準。這是一個前所未見的新模型,引起了大家的好奇。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


ALBERT在SQuAD 2.0上排名第一


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


ALBERT在GLUE benchmark上排名第一


不久,終于有網友扒出了這個模型的論文,原來是 ICLR 2020 的一篇投稿,出自谷歌。


ALBERT 又叫 A LITE BERT,顧名思義就是一個輕量級的 BERT 模型。模型大固然效果好,但也超吃資源。訓練一次不僅耗時、更費錢。甚至在某些情況下,由于 GPU/TPU 內存限制、訓練時間延長以及意外的模型退化等原因,更難提升模型大小。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


谷歌研究人員對此提出了通過兩種參數約簡技術來降低內存消耗,加快 BERT 的訓練速度的思路,于是就有了 ALBERT。


接下來,我們就來看一下這篇 ICLR 2020 投稿論文,來一探這個神仙模型的究竟。


制霸三大基準測試,ALBERT用了兩招


在訓練自然語言表示時,增加模型大小通常會提高下游任務的性能。然而,在某種程度上,由于GPU/TPU內存的限制、更長的訓練時間以及意想不到的model degradation,進一步增大模型會變得更加困難。


為了解決這些問題,谷歌的研究人員提出了兩種參數約簡技術,以降低內存消耗,并提高BERT的訓練速度。


實驗表明,本文提出的方法得到的模型比原始BERT模型更好。我們還使用 self-supervised loss,專注于建模句子間的連貫性,并表明它始終有助于多句子輸入的下游任務。


基于此方法的最佳模型在GLUE、RACE和SQuAD基準上都得到了最新的SOTA結果,而且與BERT-large相比,參數更少。


構建更大的模型的一個障礙是可用硬件的內存限制。考慮到目前最先進的模型通常有數億甚至數十億個參數,當我們試圖擴展模型時,很容易遇到這類限制。在分布式訓練中,訓練速度也會受到很大的影響,因為通信開銷與模型參數的數量成正比。


我們還觀察到,簡單滴增加模型的hidden size可能會導致性能下降,比如BERT-large。表1和圖1給出了一個典型的例子,我們簡單地將這個BERT-xlarge模型的hidden size增加到2倍,結果卻很糟糕。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


表1:在RACE測試中,增加BERT-large的hidden size導致模型性能下降。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


圖1:較大模型的masked LM精度較低,但沒有明顯的過擬合跡象。


針對上述問題,現有解決方案包括模型并行化(Shoeybi et al.,2019)和智能內存管理(Chen et al., 2016); Gomez et al., 2017)。這些解決方案解決了內存限制問題,但沒有解決通信開銷和model degradation問題。在本文中,我們通過設計一個比傳統BERT架構參數少得多的架構來解決上述所有問題,稱為A Lite BERT (ALBERT)。


ALBERT結合了兩種參數約簡(parameter reduction)技術,消除了在擴展預訓練模型時的主要障礙。


第一個技術是對嵌入參數化進行因式分解(factorized embedding parameterization)。通過將大的詞匯表嵌入矩陣分解為兩個小的矩陣,將隱藏層的大小與詞匯表嵌入的大小分離開來。這種分離使得在不顯著增加詞匯表嵌入的參數大小的情況下,更容易增加隱藏大小。


第二種技術是跨層參數共享(cross-layer parameter sharing)。這種技術可以防止參數隨著網絡深度的增加而增加。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


BERT和ALBERT模型的規模


這兩種方法都在不嚴重影響性能的前提下,顯著減少了BERT的參數數量,從而提高了參數效率。ALBERT的配置類似BERT-large,但參數量少了18倍,并且訓練速度快1.7倍。參數約簡技術還可以作為一種形式的正則化,可以使訓練更加穩定,并且有助于泛化。


為了進一步提高ALBERT的性能,我們還引入了一個用于句子順序預測(sentence-order prediction ,SOP)的自監督損失。SOP 主要聚焦于句子間的連貫,旨在解決原始BERT模型中下一句預測(NSP)損失低效的問題。


基于這些設計,ALBERT能夠擴展到更大的版本,參數量仍然比BERT-large少,但是性能明顯更好。


我們在 GLUE、SQuAD 和 RACE 三大自然語言理解基準測試上都得到了新的SOTA結果:在 RACE 上的準確率提高到 89.4%,在 GLUE 上的得分提高到 89.4,在 SQuAD 2.0 上的 F1 得分達到 92.2。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


表10:GLUE基準測試的State-of-the-art 結果。


谷歌論文提出全新輕量級新模型ALBERT,制霸三大NLP基準測試


表11:在SQuAD 和 RACE 兩個基準測試上的State-of-the-art 結果


論文地址:https://openreview.net/pdf?id=H1eA7AEtvS

我來說幾句

不吐不快,我來說兩句
最新評論

還沒有人評論哦,搶沙發吧~