ICML 2024 | 脫離LoRA架構,訓練參數(shù)大幅減少,新型傅立葉微調來了
本文介紹了香港科技大學(廣州)的一篇關于大模型高效微調(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代碼已開源。
- 論文地址:https://arxiv.org/abs/2405.03003
- 項目地址:https://github.com/Chaos96/fourierft
背景
大型基座模型在自然語言處理(NLP)和計算機視覺(CV)領域都獲得了矚目的成就。微調(Finetuning)大型基座模型,使其更加適應特殊的下游任務,成為了一項熱門研究課題。然而,在模型越來越大,下游任務越來越多樣的今天,微調整個模型帶來的計算、存儲消耗已大到不再能被接受。LoRA 采用低秩擬合微調增量的方案,成功降低了大量的此類消耗,但每個適應器(adapter)的大小仍然是不可忽視的。這激發(fā)了本文的核心問題:相比 LoRA,如何進一步大幅減少可訓練參數(shù)?此外,一個有趣的附加問題是能否采用更少的參數(shù)量得到高秩增量矩陣。
方法
傅立葉基底在各類數(shù)據(jù)壓縮應用中廣泛使用,例如一維向量信號和二維圖像的壓縮。在這些應用中,稠密的空域信號通過傅立葉變換被轉化為稀疏的頻域信號?;谶@一原理,作者推測模型權重的增量也可以被視為一種空域信號,其對應的頻域信號可以通過稀疏表示來實現(xiàn)。
在這一假設的基礎上,作者提出了一種新的方法,用于在頻域中學習增量權重信號。具體來說,該方法通過隨機位置的稀疏頻域信號來表示空域權重增量。在加載預訓練模型時,首先隨機選擇 n 個點作為有效的頻域信號,然后將這些信號拼接成一個一維向量。在前向傳播過程中,這個一維向量被用來通過傅立葉變換恢復空域矩陣;在反向傳播過程中,由于傅里葉變換的可導性,可以直接對此可學習的向量進行更新。這種方法不僅有效減少了模型微調時所需的參數(shù)數(shù)量,同時保證了微調性能。通過這種方式,作者不僅實現(xiàn)了對大規(guī)?;A模型的高效微調,還展示了傅立葉變換在機器學習領域中的潛在應用價值。
得益于傅立葉變換基底的高信息量,僅需很小的 n 值即可達到與 LoRA 相當甚至超過 LoRA 的表現(xiàn)。一般來說,傅立葉微調的可訓練參數(shù)僅為 LoRA 的千分之一到十分之一。
實驗
1. 自然語言理解
作者在自然語言理解的 GLUE 基準測試上對傅立葉微調方法進行了評估?;€對比方法包括全量微調(FF,F(xiàn)ull Finetuning)、Bitfit、適應器微調(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各種方法在 GLUE 各個任務上的表現(xiàn)及其所需的訓練參數(shù)量。結果表明,傅立葉微調以最少的參數(shù)量達到了甚至超越了其他微調方法的性能。
2. 自然語言指令微調
大模型的自然語言生成是目前模型微調的重要應用領域。作者在 LLaMA 系列模型、MT-Bench 任務和 Vicuna 任務上評估了傅立葉微調的性能。結果顯示,傅立葉微調以極低的訓練參數(shù)量達到了與 LoRA 相似的效果,進一步驗證了傅里葉微調方法的通用性和有效性。
3. 圖像分類
作者在 Vision Transformer 上測試了傅里葉微調的性能,涵蓋了 8 個常見的圖像分類數(shù)據(jù)集。實驗結果表明,雖然在圖像分類任務中傅立葉微調相較LoRA的壓縮率提升并不比自然語言任務中顯著,但其仍然以遠小于 LoRA 的參數(shù)量超越了 LoRA 的效果。這進一步展示了傅立葉微調在不同應用領域中的有效性和優(yōu)勢。
4. 突破低秩
在 GLUE 基準的 RTE 數(shù)據(jù)集上,F(xiàn)ourierFT 可以實現(xiàn)明顯高于 LoRA (通常為 4 或 8) 的增量的秩。
5.GPU 資源消耗
微調過程中,F(xiàn)ourierFT 可以實現(xiàn)比 LoRA 更少的 GPU 消耗。下圖為采用單張 4090 顯卡在 RoBERTa-Large 模型上的巔峰內存消耗。
結論
作者介紹了一種名為傅立葉微調的高效微調方法,通過利用傅里葉變換來減少大基礎模型微調時的可訓練參數(shù)數(shù)量。該方法通過學習少量的傅里葉譜系數(shù)來表示權重變化,顯著降低了存儲和計算需求。實驗結果顯示,傅立葉微調在自然語言理解、自然語言生成、指令調優(yōu)和圖像分類等任務上表現(xiàn)優(yōu)異,與現(xiàn)有的低秩適應方法(如 LoRA)相比,傅立葉微調在保持或超過 LoRA 性能的同時,所需的可訓練參數(shù)大幅減少。
本文轉自 機器之心 ,作者:機器之心
