專門針對時間序列分類任務的時序大模型
今天給大家介紹一篇華為最近發(fā)表的時間序列分類大模型工作,填補了專門用于時間序列分類的大模型工作空白,借鑒了Vision Transformer的訓練方式和模型結構,遷移到時間序列分類任務中,在多種類型的數(shù)據(jù)集上取得了不錯的效果。
推薦閱讀:???2024時序預測都有哪些經(jīng)典工作——匯總篇??,2024時間序列預測相關最新SOTA工作匯總,涉及模型結構、表示學習、頻域信息、擴散模型10余個專題。
論文標題:Mantis: Lightweight Calibrated Foundation Model for User-Friendly Time Series Classification
下載地址:??https://arxiv.org/pdf/2502.15637v1??
1.研究背景
時間序列大模型的研究已經(jīng)非常廣泛,但是大多數(shù)都是針對時間序列預測任務,或者能夠解決時間序列預測、分類、填充等多種類型任務的通用模型,而缺少專門針對時間序列分類任務的時間序列基礎模型。相比針對分類的時序基礎模型,同時解決多種任務的模型可能在分類任務上的表現(xiàn)并不是最優(yōu)的。
華為發(fā)表的這篇文章,核心是構建一個專門針對時間序列分類的時間序列基礎模型Mantis,能夠應用到多種領域、多種輸入格式(單變量or多變量)的數(shù)據(jù)上。
2.建模方法
下面主要從輸入特征、模型結構、訓練方式、Adaptor等4個角度,介紹文本提出的Mantis時間序列分類大模型。
在輸入特征方面,主要分為patch、差分patch、統(tǒng)計值等3個部分。Patch采用正常的分patch操作,基于卷積+mean pooling實現(xiàn)。差分patch指的是對原始序列進行差分(相鄰位置相減)后,再進行分patch處理,實現(xiàn)對原始序列平穩(wěn)項的提取。統(tǒng)計值,指的是直接提取原始序列patch的均值、方差等,作為額外的特征,輸入模型。三種特征都將原始序列分成32個patch,每個patch的這三種類型的特征,拼接到一起,經(jīng)過一層Linear和一層Layer Normalization,生成32個token,作為后續(xù)模型的輸入。
在模型結構方面,基本采用了Vision Transformer的結構。用一個[CLASS] token拼接到輸入token前面,并引入position embedding,一起輸入到多層Transformer模型中,最終[CLASS] token輸出的embedding通過一個MLP映射到分類結果。
在訓練方法上,核心是基于對比學習的預訓練。從多種類型的數(shù)據(jù)集中,采樣一個時間序列,并使用數(shù)據(jù)增強方法生成其正樣本,隨機采樣負樣本,通過對比學習拉近正樣本對之間距離,推遠負樣本對之間距離,提升模型的表征學習能力。在數(shù)據(jù)增強方法上,文中發(fā)現(xiàn)不同類型數(shù)據(jù)適用的數(shù)據(jù)增強方法不同,文中采用了一種叫做RandomCropResize的比較保險的增強方法。對原始數(shù)據(jù)隨機截取一段,然后再拉伸成原始的尺寸,作為數(shù)據(jù)增強結果。
為了讓訓練好的時序基礎模型支持不同輸入channel維度的樣本,一種簡單的做法是把多元序列拆成多個單變量序列,獨立過預訓練模型。這種方法當序列維度較高時效率低,且無法考慮變量間關系。本文提出了Adaptor方法,讓多元時間序列適配時序基礎模型。核心是用降維的方法,將原始多元時間序列映射到更低的維度,再輸入時序基礎模型。降維過程針對每個時間步的各個變量進行,不影響時序關系。另外,文中也提出了使用MLP進行降維,讓MLP跟著模型進行學習,達到有監(jiān)督的降維效果。
3.實驗效果
在實驗部分,文中從zero-shot表征抽取效果、finetune模型效果等角度對Mantis進行驗證,并進行了消融實驗、Adaptor類型效果差異影響的實驗。不論是zero-shot場景還是finetune場景,本文提出的方法都取得了優(yōu)于其他SOTA方法的效果。
本文轉載自??圓圓的算法筆記??
