信號(hào)模態(tài)分解方法(如VMD)與預(yù)測(cè)任務(wù)結(jié)合時(shí),數(shù)據(jù)泄露問題需要謹(jǐn)慎處理
一、模態(tài)分解方法是否存在固有泄露?
- 分解方法的全局性
大多數(shù)模態(tài)分解方法(如VMD、EMD)需要完整的信號(hào)輸入進(jìn)行分解,其本質(zhì)是通過全局優(yōu)化或迭代過程提取模態(tài)分量(IMF)。這意味著:
如果直接在整個(gè)數(shù)據(jù)集(含未來測(cè)試數(shù)據(jù))上分解,分解后的IMF會(huì)隱含未來信息。
在訓(xùn)練階段使用這些IMF訓(xùn)練模型時(shí),模型會(huì)間接“看到”未來數(shù)據(jù),導(dǎo)致數(shù)據(jù)泄露。
- 泄露的根源
泄露并非來自分解方法本身,而是來自不合理的預(yù)處理流程。若分解步驟在數(shù)據(jù)劃分(訓(xùn)練集/測(cè)試集)之前進(jìn)行,則必然引入未來信息,導(dǎo)致泄露。
二、泄露風(fēng)險(xiǎn)分析
假設(shè)流程如下:
- 原始數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集;
- 整個(gè)數(shù)據(jù)集(含測(cè)試集)進(jìn)行VMD分解;
- 重構(gòu)高頻/低頻分量;
- 分別訓(xùn)練預(yù)測(cè)模型,最終結(jié)果相加。
關(guān)鍵問題:
- 步驟2的分解過程使用了測(cè)試集數(shù)據(jù),導(dǎo)致分解后的IMF(包括訓(xùn)練集的IMF)包含未來信息。
- 訓(xùn)練模型時(shí),輸入的高頻/低頻分量已隱含測(cè)試集信息,導(dǎo)致模型過擬合,預(yù)測(cè)結(jié)果不可信。
三、如何避免泄露?
正確流程(無泄露方案)
- 劃分?jǐn)?shù)據(jù):將數(shù)據(jù)嚴(yán)格分為訓(xùn)練集(歷史數(shù)據(jù))和測(cè)試集(未來數(shù)據(jù)),禁止測(cè)試集參與任何預(yù)處理。
- 僅在訓(xùn)練集上分解:
對(duì)訓(xùn)練集進(jìn)行VMD分解,確定分解參數(shù)(如模態(tài)數(shù)、中心頻率);
重構(gòu)高頻/低頻分量。
- 訓(xùn)練預(yù)測(cè)模型:使用訓(xùn)練集的分解結(jié)果訓(xùn)練高頻/低頻預(yù)測(cè)模塊。
- 測(cè)試階段處理:
- 對(duì)測(cè)試集數(shù)據(jù),需僅用訓(xùn)練階段確定的分解參數(shù)進(jìn)行分解。
- 若VMD無法局部應(yīng)用(需全局信號(hào)),需通過滾動(dòng)窗口或在線分解(如實(shí)時(shí)更新歷史窗口)避免使用未來數(shù)據(jù)。
- VMD的局限性:VMD需要全局優(yōu)化,難以分塊處理。若必須用VMD,可采用以下妥協(xié)方案:
滾動(dòng)分解:每次預(yù)測(cè)時(shí),僅用當(dāng)前時(shí)刻前的歷史數(shù)據(jù)重新分解,逐步擴(kuò)展窗口。
犧牲分解質(zhì)量:短窗口可能導(dǎo)致模態(tài)不穩(wěn)定,但可避免泄露。
- 替代方法:選擇支持在線分解的算法(如Online-EMD),或改用濾波類方法(如小波變換)。
本文轉(zhuǎn)載自????高斯的手稿???,作者:哥廷根數(shù)學(xué)學(xué)派
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦