KDD2024 | 解決時(shí)空建模異質(zhì)問題——基于時(shí)空表征的個(gè)性化參數(shù)時(shí)空網(wǎng)絡(luò)
今天給大家介紹一篇最近被KDD錄用的時(shí)空預(yù)測(cè)建模工作。這篇文章重點(diǎn)解決在時(shí)空預(yù)測(cè)建模中,如何解決不同樣本在時(shí)間和空間維度上的異質(zhì)性,提出了一種基于時(shí)空表征的個(gè)性化參數(shù)建模方法。
1、背景
時(shí)空建模是一個(gè)常見問題,例如在交通預(yù)測(cè)中,預(yù)測(cè)每個(gè)位置每個(gè)時(shí)間步的流量等任務(wù),需要同時(shí)考慮一個(gè)位置內(nèi)時(shí)間維度的依賴關(guān)系,以及同一段時(shí)間不同位置建的空間依賴關(guān)系。關(guān)于時(shí)空建模,在【圓圓的算法筆記】知識(shí)星球中也詳細(xì)整理了相關(guān)前沿工作和代碼解析,感興趣的同學(xué)可以加入領(lǐng)取。
時(shí)空異質(zhì)性是時(shí)空建模中的一個(gè)難題。這種異質(zhì)性,在時(shí)間維度上指的是,同一個(gè)地點(diǎn),不同時(shí)間的流量分布差異很大,比如早高峰和日常時(shí)間、工作日和周末;在空間維度上,指的是同一時(shí)間段,不同位置的流量序列pattern差異很大,如下圖所示。
現(xiàn)有的解決方法,主要依賴于在時(shí)間或空間人工定義一些有區(qū)分度的特征,例如POI數(shù)據(jù)等。這類方法對(duì)特征依賴比較強(qiáng)。本文則提出了一種基于表示學(xué)習(xí)的方法,在不依賴額外特征的情況下,實(shí)現(xiàn)時(shí)間空間異質(zhì)性的個(gè)性化建模。
2、建模方法
為了解決時(shí)空異質(zhì)性問題,本文建模的一個(gè)核心思路為:利用數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)時(shí)間embedding和空間embedding,這些表征可以天然將相同時(shí)空上下文的樣本聚類成簇,再基于這個(gè)表征進(jìn)行網(wǎng)絡(luò)參數(shù)的個(gè)性化,實(shí)現(xiàn)每類時(shí)空數(shù)據(jù)獨(dú)立建模。
整體的建模方法包括:時(shí)空表征學(xué)習(xí)、meta-parameter個(gè)性化參數(shù)、時(shí)空網(wǎng)絡(luò)3個(gè)部分,核心是meta-parameter個(gè)性化參數(shù),整體模型結(jié)構(gòu)如下圖所示。
在時(shí)空表征學(xué)習(xí)中,對(duì)于每條樣本,為其分配相應(yīng)的時(shí)間embedding和空間embedding。時(shí)間embedding使用每個(gè)時(shí)間序列最后一個(gè)step對(duì)應(yīng)的hour-of-day、day-of-week對(duì)應(yīng)的embedding拼接到一起??臻gembedding為每個(gè)位置設(shè)定一個(gè)可學(xué)習(xí)的隨機(jī)初始化embedding。整體embedding隨著最終優(yōu)化目標(biāo)訓(xùn)練。文中提出,隨著訓(xùn)練的進(jìn)行,能夠?qū)崿F(xiàn)將相似時(shí)間或空間pattern的拉近,在后面的實(shí)驗(yàn)部分也有可視化驗(yàn)證。如下圖,時(shí)間embedding、空間embedding都形成了比較強(qiáng)的類簇關(guān)系,相同類簇的表征聚集在了一起。
第二部分是本文提出的meta-parameter個(gè)性化參數(shù)網(wǎng)絡(luò)。文中將參數(shù)分成時(shí)間、空間、時(shí)空3個(gè)部分。每個(gè)部分的網(wǎng)絡(luò),都會(huì)使用前面學(xué)到的時(shí)空embedding進(jìn)行子參數(shù)檢索。例如,時(shí)間維度,設(shè)定k組參數(shù),對(duì)于一個(gè)樣本,利用前面學(xué)到的時(shí)間embedding作為query,和這k組參數(shù)進(jìn)行相乘,相當(dāng)于從這k組參數(shù)中檢索一組最適配的參數(shù)??臻g維度和時(shí)空維度也類似,空間維度的query使用空間embedding,時(shí)空維度的query使用一個(gè)原始序列經(jīng)過編碼器的表征。
通過meta-parameter的方法,實(shí)現(xiàn)了每種類型的時(shí)空樣本使用特定一種個(gè)性化參數(shù)的目的。同時(shí),通過將時(shí)間參數(shù)、空間參數(shù)、時(shí)空參數(shù)這3組參數(shù)空間的分離,又能讓每組參數(shù)分別解決專門的異構(gòu)性問題。例如時(shí)間維度的參數(shù),專門將工作日或周末、高峰或日常等不同類型的時(shí)間節(jié)點(diǎn),使用相應(yīng)的參數(shù)進(jìn)行擬合。
最后,在時(shí)空模型結(jié)構(gòu)上,使用的是Graph Convolutional Recurrent Unit網(wǎng)絡(luò),將上述meta-parameter引入到GCRU中,實(shí)現(xiàn)個(gè)性化的GCRU。圖中的節(jié)點(diǎn)的關(guān)系鄰接矩陣,使用節(jié)點(diǎn)embedding內(nèi)積+ReLU的方式進(jìn)行自動(dòng)化學(xué)習(xí)。
3、實(shí)驗(yàn)效果
文中在多個(gè)時(shí)空預(yù)測(cè)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,本文提出的建模方法均取得了一定的效果提升。
文中也進(jìn)行了整個(gè)建模過程的可視化分析。除了前文已經(jīng)介紹過了時(shí)間embedding、空間embedding的聚類簇合理性外,也分析了meta-parameter的分布情況,不同類簇在不同時(shí)間段內(nèi)隨著pattern差異的大小,參數(shù)的相關(guān)性業(yè)隨之變化。
本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise
