色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 時(shí)序預(yù)測(cè)的深度學(xué)習(xí)算法介紹(3)

          時(shí)序預(yù)測(cè)的深度學(xué)習(xí)算法介紹(3)

          發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-07-25 來(lái)源:工程師 發(fā)布文章
          2.3 Attention類

          注意力機(jī)制(Attention)是一種用于解決序列輸入數(shù)據(jù)中重要特征提取的機(jī)制,也被應(yīng)用于時(shí)序預(yù)測(cè)領(lǐng)域。Attention機(jī)制可以自動(dòng)關(guān)注時(shí)間序列數(shù)據(jù)中的重要部分,為模型提供更有用的信息,從而提高預(yù)測(cè)精度。在應(yīng)用Attention進(jìn)行時(shí)序預(yù)測(cè)時(shí),需要利用Attention機(jī)制自適應(yīng)地加權(quán)輸入數(shù)據(jù)的各個(gè)部分,從而使得模型更加關(guān)注關(guān)鍵信息,同時(shí)減少無(wú)關(guān)信息的影響。Attention機(jī)制不僅可以應(yīng)用于RNN等序列模型,也可以應(yīng)用于CNN等非序列模型,是目前時(shí)序預(yù)測(cè)領(lǐng)域研究的熱點(diǎn)之一。

          2.3.1 Transformer(2017)

          Paper:Attention Is All You Need

          Transformer是一種廣泛應(yīng)用于自然語(yǔ)言處理(NLP)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)模型,其本質(zhì)是一種序列到序列(seq2seq)的模型。Transformer將序列中的每個(gè)位置視為一個(gè)向量,并使用多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)來(lái)捕捉序列中的長(zhǎng)程依賴性,從而使得模型能夠處理變長(zhǎng)序列和不定長(zhǎng)序列。

          圖片

          在時(shí)序預(yù)測(cè)任務(wù)中,Transformer模型可以將輸入序列的時(shí)間步作為位置信息,將每個(gè)時(shí)間步的特征表示為一個(gè)向量,并使用編碼器-****框架進(jìn)行預(yù)測(cè)。具體來(lái)說(shuō),可以將預(yù)測(cè)目標(biāo)的前N個(gè)時(shí)間步作為編碼器的輸入,將預(yù)測(cè)目標(biāo)的后M個(gè)時(shí)間步作為****的輸入,并使用編碼器-****框架進(jìn)行預(yù)測(cè)。編碼器和****都是由多個(gè)Transformer模塊堆疊而成,每個(gè)模塊由多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成。

          在訓(xùn)練過(guò)程中,可以使用均方誤差(MSE)或平均絕對(duì)誤差(MAE)等常見(jiàn)的損失函數(shù)來(lái)度量模型的預(yù)測(cè)性能,使用隨機(jī)梯度下降(SGD)或Adam等優(yōu)化算法來(lái)更新模型參數(shù)。在模型訓(xùn)練過(guò)程中,還可以使用學(xué)習(xí)率調(diào)整、梯度裁剪等技術(shù)來(lái)加速模型的訓(xùn)練和提高模型的性能。

          # Transformermodel = TransformerModel(    input_chunk_length=30,    output_chunk_length=15,    batch_size=32,    n_epochs=200,    # model_name="air_transformer",    nr_epochs_val_period=10,    d_model=16,    nhead=8,    num_encoder_layers=2,    num_decoder_layers=2,    dim_feedforward=128,    dropout=0.1,    optimizer_kwargs={"lr": 1e-2},    activation="relu",    random_state=42,    # save_checkpoints=True,    # force_reset=True,)

          圖片


          2.3.2 TFT(2019)

          Paper:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

          TFT(Transformer-based Time Series Forecasting)是一種基于Transformer模型的時(shí)序預(yù)測(cè)方法,它是由谷歌DeepMind團(tuán)隊(duì)于2019年提出的。TFT方法的核心思想是在Transformer模型中引入時(shí)間特征嵌入(Temporal Feature Embedding)和模態(tài)嵌入(Modality Embedding)。時(shí)間特征嵌入可以幫助模型更好地學(xué)習(xí)時(shí)序數(shù)據(jù)中的周期性和趨勢(shì)性等特征,而模態(tài)嵌入可以將外部的影響因素(如氣溫、節(jié)假日等)與時(shí)序數(shù)據(jù)一起進(jìn)行預(yù)測(cè)。

          圖片

          TFT方法可以分為兩個(gè)階段:訓(xùn)練階段和預(yù)測(cè)階段。在訓(xùn)練階段,TFT方法使用訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練Transformer模型,并使用一些技巧(如隨機(jī)掩碼、自適應(yīng)學(xué)習(xí)率調(diào)整等)來(lái)提高模型的魯棒性和訓(xùn)練效率。在預(yù)測(cè)階段,TFT方法使用已訓(xùn)練好的模型來(lái)對(duì)未來(lái)時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)。

          與傳統(tǒng)的時(shí)序預(yù)測(cè)方法相比,TFT方法具有以下優(yōu)點(diǎn):

          • 可以更好地處理不同尺度的時(shí)間序列數(shù)據(jù),因?yàn)門(mén)ransformer模型可以對(duì)時(shí)間序列的全局和局部特征進(jìn)行學(xué)習(xí)。
          • 可以同時(shí)考慮時(shí)間序列數(shù)據(jù)和外部影響因素,從而提高預(yù)測(cè)精度。
          • 可以通過(guò)端到端的訓(xùn)練方式直接學(xué)習(xí)預(yù)測(cè)模型,不需要手動(dòng)提取特征。

          # TFTmodel = TransformerModel(    input_chunk_length=30,    output_chunk_length=15,    batch_size=32,    n_epochs=200,    # model_name="air_transformer",    nr_epochs_val_period=10,    d_model=16,    nhead=8,    num_encoder_layers=2,    num_decoder_layers=2,    dim_feedforward=128,    dropout=0.1,    optimizer_kwargs={"lr": 1e-2},    activation="relu",    random_state=42,    # save_checkpoints=True,    # force_reset=True,)

          圖片

          2.3.3 HT(2019)

          HT(Hierarchical Transformer)是一種基于Transformer模型的時(shí)序預(yù)測(cè)算法,由中國(guó)香港中文大學(xué)的研究人員提出。HT模型采用分層結(jié)構(gòu)來(lái)處理具有多個(gè)時(shí)間尺度的時(shí)序數(shù)據(jù),并通過(guò)自適應(yīng)注意力機(jī)制來(lái)捕捉不同時(shí)間尺度的特征,以提高模型的預(yù)測(cè)性能和泛化能力。

          HT模型由兩個(gè)主要組件組成:多尺度注意力模塊和預(yù)測(cè)模塊。在多尺度注意力模塊中,HT模型通過(guò)自適應(yīng)多頭注意力機(jī)制來(lái)捕捉不同時(shí)間尺度的特征,并將不同時(shí)間尺度的特征融合到一個(gè)共同的特征表示中。在預(yù)測(cè)模塊中,HT模型使用全連接層對(duì)特征表示進(jìn)行預(yù)測(cè),并輸出最終的預(yù)測(cè)結(jié)果。

          HT模型的優(yōu)點(diǎn)在于,它能夠自適應(yīng)地處理具有多個(gè)時(shí)間尺度的時(shí)序數(shù)據(jù),并通過(guò)自適應(yīng)多頭注意力機(jī)制來(lái)捕捉不同時(shí)間尺度的特征,以提高模型的預(yù)測(cè)性能和泛化能力。此外,HT模型還具有較好的可解釋性和泛化能力,可以適用于多種時(shí)序預(yù)測(cè)任務(wù)。

          2.3.4 LogTrans(2019)

          Paper:Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

          Code:Autoformer

          LogTrans提出了一種 Transformer 時(shí)間序列預(yù)測(cè)改進(jìn)方法,包括卷積自注意力(生成具有因果卷積的查詢和密鑰,將局部環(huán)境納入注意力機(jī)制)和LogSparse Transformer(Transformer 的內(nèi)存效率較高的變體,用于降低長(zhǎng)時(shí)間序列建模的內(nèi)存成本),主要用于解決Transformer時(shí)間序列預(yù)測(cè)與位置無(wú)關(guān)的注意力和記憶瓶頸兩個(gè)主要弱點(diǎn)。

          2.3.5 DeepTTF(2020)

          DeepTTF(Deep Temporal Transformational Factorization)是一種基于深度學(xué)習(xí)和矩陣分解的時(shí)序預(yù)測(cè)算法,由美國(guó)加州大學(xué)洛杉磯分校的研究人員提出。DeepTTF模型將時(shí)間序列分解為多個(gè)時(shí)間段,并使用矩陣分解技術(shù)對(duì)每個(gè)時(shí)間段進(jìn)行建模,以提高模型的預(yù)測(cè)性能和可解釋性。

          DeepTTF模型由三個(gè)主要組件組成:時(shí)間分段、矩陣分解和預(yù)測(cè)器。在時(shí)間分段階段,DeepTTF模型將時(shí)間序列分為多個(gè)時(shí)間段,每個(gè)時(shí)間段包含連續(xù)的一段時(shí)間。在矩陣分解階段,DeepTTF模型將每個(gè)時(shí)間段分解為兩個(gè)低維矩陣,分別表示時(shí)間和特征之間的關(guān)系。在預(yù)測(cè)器階段,DeepTTF模型使用多層感知機(jī)對(duì)每個(gè)時(shí)間段進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果組合成最終的預(yù)測(cè)序列。

          DeepTTF模型的優(yōu)點(diǎn)在于,它能夠有效地捕捉時(shí)間序列中的局部模式和全局趨勢(shì),同時(shí)保持較高的預(yù)測(cè)精度和可解釋性。此外,DeepTTF模型還支持基于時(shí)間分段的交叉驗(yàn)證,以提高模型的魯棒性和泛化能力。

          2.3.6 PTST(2020)

          Probabilistic Time Series Transformer (PTST)是一種基于Transformer模型的時(shí)序預(yù)測(cè)算法,由Google Brain于2020年提出。該算法采用了概率圖模型來(lái)提高時(shí)序預(yù)測(cè)的準(zhǔn)確性和可靠性,能夠在不確定性較大的時(shí)序數(shù)據(jù)中取得更好的表現(xiàn)。

          PTST模型主要由兩個(gè)部分組成:序列模型和概率模型。序列模型采用Transformer結(jié)構(gòu),能夠?qū)r(shí)間序列數(shù)據(jù)進(jìn)行編碼和解碼,并利用自注意力機(jī)制對(duì)序列中的重要信息進(jìn)行關(guān)注和提取。概率模型則引入了變分自編碼器(VAE)和卡爾曼濾波器(KF)來(lái)捕捉時(shí)序數(shù)據(jù)中的不確定性和噪聲。

          具體地,PTST模型的序列模型使用Transformer Encoder-Decoder結(jié)構(gòu)來(lái)進(jìn)行時(shí)序預(yù)測(cè)。Encoder部分采用多層自注意力機(jī)制來(lái)提取輸入序列的特征,Decoder部分則通過(guò)自回歸方式逐步生成輸出序列。在此基礎(chǔ)上,概率模型引入了一個(gè)隨機(jī)變量,即時(shí)序數(shù)據(jù)的噪聲項(xiàng),它被建模為一個(gè)正態(tài)分布。同時(shí),為了減少潛在的誤差,概率模型還使用KF對(duì)序列進(jìn)行平滑處理。

          在訓(xùn)練過(guò)程中,PTST采用了最大后驗(yàn)概率(MAP)估計(jì)方法,以最大化預(yù)測(cè)的概率。在預(yù)測(cè)階段,PTST利用蒙特卡洛采樣方法來(lái)從后驗(yàn)分布中抽樣,以生成一組概率分布。同時(shí),為了衡量預(yù)測(cè)的準(zhǔn)確性,PTST還引入了均方誤差和負(fù)對(duì)數(shù)似然(NLL)等損失函數(shù)。

          2.3.7 Reformer(2020)

          Paper:Reformer: The Efficient Transformer

          Reformer是一種基于Transformer模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它在時(shí)序預(yù)測(cè)任務(wù)中具有一定的應(yīng)用前景。可以使用Reformer模型進(jìn)行采樣、自回歸、多步預(yù)測(cè)和結(jié)合強(qiáng)化學(xué)習(xí)等方法來(lái)進(jìn)行時(shí)序預(yù)測(cè)。在這些方法中,通過(guò)將已知的歷史時(shí)間步送入模型,然后生成未來(lái)時(shí)間步的值。Reformer模型通過(guò)引入可分離的卷積和可逆層等技術(shù),使得模型更加高效、準(zhǔn)確和可擴(kuò)展??傊?,Reformer模型為時(shí)序預(yù)測(cè)任務(wù)提供了一種全新的思路和方法。

          2.3.8 Informer(2020)

          Paper:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

          Code: https://github.com/zhouhaoyi/Informer2020

          Informer是一種基于Transformer模型的時(shí)序預(yù)測(cè)方法,由北京大學(xué)深度學(xué)習(xí)與計(jì)算智能實(shí)驗(yàn)室于2020年提出。與傳統(tǒng)的Transformer模型不同,Informer在Transformer模型的基礎(chǔ)上引入了全新的結(jié)構(gòu)和機(jī)制,以更好地適應(yīng)時(shí)序預(yù)測(cè)任務(wù)。Informer方法的核心思想包括:

          • 長(zhǎng)短時(shí)記憶(LSTM)編碼器-****結(jié)構(gòu):Informer引入了LSTM編碼器-****結(jié)構(gòu),可以在一定程度上緩解時(shí)間序列中的長(zhǎng)期依賴問(wèn)題。
          • 自適應(yīng)長(zhǎng)度注意力(AL)機(jī)制:Informer提出了自適應(yīng)長(zhǎng)度注意力機(jī)制,可以在不同時(shí)間尺度上自適應(yīng)地捕捉序列中的重要信息。
          • 多尺度卷積核(MSCK)機(jī)制:Informer使用多尺度卷積核機(jī)制,可以同時(shí)考慮不同時(shí)間尺度上的特征。
          • 生成式對(duì)抗網(wǎng)絡(luò)(GAN)框架:Informer使用GAN框架,可以通過(guò)對(duì)抗學(xué)習(xí)的方式進(jìn)一步提高模型的預(yù)測(cè)精度。

          在訓(xùn)練階段,Informer方法可以使用多種損失函數(shù)(如平均絕對(duì)誤差、平均平方誤差、L1-Loss等)來(lái)訓(xùn)練模型,并使用Adam優(yōu)化算法來(lái)更新模型參數(shù)。在預(yù)測(cè)階段,Informer方法可以使用滑動(dòng)窗口技術(shù)來(lái)預(yù)測(cè)未來(lái)時(shí)間點(diǎn)的值。

          Informer方法在多個(gè)時(shí)序預(yù)測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與其他流行的時(shí)序預(yù)測(cè)方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,Informer方法在預(yù)測(cè)精度、訓(xùn)練速度和計(jì)算效率等方面都表現(xiàn)出了很好的性能。

          2.3.9 TAT(2021)

          TAT(Temporal Attention Transformer)是一種基于Transformer模型的時(shí)序預(yù)測(cè)算法,由北京大學(xué)智能科學(xué)實(shí)驗(yàn)室提出。TAT模型在傳統(tǒng)的Transformer模型基礎(chǔ)上增加了時(shí)間注意力機(jī)制,能夠更好地捕捉時(shí)間序列中的動(dòng)態(tài)變化。

          TAT模型的基本結(jié)構(gòu)與Transformer類似,包括多個(gè)Encoder和Decoder層。每個(gè)Encoder層包括多頭自注意力機(jī)制和前饋網(wǎng)絡(luò),用于從輸入序列中提取特征。每個(gè)Decoder層則包括多頭自注意力機(jī)制、多頭注意力機(jī)制和前饋網(wǎng)絡(luò),用于逐步生成輸出序列。與傳統(tǒng)的Transformer模型不同的是,TAT模型在多頭注意力機(jī)制中引入了時(shí)間注意力機(jī)制,以捕捉時(shí)間序列中的動(dòng)態(tài)變化。具體地,TAT模型將時(shí)間步信息作為額外的特征輸入,然后利用多頭注意力機(jī)制對(duì)時(shí)間步進(jìn)行關(guān)注和提取,以輔助模型對(duì)序列中動(dòng)態(tài)變化的建模。此外,TAT模型還使用了增量式訓(xùn)練技術(shù),以提高模型的訓(xùn)練效率和預(yù)測(cè)性能。

          2.3.10 NHT(2021)

          Paper:Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

          NHT(Nested Hierarchical Transformer)是一種用于時(shí)間序列預(yù)測(cè)的深度學(xué)習(xí)算法。它采用了一種嵌套的層次變換器結(jié)構(gòu),通過(guò)多層次嵌套的自注意力機(jī)制和時(shí)間重要性評(píng)估機(jī)制來(lái)實(shí)現(xiàn)對(duì)時(shí)間序列數(shù)據(jù)的精確預(yù)測(cè)。NHT模型通過(guò)引入更多的層次結(jié)構(gòu)來(lái)改進(jìn)傳統(tǒng)的自注意力機(jī)制,同時(shí)使用時(shí)間重要性評(píng)估機(jī)制來(lái)動(dòng)態(tài)地控制不同層次的重要性,以獲得更好的預(yù)測(cè)性能。該算法在多個(gè)時(shí)間序列預(yù)測(cè)任務(wù)中表現(xiàn)出了優(yōu)異的性能,證明了其在時(shí)序預(yù)測(cè)領(lǐng)域的潛力。

          2.3.11 Autoformer(2021)

          Paper:Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series 

          ForecastingCode:https://github.com/thuml/Autoformer

          AutoFormer是一種基于Transformer結(jié)構(gòu)的時(shí)序預(yù)測(cè)模型。相比于傳統(tǒng)的RNN、LSTM等模型,AutoFormer具有以下特點(diǎn):

          • 自注意力機(jī)制:AutoFormer采用自注意力機(jī)制,可以同時(shí)捕捉時(shí)間序列的全局和局部關(guān)系,避免了長(zhǎng)序列訓(xùn)練時(shí)的梯度消失問(wèn)題。
          • Transformer結(jié)構(gòu):AutoFormer使用了Transformer結(jié)構(gòu),可以實(shí)現(xiàn)并行計(jì)算,提高了訓(xùn)練效率。
          • 多任務(wù)學(xué)習(xí):AutoFormer還支持多任務(wù)學(xué)習(xí),可以同時(shí)預(yù)測(cè)多個(gè)時(shí)間序列,提高了模型的效率和準(zhǔn)確性。

          AutoFormer模型的具體結(jié)構(gòu)類似于Transformer,包括編碼器和****兩部分。編碼器由多個(gè)自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成,用于從輸入序列中提取特征。****同樣由多個(gè)自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成,用于將編碼器的輸出轉(zhuǎn)化為預(yù)測(cè)序列。此外,AutoFormer還引入了跨時(shí)間步的注意力機(jī)制,可以在編碼器和****中自適應(yīng)地選擇時(shí)間步長(zhǎng)??傮w而言,AutoFormer是一種高效、準(zhǔn)確的時(shí)序預(yù)測(cè)模型,適用于多種類型的時(shí)間序列預(yù)測(cè)任務(wù)。

          圖片

          2.3.12 Pyraformer(2022)

          Paper:Pyraformer: Low-complexity Pyramidal Attention for Long-range Time Series Modeling and ForecastingCode: https://github.com/ant-research/Pyraformer

          螞蟻研究院提出一種新的基于金字塔注意力的Transformer(Pyraformer),以彌補(bǔ)捕獲長(zhǎng)距離依賴和實(shí)現(xiàn)低時(shí)間和空間復(fù)雜性之間的差距。具體來(lái)說(shuō),通過(guò)在金字塔圖中傳遞基于注意力的信息來(lái)開(kāi)發(fā)金字塔注意力機(jī)制,如圖(d)所示。該圖中的邊可以分為兩組:尺度間連接和尺度內(nèi)連接。尺度間的連接構(gòu)建了原始序列的多分辨率表示:最細(xì)尺度上的節(jié)點(diǎn)對(duì)應(yīng)于原始時(shí)間序列中的時(shí)間點(diǎn)(例如,每小時(shí)觀測(cè)值),而較粗尺度下的節(jié)點(diǎn)代表分辨率較低的特征(例如,每日、每周和每月模式)。

          這種潛在的粗尺度節(jié)點(diǎn)最初是通過(guò)粗尺度構(gòu)造模塊引入的。另一方面,尺度內(nèi)邊緣通過(guò)將相鄰節(jié)點(diǎn)連接在一起來(lái)捕獲每個(gè)分辨率下的時(shí)間相關(guān)性。因此,該模型通過(guò)以較粗的分辨率捕獲此類行為,從而使信號(hào)穿越路徑的長(zhǎng)度更短,從而為遠(yuǎn)距離位置之間的長(zhǎng)期時(shí)間依賴性提供了一種簡(jiǎn)潔的表示。此外,通過(guò)稀疏的相鄰尺度內(nèi)連接,在不同尺度上對(duì)不同范圍的時(shí)間依賴性進(jìn)行建模,可以顯著降低計(jì)算成本。

          圖片圖片


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉