處理醫(yī)學(xué)時(shí)間序列中缺失數(shù)據(jù)的3種方法
來(lái)源:Deephub Imba
這些方法都是專(zhuān)為RNN設(shè)計(jì),它們都經(jīng)過(guò)了廣泛的學(xué)術(shù)評(píng)估,而且十分的簡(jiǎn)單。
大量醫(yī)療數(shù)據(jù)例如心電圖、體溫監(jiān)測(cè)、血壓監(jiān)測(cè)、定期護(hù)士檢查等等本質(zhì)上都是時(shí)間序列數(shù)據(jù)。在這些醫(yī)學(xué)圖表的趨勢(shì)、模式、高峰和低谷中嵌入了大量有價(jià)值的信息。醫(yī)療行業(yè)要求對(duì)醫(yī)療時(shí)間序列數(shù)據(jù)進(jìn)行有效分析,這被認(rèn)為是提高醫(yī)療質(zhì)量、優(yōu)化資源利用率、降低整體醫(yī)療成本的關(guān)鍵。
一種有前途的醫(yī)學(xué)時(shí)間序列分析形式是通過(guò)RNN來(lái)實(shí)現(xiàn)。RNN 因其建模能力和可以處理可變長(zhǎng)度輸入序列的能力而受到醫(yī)學(xué)研究人員的歡迎。研究人員通常將時(shí)間序列數(shù)據(jù)劃分為均勻的時(shí)間步長(zhǎng),例如 1 小時(shí)或 1 天。一個(gè)時(shí)間步長(zhǎng)內(nèi)的所有數(shù)據(jù)點(diǎn)將通過(guò)平均或其他聚合方案聚合。這種處理方式有兩個(gè)優(yōu)點(diǎn)。首先,它減少了時(shí)間序列數(shù)據(jù)序列的長(zhǎng)度。其次,原始原始數(shù)據(jù)點(diǎn)通常在時(shí)間上間隔并不規(guī)則,這種方式可以對(duì)時(shí)間上下文進(jìn)行歸一化。在這個(gè)預(yù)處理步驟之后,數(shù)據(jù)幾乎可以用于 RNN 處理。但是有一個(gè)非?,F(xiàn)實(shí)的問(wèn)題:如果在給定的時(shí)間步長(zhǎng)內(nèi)沒(méi)有數(shù)據(jù)怎么辦?
上述問(wèn)題在醫(yī)療環(huán)境中很重要,因?yàn)閬G失的醫(yī)療數(shù)據(jù)通常不是隨機(jī)丟失的。數(shù)據(jù)本身的缺失具有臨床意義。例如,醫(yī)院工作人員可能會(huì)停止測(cè)量被認(rèn)為已經(jīng)穩(wěn)定的患者的體溫。或者也許患者的情況需要另一種不同類(lèi)型的測(cè)量來(lái)取代以前的測(cè)量方法。因此,通常的零填充或插補(bǔ)方法往往會(huì)產(chǎn)生次優(yōu)性能。
在這篇文章,我們將回顧 3 種簡(jiǎn)單的方法來(lái)處理與 RNN 一起使用的時(shí)間序列研究中缺失的醫(yī)學(xué)數(shù)據(jù)。后一種方法都是建立在前一種方法的基礎(chǔ)上,具有更高的復(fù)雜性。因此強(qiáng)烈建議按照它們出現(xiàn)的順序閱讀。
簡(jiǎn)單缺失編碼
假設(shè)每個(gè)時(shí)間步的輸入變量是 x 并帶有下標(biāo) t。變量有 d 維,用上標(biāo) d 表示。輸入的示例如下圖1 (a)所示,簡(jiǎn)化為d=1。陰影部分是缺失的數(shù)據(jù),我們應(yīng)用前向插補(bǔ)來(lái)填充它們最近的觀測(cè)值。前向插補(bǔ)是可行的因?yàn)橐坏┽t(yī)院工作人員認(rèn)為某個(gè)指標(biāo)穩(wěn)定后,他們通常會(huì)停止對(duì)指標(biāo)進(jìn)行進(jìn)一步測(cè)量,在這種情況下,最近觀察到的值可以作為未來(lái)的實(shí)際值。
這篇論文(arxiv:1606.04130)提出的簡(jiǎn)單缺失編碼方法表明,應(yīng)該明確編碼給定數(shù)據(jù)點(diǎn)實(shí)際上是估算的而不是實(shí)際觀察到的值。這種顯式編碼為RNN提供了一個(gè)信號(hào),可以讓RNN注意到數(shù)據(jù)的缺失。如圖1 (b)所示,其中m表示x的缺失,其中1表示存在,0表示不存在(如公式1所定義)。輸入是x和m的拼接。
確認(rèn)值是否缺失的公式:
這種方法對(duì)該研究論文中提出的實(shí)驗(yàn)產(chǎn)生了有意義的改進(jìn)。雖然數(shù)據(jù)有可能不同,但這是一個(gè)非常簡(jiǎn)單直觀的想法,值得一試。
在上述方法的基礎(chǔ)上,除了顯式編碼缺失之外,這篇論文(https://www.nature.com/articles/s41598-018-24271-9)還建議顯式編碼一個(gè)值與最近觀察到的值之間的時(shí)間距離。所以現(xiàn)在的RNN的輸入是所有三個(gè)值編碼的串聯(lián),即輸入 x、缺失信號(hào) m 和時(shí)間距離值 δ。公式 2 和圖 2。
以下是時(shí)間距離的計(jì)算公式:
根據(jù)論文中提出的實(shí)驗(yàn),該方法在缺失的顯式編碼之上帶來(lái)了很好的改進(jìn),結(jié)果如下所示。
再次以上述方法為基礎(chǔ),同一篇論文提出了一種估算值的衰減機(jī)制。第一步我們應(yīng)用前向插補(bǔ)來(lái)使用最近的觀察值但是如果缺失值的時(shí)間很長(zhǎng)怎么辦?我們應(yīng)該無(wú)限期地使用那些舊的觀察值嗎?考慮一下現(xiàn)實(shí)世界的場(chǎng)景:醫(yī)院工作人員停止跟蹤指標(biāo),因?yàn)樗麄冋J(rèn)為它已經(jīng)穩(wěn)定。但指標(biāo)值可能仍處于正常范圍的遠(yuǎn)端,但相信它最終會(huì)回到一個(gè)好的中位數(shù)。這意味著在沒(méi)有觀察到的數(shù)據(jù)的情況下,有充分的理由相信當(dāng)前的指標(biāo)值會(huì)持續(xù)一段時(shí)間,但最終會(huì)“衰減”回良好的醫(yī)療默認(rèn)值。
衰減因子 γ 由權(quán)重矩陣 W 和偏差 b 確定,應(yīng)用于時(shí)間距離 δ(參見(jiàn)公式 3),然后發(fā)送到上限為 1 的反向 exp 函數(shù)。W 和 b 在時(shí)間步長(zhǎng)和在訓(xùn)練期間共同學(xué)習(xí)。
下圖是衰減因子的計(jì)算公式:
在任意給定的時(shí)間步長(zhǎng)t,如果x被觀測(cè)到,我們使用x。否則,我們使用t′最后一次觀測(cè)的值,衰減為x的均值。RNN的最終輸入見(jiàn)公式4。
該論文文還將類(lèi)似的衰減機(jī)制應(yīng)用于它們的RNN模型的隱藏狀態(tài),也產(chǎn)生了最好的結(jié)果。但是由于我們討論的是RNN輸入的原始數(shù)據(jù)的處理,就不詳細(xì)說(shuō)明了。
在這篇文章中,我們介紹了醫(yī)學(xué)時(shí)間序列數(shù)據(jù)研究的背景,并提出了3種專(zhuān)為rnn設(shè)計(jì)的缺失數(shù)據(jù)填補(bǔ)的簡(jiǎn)單方法,這三種方法都可以產(chǎn)生更好的結(jié)果,如果你有興趣可以在實(shí)際應(yīng)用中實(shí)驗(yàn)一下。
作者:Eileen Pangu
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
高通濾波器相關(guān)文章:高通濾波器原理