色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 預(yù)測熱門歌曲成功率 97%?這份清單前來「打假」

          預(yù)測熱門歌曲成功率 97%?這份清單前來「打假」

          發(fā)布人:機(jī)器之心 時(shí)間:2023-08-21 來源:工程師 發(fā)布文章
          單看數(shù)據(jù)結(jié)果是不夠的,要仔細(xì)判斷這些數(shù)據(jù)的可靠性。

          預(yù)測風(fēng)口、潮流是每個(gè)行業(yè)都熱衷的事情。這可以讓從業(yè)人員第一時(shí)間掌握行業(yè)的最新動(dòng)向,成為行業(yè)某一時(shí)段的領(lǐng)軍者。

          音樂行業(yè)也同樣如此。音樂公司都希望自己能夠預(yù)測到下一次的音樂潮流,準(zhǔn)確地挑選出下一首熱門歌曲,賺個(gè)盆滿缽滿。那實(shí)現(xiàn)這種預(yù)測是可能的嗎?

          據(jù)《 Scientific American》與 《Axios》報(bào)道,這樣的模型真的出現(xiàn)了,介紹它的論文甚至被稱為可以改變音樂產(chǎn)業(yè)的文章。97% 的超高預(yù)測成功概率,能夠讓音樂公司不必再層層篩選,耗時(shí)耗力,而是通過模型就能夠高效地預(yù)測出下個(gè)音樂「時(shí)尚單品」。這樣的好辦法何樂而不為呢?

          圖片


          事實(shí)真的如此嗎?


          在這篇論文發(fā)出前,已經(jīng)有一些研究表示,音樂欣賞作為主觀性極強(qiáng)的事情,任何結(jié)果都是有可能的:最好的歌曲很少表現(xiàn)不佳,最差的歌曲很少表現(xiàn)良好,但不代表這些情況全然不會出現(xiàn)。


          圖片


          甚至有文章直接表示「本文認(rèn)為,音樂預(yù)測還不是一項(xiàng)數(shù)據(jù)科學(xué)活動(dòng)」。


          圖片


          那么 97% 的預(yù)測成功概率如何實(shí)現(xiàn)的?是我們高估了預(yù)測難度還是低估了模型的能力?


          有人指出,實(shí)際上并非如此。其實(shí),人們現(xiàn)在還是無法用機(jī)器學(xué)習(xí)的方法來預(yù)測熱門音樂。


          圖片


          文章地址:https://reproducible.cs.princeton.edu/predicting-hits.html


          文中指出了這個(gè)預(yù)測熱門音樂高準(zhǔn)確率論文的紕漏:


          論文作者使用了 33 位聽眾對 24 首歌曲的反應(yīng)數(shù)據(jù)。他們的初始數(shù)據(jù)集由 24 個(gè)樣本組成,每首歌曲一個(gè)樣本。對于每首歌,模型只依賴三個(gè)特征來預(yù)測它是否會成為熱門歌曲,這些特征的值取所有聽眾的平均值。他們利用這個(gè)數(shù)據(jù)集,通過一種叫做 「過度采樣 」的方法,創(chuàng)建了一個(gè)包含 10000 個(gè)樣本的合成(假)數(shù)據(jù)集。測試機(jī)器學(xué)習(xí)模型的主要考慮因素之一是,其訓(xùn)練數(shù)據(jù)應(yīng)與評估數(shù)據(jù)應(yīng)該完全分開。而本文的關(guān)鍵錯(cuò)誤就在于,這種訓(xùn)練 - 測試分離是在數(shù)據(jù)已經(jīng)過采樣之后進(jìn)行的。因此,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間的相似度遠(yuǎn)遠(yuǎn)高于包含其他歌曲的新數(shù)據(jù)集。換句話說,論文沒有提供模型在新歌曲上表現(xiàn)如何的證據(jù)。


          當(dāng)我們在作者發(fā)布的原始數(shù)據(jù)上修正這個(gè)誤差后測試模型時(shí),模型的準(zhǔn)確性比隨機(jī)好不了多少。我們還發(fā)現(xiàn),使用作者的合成數(shù)據(jù)集,準(zhǔn)確率實(shí)際上可以達(dá)到 100%。這并不奇怪:由于超采樣程度如此之高,使用訓(xùn)練或測試分集都有可能重建原始數(shù)據(jù)。換句話說,他們是在基本相同的數(shù)據(jù)上進(jìn)行訓(xùn)練和測試。


          可見,97% 這個(gè)數(shù)據(jù)雖然看著不錯(cuò),但可信度非常低,它并不能代表一個(gè)模型的能力,也并不證明音樂可以真正被預(yù)測。


          這篇論文中介紹的模型存在機(jī)器學(xué)習(xí)中最常見的缺陷之一:數(shù)據(jù)泄漏。這意味著,模型是在與訓(xùn)練數(shù)據(jù)相同或相似的數(shù)據(jù)上進(jìn)行評估的,這就夸大了對準(zhǔn)確性的估計(jì)。在實(shí)際應(yīng)用中,效果就會大打折扣。這相當(dāng)于開卷考試 97 分的同學(xué)突然要閉卷考試,那么 97 分就不能作為衡量這位同學(xué)的成績了。


          其實(shí)數(shù)據(jù)泄漏這樣的錯(cuò)誤不僅僅出現(xiàn)在這一篇文章里。很多文章,甚至很多領(lǐng)域都出現(xiàn)了這種錯(cuò)誤。


          例如就在上個(gè)月, 2020 年的一篇著名腫瘤學(xué)論文中發(fā)現(xiàn)滲漏。而這篇文章發(fā)表在最負(fù)盛名的科學(xué)期刊之一《自然》上,而在發(fā)現(xiàn)錯(cuò)誤之前已經(jīng)積累了上百次的引用。


          圖片


          論文地址:https://www.biorxiv.org/content/10.1101/2023.07.28.550993v1.full.pdf

           

          該研究報(bào)告了微生物與 33 種不同癌癥類型之間的強(qiáng)相關(guān)性,并創(chuàng)建了機(jī)器學(xué)習(xí)預(yù)測器,其區(qū)分癌癥的準(zhǔn)確性接近完美。我們發(fā)現(xiàn)報(bào)告的數(shù)據(jù)和方法至少存在兩個(gè)根本性的缺陷:

          (1)基因組數(shù)據(jù)庫和相關(guān)計(jì)算方法的錯(cuò)誤導(dǎo)致所有樣本中出現(xiàn)了數(shù)百萬個(gè)細(xì)菌讀數(shù)的假陽性結(jié)果,這主要是因?yàn)榇蠖鄶?shù)被鑒定為細(xì)菌的序列實(shí)際上是人類的

          (2)原始數(shù)據(jù)轉(zhuǎn)換中的錯(cuò)誤產(chǎn)生了一種人工特征,即使是對沒有檢測到讀數(shù)的微生物也是如此,它為每種腫瘤類型標(biāo)記了一個(gè)獨(dú)特的信號,機(jī)器學(xué)習(xí)程序隨后利用這個(gè)信號創(chuàng)建了一個(gè)表面上準(zhǔn)確的分類器。


          這些問題都使結(jié)果無效,從而得出結(jié)論:研究中提出的基于微生物組的癌癥識別分類器是完全錯(cuò)誤的。這些問題隨后又影響了其他十幾項(xiàng)已發(fā)表的研究。這些研究使用了相同的數(shù)據(jù),其結(jié)果很可能也是無效的。


          機(jī)器學(xué)習(xí)中常出現(xiàn)的問題


          泄漏是基于 ml 的科學(xué)中的許多錯(cuò)誤之一。這樣的錯(cuò)誤很常見的一個(gè)原因是,機(jī)器學(xué)習(xí)在各個(gè)科學(xué)領(lǐng)域中被隨意采用,論文中報(bào)告機(jī)器學(xué)習(xí)結(jié)果的標(biāo)準(zhǔn)沒有跟上步伐。過去在其他領(lǐng)域的研究發(fā)現(xiàn),報(bào)告標(biāo)準(zhǔn)有助于提高研究的質(zhì)量,但在少數(shù)領(lǐng)域以外的基于機(jī)器學(xué)習(xí)的科學(xué)中,這種標(biāo)準(zhǔn)并不存在。


          除了泄漏外,解釋錯(cuò)誤同樣也是一個(gè)常見的錯(cuò)誤,這與論文中如何描述研究結(jié)果以及他人如何理解研究結(jié)果有很大關(guān)系。


          一篇系統(tǒng)性綜述發(fā)現(xiàn),提出臨床預(yù)測模型的論文通常會對其研究結(jié)果進(jìn)行編造 — 例如,聲稱某個(gè)模型適合臨床使用,但卻沒有證據(jù)表明該模型在其測試的特定條件之外也有效。這些錯(cuò)誤并不一定夸大了模型的準(zhǔn)確性。相反,它們夸大了模型可以在何時(shí)何地有效使用。


          圖片


          綜述地址 https://www.sciencedirect.com/science/article/pii/S0895435623000756


          另一個(gè)經(jīng)常出現(xiàn)的疏忽是沒有明確模型輸出的不確定性水平。錯(cuò)誤判斷會導(dǎo)致對模型的錯(cuò)誤信任。許多研究沒有精確定義被建模的現(xiàn)象,導(dǎo)致研究結(jié)果的含義不明確。


          圖片


          相關(guān)論文地址:https://arxiv.org/abs/2206.12179


          清單 REFORMS


          既然這些錯(cuò)誤這么常見,有沒有什么辦法可以避免呢?


          有團(tuán)隊(duì)做出了清單 REFORMS((Reporting standards for Machine Learning Based Science) ,供大家參考,并能夠最大限度地減少基于機(jī)器學(xué)習(xí)的科學(xué)研究中的錯(cuò)誤,以及在錯(cuò)誤悄然出現(xiàn)時(shí)使其更加明顯?,F(xiàn)在公開的是預(yù)印本。


          圖片


          文章地址:https://reforms.cs.princeton.edu/


          這是一份包含 8 個(gè)模塊、32 個(gè)項(xiàng)目的核對表,對開展機(jī)器學(xué)習(xí)科學(xué)研究的研究人員、審閱科學(xué)研究的裁判員以及提交和發(fā)表科學(xué)研究的期刊都有幫助。該清單由計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)、社會科學(xué)、數(shù)學(xué)和生物醫(yī)學(xué)研究領(lǐng)域的 19 位研究人員共同制定。作者的學(xué)科多樣性對于確保這些標(biāo)準(zhǔn)在多個(gè)領(lǐng)域都有用至關(guān)重要。


          這 8 個(gè)板塊及 32 個(gè)項(xiàng)目如下所示,如果你也正在進(jìn)行著相關(guān)研究,可以作為參考。


          圖片


          圖片

          圖片


          圖片


          圖片


          當(dāng)然要解決基于計(jì)算機(jī)科學(xué)研究的所有缺陷,僅靠一份檢查清單是遠(yuǎn)遠(yuǎn)不夠的。但是考慮到錯(cuò)誤的普遍性和缺乏系統(tǒng)的解決方案,該團(tuán)隊(duì)這樣的一份清單是被迫切需要的。


          參與清單制作的成員指出,如果基于計(jì)算機(jī)科學(xué)的研究都使用這份清單自查,那他們就不會費(fèi)力給豬涂口紅了(比喻想要把丑陋的事物變美好而做的無用功)。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉