色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<source id="v1ywl"></source>

"); //-->

博客專欄

EEPW首頁 > 博客 > 獨(dú)家 | 每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該熟悉的 5 個(gè)統(tǒng)計(jì)學(xué)悖論

獨(dú)家 | 每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該熟悉的 5 個(gè)統(tǒng)計(jì)學(xué)悖論

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-08-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

發(fā)布文章

摘要：統(tǒng)計(jì)是數(shù)據(jù)科學(xué)的一個(gè)重要部分，它為我們分析和理解數(shù)據(jù)提供了各種工具和技術(shù)。然而，有時(shí)通過統(tǒng)計(jì)得出的結(jié)果會(huì)違背我們的直覺，甚至自相矛盾，從而引起人們的困惑與誤解。在這篇博客里，我們將探討每個(gè)數(shù)據(jù)科學(xué)工作者都應(yīng)該熟悉的5個(gè)統(tǒng)計(jì)學(xué)悖論。我們也將解釋每個(gè)悖論是什么，為什么會(huì)發(fā)生，以及如何避免落入它的常見陷阱。讀完本博客，你將對(duì)統(tǒng)計(jì)分析中可能出現(xiàn)的一些奇怪和預(yù)想之外的結(jié)果有更好的理解，從而能更好地在項(xiàng)目中處理它們。

目錄1.Accuracy Paradox 準(zhǔn)確度悖論2.False Positive Paradox 假陽性悖論3.Gambler’s Fallacy 賭徒謬誤4.Simpson’s Paradox 辛普森悖論5.Berkson’s Paradox 伯克森悖論6.Conclusion 總結(jié)

1.Accuracy Paradox 準(zhǔn)確度悖論

準(zhǔn)確度悖論是指即使模型不具有預(yù)測(cè)性，也有可能得到具有高準(zhǔn)確度的結(jié)果。這種情況常發(fā)生在數(shù)據(jù)集中的類的分布不平衡時(shí)。例如，給定一個(gè)數(shù)據(jù)集，其中90%的觀察值屬于一類，而剩下的10%屬于另一類。那么預(yù)測(cè)所有觀察值的多數(shù)類（majority class）的模型將有90%的準(zhǔn)確度，即使它實(shí)際上不具備預(yù)測(cè)任何東西的能力。接下來我們通過一個(gè)Python實(shí)例來解釋上述內(nèi)容：

在本例中，我們創(chuàng)建了一個(gè)包含兩個(gè)類的不平衡數(shù)據(jù)集。它的一個(gè)類中有900個(gè)觀察值（0），而另一個(gè)類中只有100個(gè)觀察值（1）。然后，我們創(chuàng)建一個(gè)模型來預(yù)測(cè)所有觀察值的多數(shù)類（0）。盡管實(shí)際上沒有預(yù)測(cè)任何東西（只是一個(gè)包含1000個(gè)0的數(shù)組），這個(gè)模型達(dá)到了90%的準(zhǔn)確度。
在醫(yī)學(xué)測(cè)試中可以找到一些準(zhǔn)確度悖論的真實(shí)案例。假設(shè)有一種患病概率為十萬分之一的罕見病。如果創(chuàng)建了一個(gè)在檢測(cè)疾病方面有99.9%準(zhǔn)確度的測(cè)試，并將其提供給只有0.1%的患病人群，則該測(cè)試將具有99.9%的高準(zhǔn)確率。然而，它將導(dǎo)致大量的假陽性（False Positive），也就是說，許多健康人將被錯(cuò)誤地診斷為患有該疾病。
精確度和召回率在評(píng)估分類任務(wù)的表現(xiàn)上比準(zhǔn)確度更好。而這兩個(gè)指標(biāo)（精確度和召回率）與我們下一節(jié)討論的假陽性悖論有關(guān)。

2.False Positive Paradox 假陽性悖論

當(dāng)模型具有高準(zhǔn)確度和高假陽率時(shí)，假陽性悖論就會(huì)發(fā)生。也就是說，當(dāng)大量樣本實(shí)際上是陰性時(shí)，該模型可能將它們分類為陽性（即假陽。假陽率（False Positive Rate, FPR）：檢測(cè)出來的假陽性樣本數(shù)除以所有真實(shí)陰性樣本數(shù)）。這個(gè)悖論會(huì)導(dǎo)致錯(cuò)誤的結(jié)論和決策。
Python解釋假陽性悖論的簡(jiǎn)單示例：

例如，想象一個(gè)病患占總?cè)丝?%的疾病的醫(yī)學(xué)測(cè)試。如果該測(cè)試有99%的準(zhǔn)確率，則它有99%的概率正確識(shí)別疾病的存在或不存在。但倘若對(duì)1000人進(jìn)行檢測(cè)，那么將會(huì)有10人被測(cè)出陽性，盡管事實(shí)上只有1人患病。這意味著陽性測(cè)試結(jié)果更可能是假陽性而不是真陽性。

下面是另一個(gè)針對(duì)假陽性悖論的Python代碼示例：

在這種情況下，精確度和召回率是評(píng)估模型性能的更好方法。精確度評(píng)估所有陽性分類中真陽性的比例，而召回率評(píng)估所有實(shí)際陽性實(shí)例中真陽性的比例。這些措施可以幫助避免假陽性悖論，對(duì)模型性能進(jìn)行更準(zhǔn)確的評(píng)估。

3.Gambler’s Fallacy 賭徒謬誤

賭徒謬誤是相信過去的事件可以在隨機(jī)過程中影響未來事件的概率。例如，在輪盤游戲中，一些玩家認(rèn)為，如果球連續(xù)幾次旋轉(zhuǎn)都落在黑色上，那么下次它落在紅色上的幾率會(huì)更高，盡管結(jié)果依舊是隨機(jī)的。
我們可以借助Python中的numpy模擬投擲一枚公平的硬幣來說明這一點(diǎn)：

在上面的例子中，代碼模擬投擲硬幣10次并計(jì)算連續(xù)正面或反面的數(shù)量。賭徒謬誤認(rèn)為，如果連續(xù)出現(xiàn)了幾個(gè)正面，那么下一次的結(jié)果更有可能是反面，反之亦然。然而，在現(xiàn)實(shí)中，硬幣的每一次翻轉(zhuǎn)都是獨(dú)立的，并且有相同的概率產(chǎn)生正面或反面。
賭徒謬誤會(huì)在股票市場(chǎng)等生活場(chǎng)景中出現(xiàn)。一些投資者可能認(rèn)為，如果一只股票的價(jià)值連續(xù)幾天持續(xù)上漲，之后它就更有可能下跌，盡管市場(chǎng)運(yùn)動(dòng)其實(shí)仍然是內(nèi)在不可預(yù)測(cè)的，并受一系列因素的影響。

4.Simpson’s Paradox 辛普森悖論

辛普森悖論是指在一個(gè)具有某種趨勢(shì)的數(shù)據(jù)集中，倘若我們把這個(gè)數(shù)據(jù)集分成許多子數(shù)據(jù)集，那么原趨勢(shì)會(huì)消失或子數(shù)據(jù)集呈現(xiàn)的趨勢(shì)與原趨勢(shì)相反。如果數(shù)據(jù)被錯(cuò)誤處理與分析，這可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。
我們通過一個(gè)例子來更好地理解這一現(xiàn)象。假設(shè)我們想比較一所大學(xué)男女申請(qǐng)者的錄取率。已知我們有兩個(gè)院系的數(shù)據(jù)：院系A(chǔ)和院系B。

在上表中，男女申請(qǐng)者的綜合錄取率為50%。但是，當(dāng)我們按院系分析數(shù)據(jù)時(shí)，可以發(fā)現(xiàn)，在每個(gè)院系中，女性的錄取率都高于男性。這似乎違背了我們的直覺，因?yàn)槟行缘恼w錄取率更高。
出現(xiàn)這種悖論是因?yàn)槊總€(gè)院系的申請(qǐng)人數(shù)和錄取率都不一樣。院系A(chǔ)整體錄取率較高，但女性申請(qǐng)者比例較低。院系B整體錄取率較低，但女性申請(qǐng)者比例較高。
在Python中，我們可以使用以下代碼演示這個(gè)示例：

在代碼中，我們用上表中的數(shù)據(jù)創(chuàng)建了一個(gè)dataframe，計(jì)算錄取率并顯示數(shù)據(jù)圖表。然后計(jì)算整體錄取率，得出為19.44%。最后，我們將數(shù)據(jù)按院系和性別分組，并計(jì)算每個(gè)分組的錄取率。我們看到兩個(gè)院系的女性錄取率都較高，盡管男性的整體錄取率較高。這是辛普森悖論的一個(gè)例子。

5.Berkson’s Paradox 伯克森悖論

伯克森悖論是指當(dāng)兩個(gè)（獨(dú)立）變量之間出現(xiàn)/存在負(fù)相關(guān)時(shí)，如果觀察由原數(shù)據(jù)分成的子數(shù)據(jù)集，這兩個(gè)變量之間可能會(huì)出現(xiàn)正相關(guān)或無實(shí)際相關(guān)性的統(tǒng)計(jì)學(xué)現(xiàn)象。在分析中如果沒考慮這兩個(gè)獨(dú)立變量的共因或共果，伯克森悖論就會(huì)發(fā)生。
我們將萼片長(zhǎng)度和寬度作為兩個(gè)感興趣的變量，使用鳶尾花數(shù)據(jù)集來解釋這個(gè)悖論。首先，可以在pandas中使用corr()方法計(jì)算這兩個(gè)變量之間的相關(guān)系數(shù)：

如結(jié)果所示，在整個(gè)數(shù)據(jù)集中，萼片長(zhǎng)度和寬度之間存在負(fù)相關(guān)。
然而，如果我們按品種分割數(shù)據(jù)集并分別計(jì)算每個(gè)品種的相關(guān)系數(shù)，我們可能會(huì)得到不同的結(jié)果。比如，如果我們只考慮setosa，我們會(huì)得到一個(gè)正相關(guān)：

這意味著setosa的萼片長(zhǎng)度和寬度之間存在正相關(guān)，這與總體負(fù)相關(guān)相反。
這種矛盾的出現(xiàn)是因?yàn)閟etosa的萼片長(zhǎng)度和寬度的數(shù)值范圍比其他品種小。因此，當(dāng)我們只考慮setosa時(shí)，整個(gè)數(shù)據(jù)集內(nèi)的負(fù)相關(guān)性被setosa內(nèi)的正相關(guān)性所掩蓋。

6.Conclusion 結(jié)論

總的來說，理解統(tǒng)計(jì)學(xué)悖論對(duì)數(shù)據(jù)科學(xué)家來說至關(guān)重要，因?yàn)樗鼈兛梢詭椭苊鈹?shù)據(jù)分析中的常見錯(cuò)誤和偏見。
1. 準(zhǔn)確度悖論告訴我們，僅僅依靠準(zhǔn)確度不足以評(píng)估分類任務(wù)，精確度和召回率能提供更多有價(jià)值的信息；2.假陽性悖論強(qiáng)調(diào)了理解假陽性相對(duì)于假陰性的重要性；3.賭徒謬誤提醒我們，每個(gè)事件都是獨(dú)立的，過去的結(jié)果不會(huì)影響未來；4.辛普森悖論表明：整體數(shù)據(jù)有可能掩蓋細(xì)節(jié)變量之間的關(guān)系，從而導(dǎo)致錯(cuò)誤的結(jié)論；5.最后，伯克森悖論顯示了從總體中選取非隨機(jī)樣本時(shí)，抽樣偏差是如何發(fā)生的。

原文標(biāo)題：5 Paradoxes in Statistics Every Data Scientist Should be Familiar With原文鏈接：https://pub.towardsai.net/5-paradoxes-in-statistics-every-data-scientist-should-be-familiar-with-478b74310099

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

國際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

如何快速搭建手寫體識(shí)別演示系統(tǒng)

視頻 digikey AI 手寫體識(shí)別 | 2022-07-29

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

大嘴業(yè)話-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

WTC-AI型太陽能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

WTC-AI太陽能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

AI驅(qū)動(dòng)的嵌入式聲音和振動(dòng)識(shí)別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

Nvidia的CEO談AI的未來：“我們將需要三臺(tái)電腦... 一臺(tái)來創(chuàng)建AI... 一臺(tái)來模擬AI... 一臺(tái)來運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識(shí)別電阻識(shí)別電容識(shí)別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

AI+機(jī)器視覺成趨勢(shì)，圖文詳解N大應(yīng)用場(chǎng)景

智能計(jì)算安森美 AI 機(jī)器視覺 | 2024-07-31

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)