色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<source id="u9znu"><delect id="u9znu"></delect></source>

"); //-->

博客專欄

EEPW首頁 > 博客 > 檢測和處理異常值的極簡指南

檢測和處理異常值的極簡指南

發(fā)布人：數據派THU 時間：2022-05-15 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

來源：DeepHub IMBA

本文是關于檢測和處理數據集中的異常值，主要包含以下四部分內容：

什么是異常值？
為什么檢測異常值很重要？
如何檢測異常值？
如何處理異常值？

什么是異常值？

異常值是與其他觀察結果顯著不同的數據點。如下圖所示，橙色數據點與一般分布相去甚遠。我們將此點稱為異常值。

為什么檢測異常值很重要？

在數據科學項目、統(tǒng)計分析、機器學習應用中檢測異常值非常重要：

異常值會導致分布偏斜。
異常值會嚴重影響數據集的均值和標準差。這些可能會在統(tǒng)計上給出錯誤的結果。
可能導致偏差或影響估計。
大多數機器學習算法在存在異常值的情況下都不能很好地工作。
異常值在欺詐檢測等異常檢測中非常有用，其中欺詐交易與正常交易非常不同。

特別是在線性問題中，異常值更能顯示出它們的影響。例如下面的例子；左邊的圖片中當 x 變量的值增加時，y 變量的值減小。但是由于異常值，觀察到隨著變量 x 的值增加，變量 y 的值也增加。異常值扭曲了我們的分析結果。

在上面的示例中，如果從數據集中移除異常值，可以獲得更準確、不會被誤導的測試結果。

如何檢測異常值？

可以通過許多不同的方式檢測異常值。下面總結了一些常用的方法：

領域的知識
標準差法
Z-Score法
箱線圖（四分位距 - IQR）法

領域的知識
借助行業(yè)知識，可以了解數據集中的哪個觀察結果可能是異常值。例如; 假設一名房地產經紀人，平均房屋租金為 700 美元。如果房屋租金為 5000 美元，就可以說這是一個異常值。
標準差法
在統(tǒng)計學中，標準偏差是衡量一組值的變化量或離散度的量度。低標準差表示這些值趨向于接近集合的平均值，而高標準差表示這些值分布在更寬的范圍內。
正態(tài)分布如下圖所示。在正態(tài)分布中，數據應該在一個小范圍的值內，高值和低值的異常值較少。

如圖上圖所示，

68.27% 的值在平均值的 +1、-1 標準差范圍內，
95.45% 的值在平均值的 +2、-2 標準差范圍內，
99.73 % 的值在平均值的 +3、-3 標準差范圍內。

在正態(tài)分布中，預計我們的數據應該遠離平均值 -3、+3 個標準差。因此，有了這些信息，可以指定下限和上限；



Lower Limit = Mean - 3 * Standart DeviationUpper Limit = Mean + 3 * Standart Deviation

Z-Score法
Z-Score也稱為標準分數。該分數有助于了解數據點與平均值之間的標準差。Z-Score是測量單位，它告訴我們數據點與平均值的距離。例如：數據點 A 與平均值相差 2 個標準差。這個 2 就是Z-Score。


Z score = (x -mean) / std. deviation

那么如何確定異常值的閾值呢？
下面再次檢查正態(tài)分布以確定閾值。讓我們看一下標準偏差方法部分中的正態(tài)分布圖。正如上面前提到的，99.7% 的數據在正態(tài)分布的 -3、+3 標準差范圍內，因此我們可以將超出此范圍的數據點視為異常值。
如果上面語言比較難懂，用下面代碼進行演示可能會更加直觀：























# Suppose we have a dataset that represents number of siblings.data = [1, 2, 2, 3, 4, 1, 1, 15, 2, 4, 3, 2, 1, 1, 2]
# In this data set we want to find outliers. Firstly we calculate Z-Score for them.
import numpy as npmean = np.mean(data) # Find meanstd = np.std(data)   # Find standart deviation
upper_limit = 3lower_limit = -3outlier = []
for i in data:  # Find Z-Score  z = (i-mean)/std  print(f'Z-Score of {i} = {z}')  # Check z value is within or not in our range  if (lower_limit > z) or (z > upper_limit):      outlier.append(i)
print('Outlier in dataset is', outlier)s

結果如下：

箱線圖（四分位距 - IQR）法

在統(tǒng)計學中，四分位距 (IQR) 描述了從最低到最高排序的中間 50% 的數據。要找到 IQR，需要先將數據從最低到最高排序。然后將數據分成 4 個相等的部分，并指定 Q1、Q2、Q3 稱為第一、第二和第三四分位數。IQR 是 Q3 和 Q1 之間的差。我們 50% 的數據介于這些四分位數之間。

上圖中：

Q1 代表數據的第 25 個百分位。
Q2 代表數據的第 50 個百分位。
Q3 代表數據的第 75 個百分位。

例如我們有這樣的數據：[1, 2, 2, 4, 5, 15, 6, 7, 8, 9, 10, 11, 17, 24, 33]，我們想要找到 IQR。首先對這個數組進行排序；[1、2、2、4、5、6、7、8、9、10、11、15、17、24、33]，然后我們找到四分位數；

Q1 25th , 4.5Q2 50th , 8.0Q3 75th , 13.0

計算IQR


IQR = Q3 - Q1

現在使用箱線圖法用IQR 值計算上限和下限



Lower Limit = Q1 - 1.5 * IQRUpper Limit = Q3 + 1.5 * IQR

之后，如果數據低于下限或高于上限，就可以將此數據點稱為異常值。

如何處理異常值？

異常值可能是由于數據的內在可變性產生的，所以應該使用一些分析仔細檢查這種類型的異常值，另外的一些異常值可能是實驗錯誤或數據輸入錯誤等產生的，這些異常值是可以直接刪除的。
刪除值
如果異常值是由于輸入或測量數據不正確，無法獲得異常值的真實值，我們可以去除異常值。
例如在一個記錄人們身高的數據集中，遇到了一個 1.8 厘米的數據。我們知道這在物理上是不可能的?？赡苷鎸嵣砀?180 厘米、1.8 米或 185 厘米，但由于我們不知道是哪一個，所以可以將異常值刪除。
修改值
如果包含異常值的行中的其他列包含重要信息，可能刪除該行不是一個很好的選擇，所以可以將異常值替換為閾值或中值（異常值對中值影響不大）。
異常值的對數轉換
對數轉換，就是將每個變量 x 都替換為 log(x)，其中對數的基數被認為是常見的使用基數 10、基數 2 和自然對數 ln。
而對數轉換與異常值有什么關系呢？
當異常值是由于數據的內在可變性引起的，我們可能不想刪除或替換它們。因為這些是我們可能需要的數據。但是由于這些異常值，我們無法獲得正態(tài)分布，得到的是偏態(tài)分布。例如，一個包含人們收入數據的數據集。雖然大多數人的收入在 30k 到 100k 之間，但有些人賺了數十億美元。當可視化這樣一個數據集時，觀察到的分布向右傾斜。

在這種情況下，對數轉換可以幫助我們。對數變換不再強調異常值并允許我們潛在地獲得正態(tài)分布。在上圖中的 X 軸上應用對數函數，則偏態(tài)分布接近正態(tài)分布。

在應用對數轉換之前，應該需要再次考慮下是否需要，因為如果每個變量之間的距離很重要，那么取變量的對數會使距離傾斜，可能產生更大的問題。

使用其他模型
我們可以使用基于樹的方法，如隨機森林、決策樹，因為樹型方法只考慮值得分割點，而不考慮兩個值之間得距離，所以相比于線性模型受異常值影響較小。

總結

本文介紹了異常值的相關知識，還有如果檢測、處理異常值，在閱讀完本文以后，希望你對異常值有一個大概的了解，并且能夠檢測和處理一般情況下遇到的異常值。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

相關推薦

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

加大調整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

2021春晚黑科技，火爆全網的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

AI+機器視覺成趨勢，圖文詳解N大應用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

釋說芯語16：硬科技：構建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

WTC-AI型太陽能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

WTC-AI太陽能熱水器電路圖

設計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

AI驅動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

EEPW2018年3月刊(工業(yè)物聯(lián)網)

資源下載工業(yè)物聯(lián)網 AI | 2018-03-12

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

iPhone 16將不會預裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產力

winni945 | 2018-09-12

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網技術 | 2023-04-25

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

萬家樂JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

焦點

推薦視頻

更多>>

技術專區(qū)

關閉