數(shù)據(jù)挖掘在用戶竊電行為識(shí)別中的應(yīng)用
電力資源在人們的日常生產(chǎn)生活當(dāng)中起著不可或缺的作用,有些用電客戶為了一己私利竊取電能,這不但會(huì)給電力公司造成較大的經(jīng)濟(jì)價(jià)值損失,同時(shí)也增加了電力系統(tǒng)的安全隱患,給用電安全和社會(huì)穩(wěn)定造成一定的影響。
本文引用地址:http://cafeforensic.com/article/202205/434591.htm以往,為發(fā)現(xiàn)用戶竊電,主要是通過用戶舉報(bào)竊電、定期巡檢、定期校驗(yàn)電表等方式,這種方法對(duì)人的依賴性很強(qiáng)而且目標(biāo)不夠明確,效率比較低,從用戶竊電開始到發(fā)現(xiàn)竊電時(shí)間跨度較長。隨著科學(xué)技術(shù)的發(fā)展,用戶竊電手法越來越多樣化且越來越隱蔽,更有使用倒表器、移相方式、有線遠(yuǎn)方控制和無線遙控等智能型竊電[1],使得竊電行為被發(fā)現(xiàn)越來越困難。目前,也有很多供電企業(yè)營銷稽查人員利用計(jì)量裝置的異常報(bào)警功能和電量查詢功能來對(duì)用戶用電情況進(jìn)行監(jiān)控,但由于存在終端的誤報(bào)和漏報(bào)等情況,往往不能精準(zhǔn)快速地定位到竊電用戶。
因此,在科學(xué)技術(shù)快速發(fā)展竊電手段也越來越多樣化和隱蔽化的今天,竊電行為變得更加個(gè)性化、智能化以及科技化,傳統(tǒng)的竊電排查方法難以及時(shí)、準(zhǔn)確地摸排到竊電行為,找到一種更加智能化的反竊電方法尤為重要。使用數(shù)據(jù)挖掘技術(shù)建立竊電用戶識(shí)別模型,通過對(duì)多方面因素的綜合分析,自動(dòng)檢測用戶的竊電行為。
1 用戶竊電行為分析
現(xiàn)階段用戶的竊電行為主要包括以下幾種:繞越計(jì)量、改動(dòng)計(jì)量裝置、斷零竊電、斷開聯(lián)片、調(diào)接零火線、更換齒輪等,詳細(xì)如下圖所示。
圖1 竊電行為詞云圖
2 基于數(shù)據(jù)挖掘的用戶竊電預(yù)測方案
2.1 挖掘模型思路
為了能夠更加高效地識(shí)別用電客戶各式各樣的竊電行為,引入大數(shù)據(jù)挖掘算法,建立智能識(shí)別竊電用戶的模型,從多方面考量,使得竊電行為無處遁形。CRISP-DM模型是數(shù)據(jù)挖掘領(lǐng)域中最權(quán)威的過程模型,涉及了商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估、結(jié)果發(fā)布等6 大環(huán)節(jié)。這個(gè)模型強(qiáng)調(diào)“數(shù)據(jù)不僅僅是數(shù)據(jù)的呈現(xiàn)或以某種方式組織,也不僅僅是數(shù)據(jù)分析、挖掘、統(tǒng)計(jì)或建模,而是一個(gè)從業(yè)務(wù)角度理解商業(yè)需求、探索需求解決方案,然后再到開展實(shí)踐檢驗(yàn)和驗(yàn)證方案的完整過程”。
圖2 CRISP-DM模型流程圖
2.2 C4.5 算法
C4.5 算法,作為數(shù)據(jù)挖掘中經(jīng)典算法,是分類決策樹算法中的一種常用機(jī)器學(xué)習(xí)算法,它是基于ID3 算法進(jìn)行改進(jìn)后的一種重要算法。在構(gòu)造決策樹的過程中,“如何選擇分裂屬性”和“何時(shí)停止分裂”是兩大關(guān)鍵問題,在這兩大問題上的不同處理方法,產(chǎn)生了不同的決策樹算法(CART、ID3 和C4.5)。在如何選取分裂屬性方面,Gini 指標(biāo)、信息增益和信息增益率是衡量一個(gè)屬性區(qū)分?jǐn)?shù)據(jù)樣本能力的不同度量標(biāo)準(zhǔn),其中ID3 算法用信息增益,C4.5 算法用信息增益率,CART 決策樹用Gini 系數(shù)。
在屬性選擇度量中,假設(shè)D 是類標(biāo)記元組訓(xùn)練集,類標(biāo)號(hào)屬性具有m 個(gè)不同值,m 個(gè)不同類Ci(i=1,2,…,m),CiD 是D 中Ci 類的元組的集合,|CiD| 和|D| 分別是CiD 和D 的元組個(gè)數(shù):
(1)對(duì)D 中的元組分類所需的期望信息為,Info(D)亦稱為熵。
C4.5 算法是以信息增益率進(jìn)行分裂屬性選擇,克服了ID3 算法偏向多值屬性的不足,相較于CART 和ID3,能很好地完成了在連續(xù)值屬性上的處理。該算法定義了一套處理不同數(shù)據(jù)缺失情況的處理策略,其優(yōu)點(diǎn)是可以對(duì)不完整數(shù)據(jù)集處理得較為完善。
2.3 案例分析
2.3.1 數(shù)據(jù)輸入和特征選取
根據(jù)電力企業(yè)的用電檢查業(yè)務(wù)指導(dǎo)相關(guān)的內(nèi)容,可基于營銷稽查、線損、業(yè)擴(kuò)、計(jì)量、電費(fèi)、客服等專業(yè)數(shù)據(jù)預(yù)測用戶竊電信息[]。本文建立的用戶竊電智能識(shí)別模型選取450 條訓(xùn)練數(shù)據(jù)和50 條測試數(shù)據(jù)。數(shù)據(jù)集的特征包括用戶類別、電價(jià)類別、豐枯類型、用電性質(zhì)、地區(qū)類別、信用級(jí)別、業(yè)務(wù)類別、費(fèi)用類別、峰谷標(biāo)志、電量類別、季節(jié)類型、違竊標(biāo)志的12 個(gè)字段。
2.3.2 模型構(gòu)建及模型訓(xùn)練
用戶竊電行為分析屬于分類預(yù)測的應(yīng)用場景,在模型訓(xùn)練階段,采用總體表現(xiàn)較優(yōu)秀的C4.5 決策樹算法進(jìn)行竊電識(shí)別模型的訓(xùn)練,并通過輸出的決策樹歸納識(shí)別用戶竊電行為的規(guī)則。
2.3.3 模型評(píng)估
對(duì)于分類場景中的二分類問題,可以將分類器預(yù)測類別和真實(shí)類別,排列組合為四種類別,如下表1 所示。
真正類(true positive TP):真實(shí)類別為正類,預(yù)測類別為正類;
(false positive FP):真實(shí)類別為負(fù)類,預(yù)測類別為正類;
(false negative FN):真實(shí)類別為正類,預(yù)測類別為負(fù)類;
(true negative TN): 真實(shí)類別為負(fù)類,預(yù)測類別為負(fù)類。
該模型采用的準(zhǔn)確率(Accuracy):
用于衡量所有樣本被分類準(zhǔn)確的比例。
2.3.4 模型的應(yīng)用
模型總體的準(zhǔn)確率在95% 左右,可用于后續(xù)用戶竊電情況的分析和預(yù)測。并且隨著模型輸入數(shù)據(jù)的增加,模型的準(zhǔn)確性和可靠性也將得到提升。通過與分類預(yù)測器的結(jié)合使用,可以實(shí)現(xiàn)已經(jīng)訓(xùn)練好的模型的復(fù)用而不用重新訓(xùn)練模型。
3 結(jié)論
本文基于數(shù)據(jù)挖掘的技術(shù),分析用電客戶相關(guān)的用電特征數(shù)據(jù),建立竊電用戶識(shí)別模型,選用C4.5 決策樹算法進(jìn)行模型的訓(xùn)練,得到了較好的預(yù)測結(jié)果。該模型能夠?qū)τ脩舻母`電行為進(jìn)行有效而科學(xué)的判斷,幫電力系統(tǒng)營銷稽查相關(guān)工作人員及時(shí)地研判用戶是否存在竊電情況。相比于傳統(tǒng)的反竊電技術(shù)工作量大、工作效率低,該方法能夠提高識(shí)別效率,減少供電企業(yè)的經(jīng)濟(jì)損失。
參考文獻(xiàn):
[1] 曹崢,楊鏡非,劉曉娜.BP神經(jīng)網(wǎng)絡(luò)在反竊電系統(tǒng)中的研究與應(yīng)用[J].水電能源科學(xué),2011,29(9):199-202.
[2] 胡琛,數(shù)據(jù)挖掘技術(shù)在電量管理與反竊電系統(tǒng)中的應(yīng)用與研究[D].武漢:武漢大學(xué),2004.
[3] 蔡嘉榮,王順意,吳廣財(cái).基于機(jī)器學(xué)習(xí)的用戶竊電預(yù)測及用電檢查計(jì)劃輔助編排研究[J].測試工具與解決方案,2018,54(2):108-109.
(本文來源于《電子產(chǎn)品世界》雜志2022年5月期)
評(píng)論