概述:機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)在信貸風(fēng)控場(chǎng)景中的應(yīng)用(1)
來(lái)源:知乎
似乎一夜之間,所有的互聯(lián)網(wǎng)公司在對(duì)外的宣傳稿中都會(huì)提及自己使用機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù),一時(shí)間成為了近幾年來(lái)最炙手可熱的名詞,不談機(jī)器學(xué)習(xí)、大數(shù)據(jù)似乎都不好意思說(shuō)自己是做高新技術(shù)的了。
百度搜索指數(shù):機(jī)器學(xué)習(xí)
百度搜索指數(shù):大數(shù)據(jù)
上圖來(lái)自最近7年來(lái)這兩個(gè)詞的百度搜索指數(shù),可以看到從2013年開(kāi)始一直在穩(wěn)步攀升,在2017年的時(shí)候迎來(lái)了爆發(fā)式的增長(zhǎng),這些都與我們的感知類同。
機(jī)器學(xué)習(xí)與人腦思維的區(qū)別
機(jī)器學(xué)習(xí)和大數(shù)據(jù)應(yīng)用是相輔相成的,目的是想用機(jī)器去模擬人類的思考過(guò)程,人類通過(guò)自身經(jīng)歷經(jīng)過(guò)思考可以形成經(jīng)驗(yàn),并用來(lái)解決新的問(wèn)題,而機(jī)器學(xué)習(xí)是需要利用大量的歷史數(shù)據(jù)去訓(xùn)練一個(gè)模型去解決一個(gè)特定的問(wèn)題:比如識(shí)別兩張臉是否一致、該用戶是不是精準(zhǔn)客戶等。
雖然這兩個(gè)詞這兩年才火起來(lái),但是這些概念早在半個(gè)多世紀(jì)前就有理論的提出,尤其機(jī)器學(xué)習(xí)的算法已經(jīng)在幾十年前就非常成熟了,但是受制于計(jì)算效率、存儲(chǔ)等硬件的限制,大數(shù)據(jù)和機(jī)器學(xué)習(xí)在實(shí)際業(yè)務(wù)上的應(yīng)用場(chǎng)景十分受限,很難有大規(guī)模的場(chǎng)景應(yīng)用。最近十年來(lái)隨著存儲(chǔ)、芯片等層面的突破讓大數(shù)據(jù)和機(jī)器學(xué)習(xí)的計(jì)算應(yīng)用成本大大降低,這也支撐了基于這兩項(xiàng)技術(shù)的應(yīng)用場(chǎng)景呈現(xiàn)爆發(fā)式增長(zhǎng)。
除了機(jī)器學(xué)習(xí)之外,我們也發(fā)現(xiàn)互聯(lián)網(wǎng)信貸成為了這幾年最火的行業(yè)方向,互聯(lián)網(wǎng)信貸的工作重心在風(fēng)控。于是天作佳成,正如目前我們看到的,信貸風(fēng)控成為當(dāng)前機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)最適合也是最成熟的應(yīng)用場(chǎng)景之一:
1.金融業(yè)務(wù)自身需要大量的數(shù)據(jù)且也會(huì)產(chǎn)生更多的數(shù)據(jù),這天然的讓信貸風(fēng)控成為最適合大數(shù)據(jù)和機(jī)器學(xué)習(xí)的場(chǎng)景;
2.風(fēng)控涉及的數(shù)據(jù)量大、數(shù)據(jù)面廣、關(guān)聯(lián)復(fù)雜,也急需利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)解決風(fēng)控過(guò)程中效率低、缺乏公平準(zhǔn)則、風(fēng)險(xiǎn)難以量化的問(wèn)題;
所以正是因?yàn)檫@樣的相互依賴,信貸風(fēng)控成為當(dāng)前大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用最成熟的領(lǐng)域之一。
信貸風(fēng)控中的主要問(wèn)題
信貸風(fēng)控最關(guān)鍵的目標(biāo)就是從全量申請(qǐng)用戶樣本中找到會(huì)逾期的客戶,所以風(fēng)控的核心目的是評(píng)估用戶的還款意愿和還款能力。從過(guò)去的業(yè)務(wù)實(shí)踐經(jīng)驗(yàn)來(lái)看,風(fēng)控當(dāng)中需要重點(diǎn)關(guān)注的問(wèn)題包括:
非本人申請(qǐng):申請(qǐng)人利用虛假身份申請(qǐng)信貸,這一問(wèn)題在信貸業(yè)務(wù)高速增長(zhǎng)的蠻荒階段,****或者互金機(jī)構(gòu)缺乏對(duì)黑產(chǎn)全面的認(rèn)知,在部分業(yè)務(wù)環(huán)節(jié)被黑產(chǎn)用虛假/殘缺或者非本人身份證欺詐,包括一些知名的持牌消金機(jī)構(gòu)也遇到過(guò)大量類似的欺詐案例。
偽造資料:申請(qǐng)人為了更容易獲得貸款或者貸后惡意逾期避免催收,偽造收入證明、聯(lián)系人、工作地址等資料。
中介團(tuán)伙:中介在網(wǎng)絡(luò)上大量招徠需要信貸申請(qǐng)的用戶,使用不同的攻略“教”客戶如何有機(jī)會(huì)以較高概率通過(guò)****/信貸機(jī)構(gòu)的審核。
歷史信用記錄:用戶歷史如果存在大量失信行為,或者存在****/毒等不良社會(huì)行為,那么其逾期失聯(lián)的概率也很高。
還款能力不足:申請(qǐng)人負(fù)債收入比較高,外部有大量債務(wù)且自身收入不穩(wěn)定,這些都有可能導(dǎo)致用戶愿意還款但是卻沒(méi)有能力還款。
基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的風(fēng)控解決方案
為了解決上述的這些問(wèn)題,目前業(yè)內(nèi)已經(jīng)形成了一套基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的較為完整的解決方案。
非本人申請(qǐng):人臉識(shí)別技術(shù)
目前人臉識(shí)別技術(shù)已經(jīng)應(yīng)用在生活中的方方面面,如刷臉支付、高鐵進(jìn)站甚至公安的天網(wǎng)系統(tǒng);而在金融業(yè)務(wù)中,****辦理、網(wǎng)貸申請(qǐng)也都普遍使用人臉識(shí)別:將申請(qǐng)人照片與在公安系統(tǒng)中身份證存照進(jìn)行比對(duì),判斷兩張照片的相似度,可有效避免非本人申請(qǐng)的問(wèn)題。
與人類識(shí)別面部類似,當(dāng)我們?nèi)祟悓?duì)一個(gè)人比較熟悉的時(shí)候,我們很容易根據(jù)他的面部特征與我們?cè)谀X海里過(guò)去存儲(chǔ)的特征進(jìn)行比對(duì),就能判斷這個(gè)人是否是這個(gè)人(雖然也會(huì)有誤判的時(shí)候),同樣的,人臉識(shí)別技術(shù)的背后也是一套深度學(xué)習(xí)的算法,把我們思考的過(guò)程轉(zhuǎn)化為模型算法,目前市面上有多家提供人臉識(shí)別服務(wù)的商業(yè)化應(yīng)用公司,不過(guò)其算法的本質(zhì)基本是類同的,人臉識(shí)別的核心思想在于:不同人臉由不同特征組成。
理解這個(gè)思想,首先需要引入的的是“特征”的概念。先看下面這個(gè)例子:
最簡(jiǎn)單的人臉特征
假設(shè)這 5 個(gè)特征足夠形容一張人臉,那每張人臉都可表示為這 5 個(gè)特征的組合:
(特征1,特征2,特征3,特征4,特征5)
一位雙眼皮,挺鼻梁,藍(lán)眼睛,白皮膚,瓜子臉的小姐姐即可用特征表示為(見(jiàn)表格加粗項(xiàng)):(1,1,0,1,0)
那么遍歷上面這張?zhí)卣鞅砀褚还部梢源?2張不同的臉。32 張臉可遠(yuǎn)遠(yuǎn)不夠覆蓋70 多億的人口。為了讓不同特征組成的人臉能覆蓋足夠多人臉,我們需要擴(kuò)充上面那張?zhí)卣鞅怼U(kuò)張?zhí)卣鞅砜梢詮男?、列兩個(gè)角度展開(kāi)。
列的角度很簡(jiǎn)單,只需要增加特征數(shù)量:(特征6.臉型,特征7.兩眼之間距離,特征8.嘴唇厚薄…)實(shí)際應(yīng)用中通常應(yīng)用 128,256,512 或者 1024 個(gè)不同特征。從行的角度擴(kuò)充也很好理解,比如“特征3”,除了值 0 代表藍(lán)色,值 1 代表灰色,是不是可以增加一個(gè)值 2 代表黑色,值 3 代表沒(méi)有頭發(fā)呢?此外,除了這些離散的整數(shù),我們也可以取連續(xù)的小數(shù),比如特征 3 的值 0.1,代表“藍(lán)中略微帶黑”,值 0.9 代表“灰中帶藍(lán)”……
百度開(kāi)源平臺(tái):面部特征識(shí)別
經(jīng)過(guò)這樣的擴(kuò)充,特征空間便會(huì)變得無(wú)限大。擴(kuò)充后特征空間里的一張臉可能表示為:
一張臉提取出128維特征變量
用于表示人臉的大量特征從哪來(lái)?這便是深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))發(fā)揮作用的地方。它通過(guò)在千萬(wàn)甚至億級(jí)別的人臉數(shù)據(jù)庫(kù)上學(xué)習(xí)訓(xùn)練后,會(huì)自動(dòng)總結(jié)出最適合于計(jì)算機(jī)理解和區(qū)分的人臉特征。
闡明了不同人臉由不同特征組成后,我們便有了足夠的知識(shí)來(lái)分析人臉,算法工程師通常需要一定的可視化手段才能知道機(jī)器到底學(xué)習(xí)到了哪些利于區(qū)分不同人的特征:同一人的不同照片提取出的特征,在特征空間里距離很近,不同人在特征空間里相距較遠(yuǎn)。
三張不同角度的撒貝寧照片經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)提取出 128 維的特征后,變成了 3 個(gè)在 128 維空間中的點(diǎn)(紅色),劉德華的特征點(diǎn)為綠色。
不過(guò)在實(shí)際應(yīng)用中在光照較差、遮擋、形變(大笑)、側(cè)臉等諸多條件下,神經(jīng)網(wǎng)絡(luò)很難提取出與“標(biāo)準(zhǔn)臉”相似的特征。另外,在金融風(fēng)控領(lǐng)域還需要解決偽造人臉的情況,面對(duì)這些問(wèn)題,通常采取四種應(yīng)對(duì)措施:
1. 工程角度:研發(fā)質(zhì)量模型,對(duì)檢測(cè)到人臉質(zhì)量進(jìn)行評(píng)價(jià),質(zhì)量較差則不識(shí)別/檢驗(yàn)。
2. 應(yīng)用角度:施加場(chǎng)景限制,比如刷臉解鎖、人臉閘機(jī)、會(huì)場(chǎng)簽到時(shí),都要求用戶在良好的光照條件下正對(duì)攝像頭,以避免采集到質(zhì)量差的圖片。
3. 算法角度:提升人臉識(shí)別模型性能,在訓(xùn)練數(shù)據(jù)里添加更多復(fù)雜場(chǎng)景和質(zhì)量的照片,以增強(qiáng)模型的抗干擾能力。
4.精準(zhǔn)活體識(shí)別:通過(guò)3D建模軟件可以使用用戶已有的照片模擬一張真實(shí)的頭像,以此來(lái)騙過(guò)人臉識(shí)別算法,所以如何驗(yàn)證這個(gè)頭像是來(lái)自一個(gè)真實(shí)的人同樣也是一個(gè)機(jī)器學(xué)習(xí)的過(guò)程。
鯤魚(yú)科技-靈犀聯(lián)合實(shí)驗(yàn)室“模擬人臉攻擊”示例
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。