人工智能之PCA算法
前言:人工智能機器學習有關算法內(nèi)容,人工智能之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下PCA算法。
本文引用地址:http://cafeforensic.com/article/201806/381803.htmPCA(主成分分析)是十大經(jīng)典機器學習算法之一。PCA是Pearson在1901年提出的,后來由Hotelling在1933年加以發(fā)展提出的一種多變量的統(tǒng)計方法。
對于維數(shù)比較多的數(shù)據(jù),首先需要做的事就是在盡量保證數(shù)據(jù)本質的前提下將數(shù)據(jù)中的維數(shù)降低。降維是一種數(shù)據(jù)集預處理技術,往往在數(shù)據(jù)應用在其他算法之前使用,它可以去除掉數(shù)據(jù)的一些冗余信息和噪聲,使數(shù)據(jù)變得更加簡單高效,從而實現(xiàn)提升數(shù)據(jù)處理速度的目的,節(jié)省大量的時間和成本。降維也成為了應用非常廣泛的數(shù)據(jù)預處理方法。目前處理降維的技術有很多種,如SVD奇異值分解,主成分分析(PCA),因子分析(FA),獨立成分分析(ICA)等。今天重點介紹主成分分析(PCA)。
PCA(主成分分析)算法目的是在“信息”損失較小的前提下,將高維的數(shù)據(jù)轉換到低維,通過析取主成分顯出的最大的個別差異,也可以用來削減回歸分析和聚類分析中變量的數(shù)目,從而減小計算量。
PCA(主成分分析)通常用于高維數(shù)據(jù)集的探索與可視化,還可以用于數(shù)據(jù)壓縮,數(shù)據(jù)預處理等。
PCA算法概念:
PCA(PrincipalComponent Analysis)主成分分析,也稱為卡爾胡寧-勒夫變換(Karhunen-Loeve Transform),是一種用于探索高維數(shù)據(jù)結構的技術。
PCA是一種較為常用的降維技術,PCA的思想是將維特征映射到維上,這維是全新的正交特征。這維特征稱為主元,是重新構造出來的維特征。在PCA中,數(shù)據(jù)從原來的坐標系轉換到新的坐標系下,新的坐標系的選擇與數(shù)據(jù)本身是密切相關的。第一個新坐標軸選擇的是原始數(shù)據(jù)中方差最大的方向,第二個新坐標軸選擇和第一個坐標軸正交且具有最大方差的方向。該過程一直重復,重復次數(shù)為原始數(shù)據(jù)中特征的數(shù)目。大部分方差都包含在最前面的幾個新坐標軸中。因此,可以忽略余下的坐標軸,即對數(shù)據(jù)進行降維處理。
評論