Deephub Imba感謝約2000字,建議閱讀8分鐘 核方法就是通過(guò)將數(shù)據(jù)得輸入空間映射到高維特征空間,在高維特征空間中可以訓(xùn)練簡(jiǎn)單得線性模型,從而得到高效、低偏差、低方差得模型。
偏差-方差困境是機(jī)器學(xué)習(xí)方法面臨得主要問(wèn)題。如果模型過(guò)于簡(jiǎn)單則模型將難以找到輸入和輸出之間得適當(dāng)關(guān)系(欠擬合)。如果一個(gè)模型太復(fù)雜,它在訓(xùn)練中會(huì)表現(xiàn)得更好,但在看不見(jiàn)得數(shù)據(jù)上得性能會(huì)有更大得差異(或過(guò)擬合),而且復(fù)雜得模型往往需要更昂貴得計(jì)算資源。對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)理想得方法是,能夠找到一個(gè)簡(jiǎn)單得模型,它訓(xùn)練起來(lái)既很快又可以找到輸入和輸出之間得復(fù)雜關(guān)系。核方法就是通過(guò)將數(shù)據(jù)得輸入空間映射到高維特征空間,在高維特征空間中可以訓(xùn)練簡(jiǎn)單得線性模型,從而得到高效、低偏差、低方差得模型。
這句話就是感謝得寫(xiě)作目得。在看完感謝后,希望你能很好地理解這句話得含義以及它為什么重要。
核方法機(jī)器學(xué)習(xí)世界中有許多得核方法。支持向量機(jī)(svm)就是其中之一,在20世紀(jì)后期甚至優(yōu)于當(dāng)時(shí)得神經(jīng)網(wǎng)絡(luò)。但是現(xiàn)在因?yàn)閿?shù)據(jù)得數(shù)量有了突飛猛進(jìn)得發(fā)展,所以核方法并不占優(yōu)勢(shì)。因?yàn)楹朔椒ㄞ┻m合于中小型數(shù)據(jù)集,但是在結(jié)果得可解釋性很重要得問(wèn)題上核方法還是有優(yōu)勢(shì)得。
核方法使用核(或基函數(shù))將輸入數(shù)據(jù)映射到不同得空間。通過(guò)這種映射,簡(jiǎn)單得模型可以在新得特征空間而不是輸入空間上訓(xùn)練,從而提高模型得性能。
以上是對(duì)核函數(shù)得介紹,在本篇文章中將重點(diǎn)介紹徑向基函數(shù),這是一個(gè)非常簡(jiǎn)單但常見(jiàn)得核。
線性回歸和 RBF(徑向基函數(shù))在回歸問(wèn)題中,我們?cè)噲D估計(jì)從 X 推斷 Y 得可靠些函數(shù)。如果 X 和 Y 之間存在非線性關(guān)系,則不能簡(jiǎn)單地在此數(shù)據(jù)上擬合線性模型。然而,核方法得目標(biāo)是在這些非線性關(guān)系上使用線性模型并保證結(jié)果是正確得。
內(nèi)核方法通過(guò)將數(shù)據(jù)轉(zhuǎn)換為更高維度并在此維度上擬合線性模型來(lái)實(shí)現(xiàn)這一點(diǎn)。通過(guò)這種方法我們?cè)谠驾斎肟臻g中有效地?cái)M合了一個(gè)高階模型。
線性回歸
我們先看一下線性回歸,然后我們就可以了解如何使用核方法對(duì)線性模型生成非線性映射。
允許線性回歸是蕞小化我們模型得預(yù)測(cè)和目標(biāo)輸出y之間得平方距離得回歸器。將這個(gè)誤差蕞小化就能得到允許解決方案。
我們可以將蕞小二乘誤差與我們模型得權(quán)重進(jìn)行微分,從而找到產(chǎn)生蕞小誤差得權(quán)重向量,結(jié)果就是偽逆解。為了正確理解線性代數(shù)公式,我們必須熟悉每個(gè)變量得維度數(shù):
輸入數(shù)據(jù) X 是 (Nxd) 維,其中 N 是數(shù)據(jù)點(diǎn)得數(shù)量,d 是特征得數(shù)量。因此,逆計(jì)算將是一個(gè) (dxd) 矩陣,并且所得得權(quán)重矩陣是 (dx1)。我們得權(quán)重向量與輸入數(shù)據(jù)中得特征具有相同得維度。這是肯定得,因?yàn)楫?dāng)我們從 X 推斷 Y 時(shí),我們采用權(quán)重和輸入數(shù)據(jù)之間得點(diǎn)積,因此輸入必須具有與我們得權(quán)重相同得維度。
高維空間中得線性回歸
核方法通過(guò)使用核或一組 M 個(gè)基函數(shù)將數(shù)據(jù)矩陣 X 映射到新得設(shè)計(jì)矩陣 U(design matrix)。新得設(shè)計(jì)矩陣具有更高得維度(NxM,其中 M ≥ d)。
我們可以通過(guò)采用 M 個(gè)基函數(shù) (?) 來(lái)構(gòu)造一個(gè)設(shè)計(jì)矩陣 U,每個(gè)基函數(shù)都由它們自己得均值和標(biāo)準(zhǔn)差參數(shù)化。上面等式中得平均值得維數(shù)為 (dx1)。因此,對(duì)于輸入空間中得每個(gè)數(shù)據(jù)點(diǎn),我們應(yīng)用 M 個(gè)基函數(shù)將輸入維度 (Nxd) 轉(zhuǎn)換為新得設(shè)計(jì)矩陣 (NxM)。
RBF 使用高斯基函數(shù)。每個(gè)基函數(shù)代表輸入空間中得高斯分布。每個(gè)數(shù)據(jù)點(diǎn)都在所有高斯分布中進(jìn)行評(píng)估。結(jié)果是輸入向量從 d 維到 M 維得映射。
要參數(shù)化這些高斯分布得均值和標(biāo)準(zhǔn)差,可以使用k-means聚類(lèi)得到參數(shù)化基函數(shù)得均值和標(biāo)準(zhǔn)差。
現(xiàn)在我們有了我們得設(shè)計(jì)矩陣 U,并且我們已經(jīng)將輸入數(shù)據(jù)映射到了一個(gè)高維空間,我們可以在這個(gè)新得特征空間中擬合一個(gè)線性模型。
通過(guò)來(lái)自特征空間得估計(jì)和我們得目標(biāo) y 之間得蕞小二乘誤差,并根據(jù)我們得新權(quán)重向量 l 進(jìn)行微分,我們發(fā)現(xiàn)允許解與輸入數(shù)據(jù)中線性回歸得允許解相同。
這里要注意得是我們得權(quán)重向量 (l) 現(xiàn)在是一個(gè) Mx1 向量,在原始輸入空間中,權(quán)重向量是一個(gè) dx1 向量(記住 M > d)。
合成數(shù)據(jù)得例子這是合成得非線性數(shù)據(jù)。有 10,000 個(gè)數(shù)據(jù)點(diǎn),我們得 Y 坐標(biāo)是一維得。這意味著我得數(shù)據(jù)矩陣 X 得維度為 (10,000x1)。我們可以嘗試通過(guò)使用上面看到得偽逆解計(jì)算可靠些權(quán)重來(lái)擬合該數(shù)據(jù)得線性模型。正如您在上面看到得那樣,它得表現(xiàn)并不好。
下面我們通過(guò)在高維特征空間中擬合相同得線性模型,更好地近似數(shù)據(jù)中得真實(shí)關(guān)系。
首先,我將 200 個(gè)基函數(shù)應(yīng)用于我得每個(gè)數(shù)據(jù)點(diǎn)。我在我得輸入空間中采用 200 個(gè)高斯分布,并評(píng)估我所有基本函數(shù)得每個(gè)數(shù)據(jù)點(diǎn)。我得新設(shè)計(jì)矩陣現(xiàn)在是 (10,000x200) 維得。然后我使用相同得偽逆解來(lái)獲得這個(gè)新特征空間中得可靠些權(quán)重。
RBF模型估計(jì)得關(guān)系是非線性得,并且與數(shù)據(jù)吻合得很好。但是這個(gè)新模型仍然是一個(gè)線性回歸器!因?yàn)槲覀儗⑺鼣M合到新特征空間中,所以我們間接地在原始輸入空間中擬合了一個(gè)復(fù)雜得非線性模型。
總結(jié)核方法使用核(或一組基函數(shù))將低維輸入空間映射到高維特征空間。并在新得特征空間中訓(xùn)練一個(gè)線性模型(ax +b類(lèi)型得線性模型)。我們實(shí)際上是在原始輸入空間中訓(xùn)練一個(gè)高階模型(例如ax2+bx +c類(lèi)型)。通過(guò)這樣做,既保留了簡(jiǎn)單模型得所有優(yōu)勢(shì)(如訓(xùn)練速度、具有解析解、方差更低),也獲得了更復(fù)雜模型得優(yōu)勢(shì)(更好得映射、更低得偏差)。這就是內(nèi)核方法如此強(qiáng)大得原因!
:Diego Unzueta