【機(jī)器學(xué)習(xí)】圖解多重線性回歸 原創(chuàng)
前面我們圖解了簡單線性回歸,也就是只有一個自變量,今天我們來看看自變量有多個的情況,也就是多重線性回歸。
先來個整體視角:
再逐步分解開來:
???????? ?????????????????? ??????????
我們用體重作為因變量,身高作為自變量,并假設(shè)它們之間有某種線性關(guān)系。
???????? ?????????????????????? ????????!
要想得到一個好模型就必須先充分了解數(shù)據(jù)。
在正式訓(xùn)練模型之前,先來探索分析數(shù)據(jù)。
看,Gender居然也是個重要因素。
當(dāng)我們將身高與體重繪制成圖表時,我們會發(fā)現(xiàn)呈現(xiàn)出一種線性模式。
然而……當(dāng)我們考慮性別時……
結(jié)果發(fā)現(xiàn),即使相同身高,不同性別也會是不同體重。
???????????? ????????????
通過性別來拆分?jǐn)?shù)據(jù),我們可以進(jìn)行兩次獨(dú)立的線性回歸。
這兩條線的斜率幾乎相同,這表明行為相似。
但是截距呢?
它們告訴我們起點(diǎn)是不同的基線。
??????????-????????????????
我們可以添加多個變量來進(jìn)行多重線性回歸。
其核心理論是一樣的:我們?nèi)匀皇褂镁€性函數(shù)來預(yù)測目標(biāo)變量。
但是,我們可以追蹤N個自變量的值。
因此,在本例中可以同時考慮身高和性別這兩個因素 ?? N=2
?????????? ???? ??????????????????
多重線性回歸(MLR)接受數(shù)值型和類別型變量。
身高是一個數(shù)值型變量——這是一種可以被測量的變量。
性別是一個類別型變量——它將我們的數(shù)據(jù)劃分成不同的組別。
要在模型中使用類別變量,它們必須被編碼成二進(jìn)制變量。
我們可以很容易地將性別變量轉(zhuǎn)換成一個布爾型變量,用1和0來表示。
?????? ????????????????
我們的回歸方程就像是一個秘密配方。
它告訴我們需要每種成分(變量)的具體量。
身高每增加一個單位,體重也會相應(yīng)增加。
但性別也會影響這種關(guān)系。
因此,我們需要計算各個變量的權(quán)重!
?????????? ??????????????
我們可以使用scikit-learn庫來實(shí)現(xiàn)這種多重線性回歸。
代碼非常直觀,我們能夠輕松獲取所有的三個權(quán)重值。
針對這兩種情況,我們將得到一個統(tǒng)一的方程。
當(dāng)考慮到性別是0或1時,我們實(shí)際上會得到兩個方程。
而這兩個方程與我們最初得到的非常相似??
那么,這就是目前關(guān)于線性回歸的所有內(nèi)容了。
本文轉(zhuǎn)載自公眾號人工智能大講堂
原文鏈接:??https://mp.weixin.qq.com/s/Oi5u10bxsSEkWtKkxOBe9Q???
