Lineáris Regresszió a Boston Ház Adatkészlet

Kredit: http://www.wbur.org/radioboston/2013/09/18/bostons-housing-challenge

A korábbi blog, Nem vonatkozik az alapokat, lineáris regresszió, illetve gradiens süllyedés. Ahhoz, hogy gyakorlati lineáris regressziót kapjunk, egy eredeti adatkészletet fogunk használni, és alkalmazzuk a megtanult fogalmakat.

fogjuk venni a ház adathalmaz, amely információkat tartalmaz a különböző házak Boston. Ezek az adatok eredetileg az UCI gépi tanulási adattár részét képezték, most pedig eltávolításra kerültek. Ezeket az adatokat a scikit-learn könyvtárból is elérhetjük. Ebben az adatkészletben 506 minta és 13 jellemző változó található. A cél az, hogy megjósoljuk a ház árainak értékét az adott funkciók felhasználásával.

Tehát kezdjük el.

először importáljuk a szükséges könyvtárakat.

ezután a házadatokat a scikit-learn könyvtárból töltjük be, és megértjük.

kinyomtatjuk a boston_dataset értékét, hogy megértsük, mit tartalmaz. print(boston_dataset.keys()) ad

dict_keys()

adatok: tartalmazza a különböző házak adatait
cél: a ház árai
feature_names: a jellemzők nevei
DESCR: leírja a

jellemzők használataboston_dataset.DESCRaz összes funkció leírása az alábbiakban található:

CRIM: Per capita crime rate by town
ZN: Proportion of residential land zoned for lots over 25,000 sq. ft
INDUS: Proportion of non-retail business acres per town
CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
NOX: Nitric oxide concentration (parts per 10 million)
RM: Average number of rooms per dwelling
AGE: Proportion of owner-occupied units built prior to 1940
DIS: Weighted distances to five Boston employment centers
RAD: Index of accessibility to radial highways
TAX: Full-value property tax rate per $10,000
PTRATIO: Pupil-teacher ratio by town
B: 1000(Bk — 0.63)², where Bk is the proportion of by town
LSTAT: Percentage of lower status of the population
MEDV: Median value of owner-occupied homes in $1000s

a ház árai, amelyeket a MEDV változó jelez, a fennmaradó jellemző változók, amelyek alapján megjósoljuk a ház értékét.

az adatokat most a pd.DataFramehasználatával töltjük be egy pandas adatbázisba. Mi akkor a nyomtatás az első 5 sor az adatok a head()

láthatjuk, hogy a célérték MEDV hiányoznak az adatok. Létrehozunk egy új oszlopot a célértékekről, majd hozzáadjuk a dataframe-hez.

adat előfeldolgozás
feltáró Adatelemzés
megfigyelések:
Megfigyelések:
az adatok előkészítése a modell
az adatokat képzési és tesztkészletekre osztjuk
A modell
modellértékelés
következtetés

adat előfeldolgozás

az adatok betöltése után jó gyakorlat Annak megállapítása, hogy vannak-e hiányzó értékek az adatokban. Az egyes funkciók hiányzó értékeinek számát A isnull()

azonban ebben az adatkészletben Nincsenek hiányzó értékek az alábbiak szerint.

Adam Faliq

Lineáris Regresszió a Boston Ház Adatkészlet

adat előfeldolgozás

feltáró Adatelemzés

megfigyelések:

Megfigyelések:

az adatok előkészítése a modell

az adatokat képzési és tesztkészletekre osztjuk

A modell

modellértékelés

következtetés

Vélemény, hozzászólás? Kilépés a válaszból

adat előfeldolgozás

feltáró Adatelemzés

megfigyelések:

Megfigyelések:

az adatok előkészítése a modell

az adatokat képzési és tesztkészletekre osztjuk

A modell

modellértékelés

következtetés

Related Posts

Physikalische Geologie

fyzikální Geologie

fysisk Geologi

物理地質学

Fysisk Geologi

물리적 지질학

Vélemény, hozzászólás? Kilépés a válaszból