A korábbi blog, Nem vonatkozik az alapokat, lineáris regresszió, illetve gradiens süllyedés. Ahhoz, hogy gyakorlati lineáris regressziót kapjunk, egy eredeti adatkészletet fogunk használni, és alkalmazzuk a megtanult fogalmakat.
fogjuk venni a ház adathalmaz, amely információkat tartalmaz a különböző házak Boston. Ezek az adatok eredetileg az UCI gépi tanulási adattár részét képezték, most pedig eltávolításra kerültek. Ezeket az adatokat a scikit-learn könyvtárból is elérhetjük. Ebben az adatkészletben 506 minta és 13 jellemző változó található. A cél az, hogy megjósoljuk a ház árainak értékét az adott funkciók felhasználásával.
Tehát kezdjük el.
először importáljuk a szükséges könyvtárakat.
ezután a házadatokat a scikit-learn könyvtárból töltjük be, és megértjük.
kinyomtatjuk a boston_dataset értékét, hogy megértsük, mit tartalmaz. print(boston_dataset.keys()) ad
dict_keys()
adatok: tartalmazza a különböző házak adatait
cél: a ház árai
feature_names: a jellemzők nevei
DESCR: leírja a
jellemzők használataboston_dataset.DESCRaz összes funkció leírása az alábbiakban található:
CRIM: Per capita crime rate by town ZN: Proportion of residential land zoned for lots over 25,000 sq. ft INDUS: Proportion of non-retail business acres per town CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) NOX: Nitric oxide concentration (parts per 10 million) RM: Average number of rooms per dwelling AGE: Proportion of owner-occupied units built prior to 1940 DIS: Weighted distances to five Boston employment centers RAD: Index of accessibility to radial highways TAX: Full-value property tax rate per $10,000 PTRATIO: Pupil-teacher ratio by town B: 1000(Bk — 0.63)², where Bk is the proportion of by town LSTAT: Percentage of lower status of the population MEDV: Median value of owner-occupied homes in $1000s
a ház árai, amelyeket a MEDV változó jelez, a fennmaradó jellemző változók, amelyek alapján megjósoljuk a ház értékét.
az adatokat most a pd.DataFramehasználatával töltjük be egy pandas adatbázisba. Mi akkor a nyomtatás az első 5 sor az adatok a head()
láthatjuk, hogy a célérték MEDV hiányoznak az adatok. Létrehozunk egy új oszlopot a célértékekről, majd hozzáadjuk a dataframe-hez.
az adatok betöltése után jó gyakorlat Annak megállapítása, hogy vannak-e hiányzó értékek az adatokban. Az egyes funkciók hiányzó értékeinek számát A isnull()
azonban ebben az adatkészletben Nincsenek hiányzó értékek az alábbiak szerint.