în blogul meu anterior, am acoperit elementele de bază ale regresiei liniare și coborârii gradientului. Pentru a obține o regresie liniară practică, vom lua un set de date original și vom aplica conceptele pe care le-am învățat.
vom lua setul de date privind locuințele care conține informații despre diferite case din Boston. Aceste date au fost inițial o parte din depozitul UCI Machine Learning și au fost eliminate acum. De asemenea, putem accesa aceste date din biblioteca scikit-learn. Există 506 de eșantioane și 13 variabile de caracteristici în acest set de date. Obiectivul este de a prezice valoarea prețurilor casei folosind caracteristicile date.
să începem.
În primul rând, vom importa bibliotecile necesare.
în continuare, vom încărca datele carcasei din biblioteca scikit-learn și o vom înțelege.
imprimăm valoareaboston_dataset pentru a înțelege ce conține. print(boston_dataset.keys()) dă
dict_keys()
date: conține informații pentru diverse case
target: prețurile casei
feature_names: numele caracteristicilor
DESCR: descrie setul de date
pentru a afla mai multe despre caracteristicile utilizați boston_dataset.DESCR descrierea tuturor caracteristicilor este prezentată mai jos:
CRIM: Per capita crime rate by town ZN: Proportion of residential land zoned for lots over 25,000 sq. ft INDUS: Proportion of non-retail business acres per town CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) NOX: Nitric oxide concentration (parts per 10 million) RM: Average number of rooms per dwelling AGE: Proportion of owner-occupied units built prior to 1940 DIS: Weighted distances to five Boston employment centers RAD: Index of accessibility to radial highways TAX: Full-value property tax rate per $10,000 PTRATIO: Pupil-teacher ratio by town B: 1000(Bk — 0.63)², where Bk is the proportion of by town LSTAT: Percentage of lower status of the population MEDV: Median value of owner-occupied homes in $1000s
prețurile casei indicate de variabilaMEDV este variabila noastră țintă, iar restul sunt variabilele caracteristice pe baza cărora vom prezice valoarea unei case.
vom încărca acum datele într-un cadru de date pandas folosindpd.DataFrame. Apoi imprimăm primele 5 rânduri ale datelor folosind head()