In meinem vorherigen Blog habe ich die Grundlagen der linearen Regression und des Gradientenabstiegs behandelt. Um eine praktische lineare Regression zu erhalten, nehmen wir einen Originaldatensatz und wenden die erlernten Konzepte an.
Wir nehmen den Wohnungsdatensatz, der Informationen über verschiedene Häuser in Boston enthält. Diese Daten waren ursprünglich Teil des UCI Machine Learning Repository und wurden nun entfernt. Wir können auch auf diese Daten aus der scikit-Learn-Bibliothek zugreifen. Dieser Datensatz enthält 506 Stichproben und 13 Merkmalsvariablen. Ziel ist es, den Wert der Preise des Hauses anhand der gegebenen Merkmale vorherzusagen.
Also fangen wir an.
Zuerst importieren wir die benötigten Bibliotheken.
Als nächstes laden wir die Gehäusedaten aus der scikit-learn Bibliothek und verstehen sie.
Wir drucken den Wert des boston_dataset um zu verstehen, was es enthält. print(boston_dataset.keys()) gibt
dict_keys()
Daten: enthält die Informationen für verschiedene Häuser
Ziel: Preise des Hauses
feature_names: Namen der Merkmale
DESCR: beschreibt den Datensatz
Um mehr über die Merkmale zu erfahren, verwenden Sie boston_dataset.DESCR Die Beschreibung aller Funktionen ist unten angegeben:
CRIM: Per capita crime rate by town ZN: Proportion of residential land zoned for lots over 25,000 sq. ft INDUS: Proportion of non-retail business acres per town CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) NOX: Nitric oxide concentration (parts per 10 million) RM: Average number of rooms per dwelling AGE: Proportion of owner-occupied units built prior to 1940 DIS: Weighted distances to five Boston employment centers RAD: Index of accessibility to radial highways TAX: Full-value property tax rate per $10,000 PTRATIO: Pupil-teacher ratio by town B: 1000(Bk — 0.63)², where Bk is the proportion of by town LSTAT: Percentage of lower status of the population MEDV: Median value of owner-occupied homes in $1000s
Die durch die Variable MEDV angegebenen Preise des Hauses sind unsere Zielvariable und die verbleibenden sind die Merkmalsvariablen, auf deren Grundlage wir den Wert eines Hauses vorhersagen.
Wir werden die Daten jetzt mit pd.DataFrame in einen Pandas-Datenrahmen laden. Wir drucken dann die ersten 5 Zeilen der Daten mit head()