Lineare Regression auf Boston Gehäuse Datensatz

Credits: http://www.wbur.org/radioboston/2013/09/18/bostons-housing-challenge

In meinem vorherigen Blog habe ich die Grundlagen der linearen Regression und des Gradientenabstiegs behandelt. Um eine praktische lineare Regression zu erhalten, nehmen wir einen Originaldatensatz und wenden die erlernten Konzepte an.

Wir nehmen den Wohnungsdatensatz, der Informationen über verschiedene Häuser in Boston enthält. Diese Daten waren ursprünglich Teil des UCI Machine Learning Repository und wurden nun entfernt. Wir können auch auf diese Daten aus der scikit-Learn-Bibliothek zugreifen. Dieser Datensatz enthält 506 Stichproben und 13 Merkmalsvariablen. Ziel ist es, den Wert der Preise des Hauses anhand der gegebenen Merkmale vorherzusagen.

Also fangen wir an.

Zuerst importieren wir die benötigten Bibliotheken.

Als nächstes laden wir die Gehäusedaten aus der scikit-learn Bibliothek und verstehen sie.

Wir drucken den Wert des boston_dataset um zu verstehen, was es enthält. print(boston_dataset.keys()) gibt

dict_keys()

Daten: enthält die Informationen für verschiedene Häuser
Ziel: Preise des Hauses
feature_names: Namen der Merkmale
DESCR: beschreibt den Datensatz

Um mehr über die Merkmale zu erfahren, verwenden Sie boston_dataset.DESCR Die Beschreibung aller Funktionen ist unten angegeben:

CRIM: Per capita crime rate by town
ZN: Proportion of residential land zoned for lots over 25,000 sq. ft
INDUS: Proportion of non-retail business acres per town
CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
NOX: Nitric oxide concentration (parts per 10 million)
RM: Average number of rooms per dwelling
AGE: Proportion of owner-occupied units built prior to 1940
DIS: Weighted distances to five Boston employment centers
RAD: Index of accessibility to radial highways
TAX: Full-value property tax rate per $10,000
PTRATIO: Pupil-teacher ratio by town
B: 1000(Bk — 0.63)², where Bk is the proportion of by town
LSTAT: Percentage of lower status of the population
MEDV: Median value of owner-occupied homes in $1000s

Die durch die Variable MEDV angegebenen Preise des Hauses sind unsere Zielvariable und die verbleibenden sind die Merkmalsvariablen, auf deren Grundlage wir den Wert eines Hauses vorhersagen.

Wir werden die Daten jetzt mit pd.DataFrame in einen Pandas-Datenrahmen laden. Wir drucken dann die ersten 5 Zeilen der Daten mit head()

Adam Faliq

Lineare Regression auf Boston Gehäuse Datensatz

Datenvorverarbeitung

Explorative Datenanalyse

Beobachtungen:

Beobachtungen:

Vorbereiten der Daten für das Training des Modells

Aufteilen der Daten in Trainings- und Testsets

Training und Testen des Modells

Modellbewertung

Fazit

Schreibe einen Kommentar Antworten abbrechen

Datenvorverarbeitung

Explorative Datenanalyse

Beobachtungen:

Beobachtungen:

Vorbereiten der Daten für das Training des Modells

Aufteilen der Daten in Trainings- und Testsets

Training und Testen des Modells

Modellbewertung

Fazit

Related Posts

geologia fizică

fizikai Geológia

fysikaalinen geologia

fysische Geologie

Geologia fizyczna

Physikalische Geologie

Schreibe einen Kommentar Antworten abbrechen