uwagi:
- ceny rosną wraz ze wzrostem wartości RM liniowo. Istnieje kilka wartości odstających, a dane wydają się być ograniczone do 50.
- ceny mają tendencję do zmniejszania się wraz ze wzrostem LSTAT. Chociaż nie wygląda na to, że podąża dokładnie za linią liniową.
przygotowanie danych do szkolenia modelu
łączymyLSTAT
IRM
używającnp.c_
dostarczanych przez Bibliotekę numpy.
podział danych na zestawy treningowe i testowe
następnie dzielimy dane na zestawy treningowe i testowe. Trenujemy model z 80% próbek i testujemy z pozostałymi 20%. Robimy to, aby ocenić wydajność modelu na niewidocznych danych. Do podziału danych używamy funkcjitrain_test_split
dostarczanej przez Bibliotekę scikit-learn. Na koniec drukujemy rozmiary naszego zestawu treningowego i testowego, aby sprawdzić, czy podział nastąpił prawidłowo.
(404, 2)
(102, 2)
(404,)
(102,)
szkolenie i testowanie modelu
używamy scikit-learn ’ sLinearRegression
do szkolenia naszego modelu zarówno na zestawach treningowych, jak i testowych.
ocena modelu
ocenimy nasz model za pomocą rmse i R2-score.
The model performance for training set
--------------------------------------
RMSE is 5.6371293350711955
R2 score is 0.6300745149331701 The model performance for testing set
--------------------------------------
RMSE is 5.137400784702911
R2 score is 0.6628996975186952
warto zacząć od tego. W nadchodzących blogach przyjrzymy się sposobom na zwiększenie wydajności modelu.
kompletny zeszyt Jupyter znajdziesz tutaj.
wnioski
w tej historii zastosowaliśmy koncepcje regresji liniowej na zestawie danych Boston housing. Polecam wypróbować również inne zbiory danych.
oto kilka miejsc, w których możesz szukać danych
- https://www.kaggle.com/datasets
- https://toolbox.google.com/datasetsearch
- https://archive.ics.uci.edu/ml/datasets.html
Dziękujemy za przeczytanie!!
w następnej części tej serii omówimy regresję Wielomianową. Obserwuj to miejsce, aby uzyskać więcej.