regresja liniowa na obudowie Bostonu

widzimy, że wartościMEDVsą zwykle dystrybuowane z kilkoma wartościami odstającymi.

następnie tworzymy macierz korelacji, która mierzy liniowe zależności między zmiennymi. Matrycę korelacji można utworzyć za pomocą funkcjicorr z biblioteki ramek danych pandy. Użyjemy funkcji heatmap z biblioteki seaborn do wykreślenia macierzy korelacji.

współczynnik korelacji wynosi od -1 do 1. Jeśli wartość jest bliska 1, oznacza to, że istnieje silna dodatnia korelacja między tymi dwiema zmiennymi. Gdy jest ona bliska -1, zmienne mają silną korelację ujemną.

uwagi:

aby dopasować model regresji liniowej, wybieramy te cechy, które mają wysoką korelację z naszą zmienną docelowąMEDV. Patrząc na matrycę korelacji możemy zauważyć, że RM ma silną dodatnią korelację z (0.7) gdzie LSTAT ma wysoką ujemną korelację z MEDV(-0.74).
ważnym punktem w wyborze funkcji dla modelu regresji liniowej jest sprawdzenie multi-co-liniowości. Cechy RADTAX mają korelację 0.91. Te pary cech są ze sobą silnie skorelowane. Nie powinniśmy wybierać obu tych funkcji razem do treningu modelu. Sprawdź to dla wyjaśnienia. To samo dotyczy funkcji DIS I AGE, które mają korelację -0,75.

na podstawie powyższych obserwacji będziemyRM ILSTAT jako nasze funkcje. Korzystając z wykresu punktowego zobaczmy, jak te funkcje różnią się od MEDV.

Adam Faliq

regresja liniowa na obudowie Bostonu

wstępne przetwarzanie danych

analiza danych eksploracyjnych

uwagi:

uwagi:

przygotowanie danych do szkolenia modelu

podział danych na zestawy treningowe i testowe

szkolenie i testowanie modelu

ocena modelu

wnioski

Dodaj komentarz Anuluj pisanie odpowiedzi

wstępne przetwarzanie danych

analiza danych eksploracyjnych

uwagi:

uwagi:

przygotowanie danych do szkolenia modelu

podział danych na zestawy treningowe i testowe

szkolenie i testowanie modelu

ocena modelu

wnioski

Related Posts

fysisk Geologi

Geología física

Géologie physique

Geologia fisica

geologia fizică

fizikai Geológia

Dodaj komentarz Anuluj pisanie odpowiedzi