Logistic Regression

2024. 12. 19. 15:09data 공부/데이터전처리

이진분류를 예측하는 머신러닝 알고리즘

로지스틱 회귀분석은 기본적으로는 종속변수가 두 개의 클래스를 갖는 범주형(binary classification 가능할 때) 일 때 분류기법

지금은 0.5 기준으로 이진분류 되어있음 

  • 회귀(Regression)
    • input : 연속값, 범주형 모두 가능
    • output :연속값
  • 분류(classficiation) 
    • input : 연속값, 범주형 모두 가능
    • output : 이산값(범주형) 
    • 이진 분류이면 sigmoid함수, 다중분류이면 softmax 함수를 포함해야 함 

 

https://www.youtube.com/watch?v=bfHKPsrwupI

수학적 이해를 위해서라면 위 동영상이 설명을 잘해줌...

 

 

결측치를 처리하는것 

inpute missing value

 

1. data에 nan 갯수 찾아내기 

data.isna().sum()

2. 없애기로 결정했으면 

data.dropna()

 

3. 결측치 제거하기 싫으면 mean or median 으로 채워주면 됨 (머신러닝에서 큰 영향을 미치지 않는 null 갯수일때 )

data.fillna(data['Age'].mean())

극단적 값이 있어 mean 값이 영향을 받는다면 median 을 써주는것이 좋음 

 

Logistic regression

from sklearn.linear_model import LogisticRegression

 

 

정확도가 0.9이며 나쁘지 않음

 

그러나 실제 데이터에서는 Logistic Regression 이거 하나만으로는 부족하여 쓰지 않음 

'data 공부 > 데이터전처리' 카테고리의 다른 글

엑셀 대시보드 만들기  (0) 2024.12.23
KNN (K-Nearest Neighbors) 알고리즘  (0) 2024.12.20
리니어 리그레션 및 예측  (1) 2024.12.19
data 다루기  (0) 2024.12.18
파이썬을 활용한 데이터 전처리 1  (0) 2024.12.18