Logistic Regression
2024. 12. 19. 15:09ㆍdata 공부/데이터전처리
이진분류를 예측하는 머신러닝 알고리즘
로지스틱 회귀분석은 기본적으로는 종속변수가 두 개의 클래스를 갖는 범주형(binary classification 가능할 때) 일 때 분류기법
지금은 0.5 기준으로 이진분류 되어있음
- 회귀(Regression)
- input : 연속값, 범주형 모두 가능
- output :연속값
- 분류(classficiation)
- input : 연속값, 범주형 모두 가능
- output : 이산값(범주형)
- 이진 분류이면 sigmoid함수, 다중분류이면 softmax 함수를 포함해야 함
https://www.youtube.com/watch?v=bfHKPsrwupI
수학적 이해를 위해서라면 위 동영상이 설명을 잘해줌...
결측치를 처리하는것
inpute missing value
1. data에 nan 갯수 찾아내기
data.isna().sum()
2. 없애기로 결정했으면
data.dropna()
3. 결측치 제거하기 싫으면 mean or median 으로 채워주면 됨 (머신러닝에서 큰 영향을 미치지 않는 null 갯수일때 )
data.fillna(data['Age'].mean())
극단적 값이 있어 mean 값이 영향을 받는다면 median 을 써주는것이 좋음
Logistic regression
from sklearn.linear_model import LogisticRegression
정확도가 0.9이며 나쁘지 않음
그러나 실제 데이터에서는 Logistic Regression 이거 하나만으로는 부족하여 쓰지 않음
'data 공부 > 데이터전처리' 카테고리의 다른 글
엑셀 대시보드 만들기 (0) | 2024.12.23 |
---|---|
KNN (K-Nearest Neighbors) 알고리즘 (0) | 2024.12.20 |
리니어 리그레션 및 예측 (1) | 2024.12.19 |
data 다루기 (0) | 2024.12.18 |
파이썬을 활용한 데이터 전처리 1 (0) | 2024.12.18 |