data 공부/데이터전처리(7)
-
Decision tree Classifier
gini index : 0.5~ 0 사이, 숫자가 작을수록 한쪽으로 치우쳐진것 변수 이름들만 보면 지금 값에서는 조금 이해하기 힘들기 때문에 파라미터를 바꾸어줄 수 있음 plt.figure(figsize = (20,10))plot_tree(model, feature_names = X_train.columns) Decision tree vs Logistic regression1. non-parametric vs parametric2. eature power x vs Feature Power O3. Categorical value O vs Categorical Value X
13:14:31 -
엑셀 대시보드 만들기
pivot table 과 슬라이서만 잘 활용해도 비쥬얼라이즈 하는게 크게 어렵지 않음 회사에서 할때는 툴에 의지했다면 툴 없이도 할 줄 알아야 함 이전에 엑셀을 돌릴때는 큰 데이터를 그냥 숫자적으로 추세만 보는 것만 했는데 이렇게 정리하니까 한눈에 볼 수 있어서 좋음 개인용 컴에 빨리 단축키를 잘 설정해놔야겠다.
2024.12.23 -
KNN (K-Nearest Neighbors) 알고리즘
KNN(K-Nearest Neighbors, 최근접 이웃)은 지도학습(supervised learning)에서 사용되는 분류(classification) 및 회귀(regression) 알고리즘 점 사이의 유클리드 거리를 기반으로 검색 Usage : to filter out potential customers who are likely to be VIP memberspotential churn customers forecast of Diabetes K value: which is used to select the number of neighbors(nearest data points)small K value : reflects the traits of neighbors well, but include h..
2024.12.20 -
Logistic Regression
이진분류를 예측하는 머신러닝 알고리즘 로지스틱 회귀분석은 기본적으로는 종속변수가 두 개의 클래스를 갖는 범주형(binary classification 가능할 때) 일 때 분류기법지금은 0.5 기준으로 이진분류 되어있음 회귀(Regression)input : 연속값, 범주형 모두 가능output :연속값분류(classficiation) input : 연속값, 범주형 모두 가능output : 이산값(범주형) 이진 분류이면 sigmoid함수, 다중분류이면 softmax 함수를 포함해야 함 https://www.youtube.com/watch?v=bfHKPsrwupI수학적 이해를 위해서라면 위 동영상이 설명을 잘해줌... 결측치를 처리하는것 inpute missing value 1. data에 nan 갯수 ..
2024.12.19 -
리니어 리그레션 및 예측
data.drop(['sex','email'], axis =1)import statsmodels.api as samodel = sa.OLS(y_train, X_train) #이모듈은 y값을 먼저 넣어주어야 함model = model.fit() #훈련 시키기리니어 리그레션 모델 r squared: 클수록 좋은 모델 (1에 가까울수록) Adjusted : 변수의 가중치를 가지고 수치를 매겨줌 coefficient : 변수의 영향력(강도와 방향) - 데이터 스케일을 봐야 그 coeefieicnet 가 정말 impact 있는건지 알 수 있음. 숫자가지고는 크다 작다 말할 수 없음 R2 = 평균치, 베이스라인에서의 전체 에러에서 얼만큼 에러를 개선시킨것인가 를 퍼센트로 나타낸 값 (linear ..
2024.12.19 -
data 다루기
1. 기본 라이브러리 설정 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 2. 데이터 형태, null 값은 없는지 살펴보기data.info()data.describe() max 값과 75% 사이 value gap 이 크면 아웃라이어가 존재하는 것임 데이터 어떻게 처리할지 확인해야 함안쓸 데이터는 drop 시키기 3. 테스트 데이터 셋과 트레인 데이터 셋을 나누기 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)랜덤 샘플링 plt.figure(figsize=(10,10))sn..
2024.12.18