data 공부/데이터전처리(11)
-
데이터집계 cross tab
데이터 전처리범주별 갯수 구하기pd.crosstab(df('a'), df('b')a 는 행 b는 열a에 따른 b가 몇개인지 범주별 비율 구하기pd.crosstab(df['a],df[b],normalize ='all'] 전체를 100이라고 봤을때 각 항목의 % pd.crosstab(df['a],df[b],normalize ='index']행을 100으로 놓고 봤을 때 각 항목의 % pd.crosstab(df['a],df[b],normalize ='columns']열을 100으로 놓고 봤을 때 각 항목의 % margins = True 추가 시, 행과 열의 합을 구할 수 있음pd.crosstab(df['a],df[b],normalize ='all', margins=True] 다중 인덱스, 다중 컬럼pd.c..
2025.01.06 -
시계열 데이터 분석
회사에서 맨날 하던건데, 예측을 하는 것은 항상 어려운 부분이 있다.이 안에 있는 원리를 내가 이해해야 한다. 그래프 그리는 것은 배우고, forecast 의 원리를 알아보자면 선형 회귀 분석을 추정하는 최소 제곱법(최소 자승법) 모델을 사용해, 일차방정식 y = ax+b 에서 계수 a값과 상수 b 값을 추정한 후, x 값의변화에 대응하는 y 값을 계산 따라서 그 결과값은 선형 추세선으로 그려짐 더 수치적으로 보완할 수 있는 기능을 봐야겠음 참고=FORECAST 는 배열 수식으로 입력할 필요가 없지만, TREND 는 배열 수식으로 반드시 입력해야 함
2024.12.27 -
Random Forest and Kmeans
1. Random Forest purpose of random forest: a machine learning algorithm that uses multiple decision trees to classify data into different categories The random forest algorithm employs a technique called bagging (Bootstrap Aggregating) 어떤 데이터를 보냐에 따라 presicion, recall score 같이 봐야함 2. KMeans 데이터를 k개의 군집으로 묶는 알고리즘. Unsupervised learning으로 label 이 사전에 알려져있지 않을 때 사용하는 알고리즘 데이터를 랜덤하게 묶고, 이들의 si..
2024.12.26 -
지수 평활법(Exponential smoothing)
single exponential smoothing future expected value = past real value * a + past predicted value * (1-a) Forecasting Formula:Ft+1F_{t+1}Ft+1: Forecast for the next period.XtX_tXt: Actual value at time ttt.FtF_tFt: Forecast value at time ttt.α\alphaα: Smoothing constant (0 ≤ α\alphaα ≤ 1).Smoothing Constant (α\alphaα):Determines the weight of recent observations versus older ones.A higher α\al..
2024.12.24 -
Decision tree Classifier
gini index : 0.5~ 0 사이, 숫자가 작을수록 한쪽으로 치우쳐진것 변수 이름들만 보면 지금 값에서는 조금 이해하기 힘들기 때문에 파라미터를 바꾸어줄 수 있음 plt.figure(figsize = (20,10))plot_tree(model, feature_names = X_train.columns) Decision tree vs Logistic regression1. non-parametric vs parametric2. eature power x vs Feature Power O3. Categorical value O vs Categorical Value X
2024.12.24 -
엑셀 대시보드 만들기
pivot table 과 슬라이서만 잘 활용해도 비쥬얼라이즈 하는게 크게 어렵지 않음 회사에서 할때는 툴에 의지했다면 툴 없이도 할 줄 알아야 함 이전에 엑셀을 돌릴때는 큰 데이터를 그냥 숫자적으로 추세만 보는 것만 했는데 이렇게 정리하니까 한눈에 볼 수 있어서 좋음 개인용 컴에 빨리 단축키를 잘 설정해놔야겠다.
2024.12.23