2024. 12. 26. 19:34ㆍdata 공부/데이터전처리
1. Random Forest
purpose of random forest: a machine learning algorithm that uses multiple decision trees to classify data into different categories
The random forest algorithm employs a technique called bagging (Bootstrap Aggregating)
어떤 데이터를 보냐에 따라 presicion, recall score 같이 봐야함
2. KMeans
데이터를 k개의 군집으로 묶는 알고리즘.
Unsupervised learning으로 label 이 사전에 알려져있지 않을 때 사용하는 알고리즘
데이터를 랜덤하게 묶고, 이들의 similarity 를 판단
최적의 Clustering 하는 방법
inertia 사용해보는 것인데, 윗처럼 4~6 사이에서 잘 모르겠을 때 실루엣 사용
silhouette coefficient : 개별 데이터가 할당된 군집 내 데이터와 얼마나 가깝게 군집화 되어있는지, 다른 군집에 있는 데이터와는 얼마나 멀리 분리되어 있는지 수치로 나타냄
-1에서 1로 1에 가까울수록 근처 군집과 멀리 떨어져있음, 0에 가까울 수록 근처 군집과 가까움을 의미
값이 크면 어느정도 잘 되었다고 판단하는데, 전체 실루엣 점수와 개별 군집의 평균값의 편차가 크지 않은 경우에만 성능이 좋다고 판단할 가능성이 생김.
6개의 군집으로 묶었을 때 가장 효과적인 clustering 이라는것을 알 수 있음
PCA (principal component analysis ) 사용
위에 데이터 항목은 4개였는데, 이를 2개씩 묶어서도 사용할 수 있음
6개의 군집 및 2개 데이터 항목으로 섞어서 나누었을 때 :
'data 공부 > 데이터전처리' 카테고리의 다른 글
데이터집계 cross tab (0) | 2025.01.06 |
---|---|
시계열 데이터 분석 (1) | 2024.12.27 |
지수 평활법(Exponential smoothing) (0) | 2024.12.24 |
Decision tree Classifier (0) | 2024.12.24 |
엑셀 대시보드 만들기 (0) | 2024.12.23 |