Random Forest and Kmeans

2024. 12. 26. 19:34data 공부/데이터전처리

1. Random Forest 

purpose of random forest: a machine learning algorithm that uses multiple decision trees to classify data into different categories

출처 : geeksforgeeks

 

 

The random forest algorithm employs a technique called bagging (Bootstrap Aggregating) 

 

random forest code

 

 

어떤 데이터를 보냐에 따라 presicion, recall score 같이 봐야함 

2. KMeans 

데이터를 k개의 군집으로 묶는 알고리즘. 

Unsupervised learning으로 label 이 사전에 알려져있지 않을 때 사용하는 알고리즘 

 

데이터를 랜덤하게 묶고, 이들의 similarity 를 판단

최적의 Clustering 하는 방법 

 

inertia 사용해보는 것인데, 윗처럼 4~6 사이에서 잘 모르겠을 때 실루엣 사용

 

silhouette coefficient : 개별 데이터가 할당된 군집 내 데이터와 얼마나 가깝게 군집화 되어있는지, 다른 군집에 있는 데이터와는 얼마나 멀리 분리되어 있는지 수치로 나타냄

-1에서 1로 1에 가까울수록 근처 군집과 멀리 떨어져있음, 0에 가까울 수록 근처 군집과 가까움을 의미

값이 크면 어느정도 잘 되었다고 판단하는데, 전체 실루엣 점수와 개별 군집의 평균값의 편차가 크지 않은 경우에만 성능이 좋다고 판단할 가능성이 생김. 

 

 

 

6개의 군집으로 묶었을 때 가장 효과적인 clustering 이라는것을 알 수 있음 

 

PCA (principal component analysis ) 사용 

 

위에  데이터 항목은 4개였는데, 이를 2개씩 묶어서도 사용할 수 있음 

 

6개의 군집 및 2개 데이터 항목으로 섞어서 나누었을 때 :

'data 공부 > 데이터전처리' 카테고리의 다른 글

데이터집계 cross tab  (0) 2025.01.06
시계열 데이터 분석  (1) 2024.12.27
지수 평활법(Exponential smoothing)  (0) 2024.12.24
Decision tree Classifier  (0) 2024.12.24
엑셀 대시보드 만들기  (0) 2024.12.23