data 다루기
1. 기본 라이브러리 설정 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 2. 데이터 형태, null 값은 없는지 살펴보기data.info()data.describe() max 값과 75% 사이 value gap 이 크면 아웃라이어가 존재하는 것임 데이터 어떻게 처리할지 확인해야 함안쓸 데이터는 drop 시키기 3. 테스트 데이터 셋과 트레인 데이터 셋을 나누기 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)랜덤 샘플링 plt.figure(figsize=(10,10))sn..
2024.12.18