data 다루기

data 다루기

2024. 12. 18. 23:20ㆍdata 공부/데이터전처리

1. 기본 라이브러리 설정

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

2. 데이터 형태, null 값은 없는지 살펴보기

data.info()

data.describe()

max 값과 75% 사이 value gap 이 크면 아웃라이어가 존재하는 것임

데이터 어떻게 처리할지 확인해야 함

안쓸 데이터는 drop 시키기

3. 테스트 데이터 셋과 트레인 데이터 셋을 나누기

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)

랜덤 샘플링

plt.figure(figsize=(10,10))
sns.scatterplot(x=y_test, y=pred)

테스트 값 한번 어떤 관계인지 살펴보기 (plot 그리기)

예측이 잘 되었다면 이런 regression line 이 그려짐 (x y가 상관관계가 있음을 나타냄 )

4. 테스트 에러 (MSE) 계산하기

from sklearn.metrics import mean_squared_error 
mean_squared_error(y_test, pred)

y_test = 실제값, pred = 데이터 예상값

결과 : 482.xxxx

이 결과 가지고서는 error 값이 높은지 낮은지 판단 못하고, 다른 모델이랑 비교해봐야 함

- #패스트캠퍼스 #패스트캠퍼스부트캠프 #데이터분석부트캠프

#데이터분석 #국비지원 #패스트캠퍼스데이터분석부트캠프

이러저러한 것들을 열심히 파보는 블로그