data 공부/데이터전처리(8)
-
data 다루기
1. 기본 라이브러리 설정 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 2. 데이터 형태, null 값은 없는지 살펴보기data.info()data.describe() max 값과 75% 사이 value gap 이 크면 아웃라이어가 존재하는 것임 데이터 어떻게 처리할지 확인해야 함안쓸 데이터는 drop 시키기 3. 테스트 데이터 셋과 트레인 데이터 셋을 나누기 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)랜덤 샘플링 plt.figure(figsize=(10,10))sn..
2024.12.18 -
파이썬을 활용한 데이터 전처리 1
Numpy 의 데이터 구조1) 인덱싱, 슬라이싱 1.1 2차원 배열의 경우에는 x2= np,.random.random(size = (10,5)) #10행짜리5열의 2차원 배열을 만들어라[column, row] 의 형태 print(x2[0,1]) #0행1렬값 중 하나를 난수로 받음 print(x2[1:4,2 ]) #행은첫번째부터 4번째까지, 열만 2번째 값print(x2[0,2:4]) #열은 0번째. 열은 2번째~4번째 값 1.2 리스트와 유니버셜 함수의 차이 => 효율성#리스트사용해서벡터 덧셈 구현import timeoutput = []for val1, val2 in zip(arr_1, arr_2): output.append(val1+val2)t2 = time.time()print(round(t2-52,..
2024.12.18