AI/Tip!
[데이터 전처리] 학습 전 데이터 처리
heheh
2021. 11. 30. 03:56
컬럼 중 특정 데이터 타입을 가진 컬럼 추출하기
list(data.select_dtypes(['object']).columns)
#or
data.columns.to_series().groupby(data.dtypes).groups
범주형 데이터를 인덱스로 라벨링
from sklearn.processing import LabelEncoder
model = LabelEncoder()
model.fit(data.column_str)
data.column_int = model.transform(data.column_str)
테스트 데이터 분리
from sklearn import *
X_train, y_train, X_test, y_test
= model_selection.train_test_split(data_X, data_Y, test_size=0.1, random_state=42)
print("train :", len(X_train), len(X_test))
print("test :", len(y_train), len(y_test))