AI/Tip!

[데이터 전처리] 학습 전 데이터 처리

heheh 2021. 11. 30. 03:56

컬럼 중 특정 데이터 타입을 가진 컬럼 추출하기

list(data.select_dtypes(['object']).columns)
#or
data.columns.to_series().groupby(data.dtypes).groups

범주형 데이터를 인덱스로 라벨링

from sklearn.processing import LabelEncoder
model = LabelEncoder()
model.fit(data.column_str)
data.column_int = model.transform(data.column_str)

테스트 데이터 분리

from sklearn import *
X_train, y_train, X_test, y_test 
		= model_selection.train_test_split(data_X, data_Y, test_size=0.1, random_state=42)
print("train :", len(X_train), len(X_test))
print("test :", len(y_train), len(y_test))