heheh
히히
heheh
전체 방문자
오늘
어제
  • 히히 (75)
    • AI (14)
      • Model (Study) (3)
      • Model (Paper) (7)
      • Tip! (4)
    • Backend (3)
      • ASP.NET (1)
      • Spring (2)
      • program (0)
      • JAVA (0)
    • Program (11)
      • Docker (3)
      • Github (5)
      • AWS (3)
    • OS (1)
      • Window (1)
      • Linux (0)
    • Python (14)
      • Python Lib (11)
      • Pytorch (1)
      • Tensorflow (1)
      • 크롤링 (1)
    • Spark (3)
      • Scala (2)
      • Pyspark (0)
      • SQL (1)
    • IOS (Swift) (0)
      • 기본 개념 (0)
    • 프로젝트 (3)
      • [AI] GAN (0)
      • [IOS] Swift (3)
      • [AI] 추천시스템 (0)
    • 분석 (1)
    • 알고리즘 풀이 (22)
      • 백준 (22)
    • 기타 (3)
      • 장비세팅 (3)
      • 소개 (0)

인기 글

최근 글

최근 댓글

hELLO · Designed By 정상우.
heheh

히히

AI/Tip!

[데이터 전처리] 학습 전 데이터 처리

2021. 11. 30. 03:56

컬럼 중 특정 데이터 타입을 가진 컬럼 추출하기

list(data.select_dtypes(['object']).columns)
#or
data.columns.to_series().groupby(data.dtypes).groups

범주형 데이터를 인덱스로 라벨링

from sklearn.processing import LabelEncoder
model = LabelEncoder()
model.fit(data.column_str)
data.column_int = model.transform(data.column_str)

테스트 데이터 분리

from sklearn import *
X_train, y_train, X_test, y_test 
		= model_selection.train_test_split(data_X, data_Y, test_size=0.1, random_state=42)
print("train :", len(X_train), len(X_test))
print("test :", len(y_train), len(y_test))

'AI > Tip!' 카테고리의 다른 글

[환경] CUDA 설치  (0) 2022.04.17
[장비] 딥러닝 환경 구축하기 : CPU 환경  (0) 2021.11.29
[환경] 딥러닝 RAM 부족, 메모리 부족  (0) 2021.03.12
    heheh
    heheh

    티스토리툴바