본문 바로가기

STUDY/인공지능

Deep Learning 데이터 준비하기

728x90

이번 포스팅은 간단 개념만 정리한 것입니다!

 

* Class Imbalance 클래스 불균형

- 은행 거래 사기, 희귀 질병, 기계 분량음 등의 사례

- 이상 탐지 Anomaly Detection

 

* UnderSampling 과소표집 & OverSampling 과대표집

- 과소표집 : 다른 class에 비해 상대적으로 많이 나타나있는 class개수를 줄이는 것

- 과대표집 : 개수가 적은 클래스를 복제하는 것

 

* 회귀 Regression

- 여러개 특징을 통해 연속적인 숫자로 이루어진 정답 예측

- 영화 관객수, 축구선수연봉, 주식 가격 등

- 0과 1 예측하는 Logistic Regression => 이진 분류...? 

 

* 분류 Classification

- 이진분류, 다중분류, 다중레이블분류

 

* 원핫 인코딩 One-Hot Encoding

하나 클래스만 1이고 나머지 클래스는 저누 0인 인코딩

 

* 교차 검증 Cross-Validation

모델의 타당성을 검증

- 학습 data : 모델 학습에 사용

- 검증 data : 모델 검증을 위해 사용, 주로 학습 도중 사용

- 테스트 data : 모델의 최종 성능 평가에 사용

- test data는 최종 평가 이전에는 사용하지 않기!!!

 

* K-Fold Cross-Validation

모델은 많은 데이터를 보여줄수록 성능이 좋아진다.

K-fold방법을 사용해 최대한 많은 데이터를 볼수 있도록 도와주자.

k는 주로 3~10을 사용한다.

 

 

 

728x90