Deep Learning 데이터 준비하기

728x90

이번 포스팅은 간단 개념만 정리한 것입니다!

* Class Imbalance 클래스 불균형

- 은행 거래 사기, 희귀 질병, 기계 분량음 등의 사례

- 이상 탐지 Anomaly Detection

* UnderSampling 과소표집 & OverSampling 과대표집

- 과소표집 : 다른 class에 비해 상대적으로 많이 나타나있는 class개수를 줄이는 것

- 과대표집 : 개수가 적은 클래스를 복제하는 것

* 회귀 Regression

- 여러개 특징을 통해 연속적인 숫자로 이루어진 정답 예측

- 영화 관객수, 축구선수연봉, 주식 가격 등

- 0과 1 예측하는 Logistic Regression => 이진 분류...?

* 분류 Classification

- 이진분류, 다중분류, 다중레이블분류

* 원핫 인코딩 One-Hot Encoding

하나 클래스만 1이고 나머지 클래스는 저누 0인 인코딩

* 교차 검증 Cross-Validation

모델의 타당성을 검증

- 학습 data : 모델 학습에 사용

- 검증 data : 모델 검증을 위해 사용, 주로 학습 도중 사용

- 테스트 data : 모델의 최종 성능 평가에 사용

- test data는 최종 평가 이전에는 사용하지 않기!!!

* K-Fold Cross-Validation

모델은 많은 데이터를 보여줄수록 성능이 좋아진다.

K-fold방법을 사용해 최대한 많은 데이터를 볼수 있도록 도와주자.

k는 주로 3~10을 사용한다.

728x90

Deep Learning 평가하기 (0)	2021.10.18
Deep Learning 학습하기 (0)	2021.10.18
딥러닝에 들어가기 앞서,, (0)	2021.10.15
[핵심 머신러닝] 머신러닝 및 인공지능 개요 (0)	2021.07.05
ლ개발 환경 갖추기 2탄 (pytorch, arnarconda, dlib 등)ლ (1)	2021.01.21

Hello Pchaewon!