STUDY/인공지능
Deep Learning 데이터 준비하기
채소보끔
2021. 10. 15. 22:39
728x90
이번 포스팅은 간단 개념만 정리한 것입니다!
* Class Imbalance 클래스 불균형
- 은행 거래 사기, 희귀 질병, 기계 분량음 등의 사례
- 이상 탐지 Anomaly Detection
* UnderSampling 과소표집 & OverSampling 과대표집
- 과소표집 : 다른 class에 비해 상대적으로 많이 나타나있는 class개수를 줄이는 것
- 과대표집 : 개수가 적은 클래스를 복제하는 것
* 회귀 Regression
- 여러개 특징을 통해 연속적인 숫자로 이루어진 정답 예측
- 영화 관객수, 축구선수연봉, 주식 가격 등
- 0과 1 예측하는 Logistic Regression => 이진 분류...?
* 분류 Classification
- 이진분류, 다중분류, 다중레이블분류
* 원핫 인코딩 One-Hot Encoding
하나 클래스만 1이고 나머지 클래스는 저누 0인 인코딩
* 교차 검증 Cross-Validation
모델의 타당성을 검증
- 학습 data : 모델 학습에 사용
- 검증 data : 모델 검증을 위해 사용, 주로 학습 도중 사용
- 테스트 data : 모델의 최종 성능 평가에 사용
- test data는 최종 평가 이전에는 사용하지 않기!!!
* K-Fold Cross-Validation
모델은 많은 데이터를 보여줄수록 성능이 좋아진다.
K-fold방법을 사용해 최대한 많은 데이터를 볼수 있도록 도와주자.
k는 주로 3~10을 사용한다.
728x90