본문 바로가기

STUDY

(136)
[시각화 ] 여러가지 템플릿 1. 가우시안 시각화 import seaborn as sns import matplotlib.pyplot as plt # 각 feature에 대한 분포를 시각화합니다. features = ['x1', 'x2', 'x3', 'x4', 'x5', 't1', 't2', 't3'] for feature in features: plt.figure(figsize=(8, 4)) sns.distplot(df[feature], kde=True, rug=True) # 가우시안 커널 밀도 추정 plt.title(f'Gaussian Distribution of {feature}') plt.show() 2. 상관관계 시각화 # 상관관계 매트릭스 계산 correlation_matrix = df.corr() # 상관관계 매트릭스 ..
[pandas] Series 기본 Series : 1차원 배열 DataFrame :2차원 배열 index : value 일대일 대응 {k:v} : 딕셔너리와 비슷한 구조 [딕셔너리에서 시리즈 변환 방법] import pandas as pd dict_data = {'a':1, 'b':2, 'c':3} sr = pd.Series(dict_data) # 시리즈로 변환 print(type(sr)) print('\n') print(sr) [인덱스] 정수형 위치 인덱스 인덱스 이름 / 인덱스 라벨 인덱스 배열 : Series객체.index 데이터 값 배열 : Series객체.values import pandas as pd list_data = ['2019-01-02', 3.14, 'ABC, 100, True] sr = pd.Series(list_d..
numpy 배열로 저장된 데이터 파일 .npy 불러오기 .npy 로 저장된 데이터 파일을 받았는데! 이런 형식은 처음이어서,..... 받자마자 당황했다. 로드 하는 방식은 아래와 같다.. import numpy as np # numpy.ndarray 로드 df_0 = np.load('/data1/hom1/ict12/keri/Sampling/data/label_0.npy') df_1 = np.load('/data1/hom1/ict12/keri/Sampling/data/label_1.npy') df_2 = np.load('/data1/hom1/ict12/keri/Sampling/data/label_2.npy')
Long-Tail Distribution Long-Tail Distribution(LTD)은 현실 세계의 데이터 셋에서 많이 발생하는 문제 모델이 다양한 task에서 좋은 성능을 내기 위해서는 각 class의 representation을 잘 학습하는 것이 중요 LTD를 개선하기 위한 방법에는 Re-sampling, Cost-Sensitive Learning, Transfer Learning, Representation Learning, Decoupled Training이 있음 [Re-Sampling] 1. Under-Sampling 2. Over-Sampling [Cost-Sensitive Learning] 클래스 별 loss 다르게 줌 [Transfer Learning] [Representation Learning]
'utf-8' codec can't decode byte 0xc0 in position 43: invalid start byte 해결방법 test = pd.read_csv(test_path, encoding='cp949') encoding = 'cp949'를 붙이면 됨
(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution 리뷰 * 논문은 아래 링크 참고!! https://doi.org/10.1609/aaai.v36i1.19904 * 요약 Low-Resolution Scene Text Images 문제 해결을 위해 제안됨 문제 해결을 위해 일부 제안된 모델들은 텍스트의 원자 단위인 stroke의 시각적 품질이 텍스트 인식에 중요한 역할을 한다는 것은 무시함 St lution 모듈 제안 TextZoom과 Degraded-IC13 데이터 셋에서 검증 코드 : https://github.com/FudanVI/FudanOCR/text-gestalt * 서론 저해상도 이미지의 누락된 세부 정보 복구를 위해 초고해상도 모듈이 전처리기로 필요함 기존 방식 PLugNet, TSRN, STT, TPGSR 등은 전역 손실 함수 (L1, L2 lo..
[머신러닝] 데이터 불균형 처리 방법 및 예제 코드 불균형한 데이터셋을 처리하는 데 도움이 되는 몇 가지 방법은 아래와 같습니다. 1. 언더샘플링 (Undersampling): 언더샘플링은 다수 클래스의 데이터를 일부만 샘플링하여 데이터셋을 균형있게 만드는 방법입니다. 이를 통해 다수 클래스의 데이터를 일부 제거함으로써 데이터셋의 클래스 비율을 조정할 수 있습니다. 그러나 이 방법은 정보 손실을 가져올 수 있으므로 적절한 샘플링 전략을 선택하는 것이 중요합니다. 2. 오버샘플링 (Oversampling): 오버샘플링은 소수 클래스의 데이터를 복제하거나 인공적으로 생성하여 데이터셋에 추가하는 방법입니다. 이를 통해 소수 클래스의 데이터를 늘림으로써 클래스 비율을 조정할 수 있습니다. 일반적으로 SMOTE (Synthetic Minority Over-samp..
[머신러닝] RandomForest, Boosting 모델 설명 및 예제 코드 [Random Forest] Random Forest는 앙상블 학습 기법 중 하나로 여러 개의 결정 트리를 생성하고 그들의 예측 결과를 조합하여 최종 예측을 수행하는 방법입니다. 결정 트리의 과적합 문제를 완화하며, 특히 특성 선택의 필요성을 줄여줍니다. 예제코드: from sklearn.ensemble import RandomForestClassifier # 데이터 로딩 및 전처리 생략 # 모델 학습 model = RandomForestClassifier() model.fit(X_train, y_train) # 모델 예측 y_pred = model.predict(X_test) [XGBoost] XGBoost는 Gradient Boosting 알고리즘을 기반으로 한 앙상블 학습 기법 입니다. Gradie..

728x90