Recent
-
EDA
[시각화 ] 여러가지 템플릿
1. 가우시안 시각화 import seaborn as sns import matplotlib.pyplot as plt # 각 feature에 대한 분포를 시각화합니다. features = ['x1', 'x2', 'x3', 'x4', 'x5', 't1', 't2', 't3'] for feature in features: plt.figure(figsize=(8, 4)) sns.distplot(df[feature], kde=True, rug=True) # 가우시안 커널 밀도 추정 plt.title(f'Gaussian Distribution of {feature}') plt.show() 2. 상관관계 시각화 # 상관관계 매트릭스 계산 correlation_matrix = df.corr() # 상관관계 매트릭스 ..
-
EDA
[pandas] Series 기본
Series : 1차원 배열 DataFrame :2차원 배열 index : value 일대일 대응 {k:v} : 딕셔너리와 비슷한 구조 [딕셔너리에서 시리즈 변환 방법] import pandas as pd dict_data = {'a':1, 'b':2, 'c':3} sr = pd.Series(dict_data) # 시리즈로 변환 print(type(sr)) print('\n') print(sr) [인덱스] 정수형 위치 인덱스 인덱스 이름 / 인덱스 라벨 인덱스 배열 : Series객체.index 데이터 값 배열 : Series객체.values import pandas as pd list_data = ['2019-01-02', 3.14, 'ABC, 100, True] sr = pd.Series(list_d..
-
인공지능
numpy 배열로 저장된 데이터 파일 .npy 불러오기
.npy 로 저장된 데이터 파일을 받았는데! 이런 형식은 처음이어서,..... 받자마자 당황했다. 로드 하는 방식은 아래와 같다.. import numpy as np # numpy.ndarray 로드 df_0 = np.load('/data1/hom1/ict12/keri/Sampling/data/label_0.npy') df_1 = np.load('/data1/hom1/ict12/keri/Sampling/data/label_1.npy') df_2 = np.load('/data1/hom1/ict12/keri/Sampling/data/label_2.npy')
-
인공지능
Long-Tail Distribution
Long-Tail Distribution(LTD)은 현실 세계의 데이터 셋에서 많이 발생하는 문제 모델이 다양한 task에서 좋은 성능을 내기 위해서는 각 class의 representation을 잘 학습하는 것이 중요 LTD를 개선하기 위한 방법에는 Re-sampling, Cost-Sensitive Learning, Transfer Learning, Representation Learning, Decoupled Training이 있음 [Re-Sampling] 1. Under-Sampling 2. Over-Sampling [Cost-Sensitive Learning] 클래스 별 loss 다르게 줌 [Transfer Learning] [Representation Learning]
-
ERROR
'utf-8' codec can't decode byte 0xc0 in position 43: invalid start byte
해결방법 test = pd.read_csv(test_path, encoding='cp949') encoding = 'cp949'를 붙이면 됨