본문 바로가기

STUDY/논문리뷰

(7)
(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution 리뷰 * 논문은 아래 링크 참고!! https://doi.org/10.1609/aaai.v36i1.19904 * 요약 Low-Resolution Scene Text Images 문제 해결을 위해 제안됨 문제 해결을 위해 일부 제안된 모델들은 텍스트의 원자 단위인 stroke의 시각적 품질이 텍스트 인식에 중요한 역할을 한다는 것은 무시함 St lution 모듈 제안 TextZoom과 Degraded-IC13 데이터 셋에서 검증 코드 : https://github.com/FudanVI/FudanOCR/text-gestalt * 서론 저해상도 이미지의 누락된 세부 정보 복구를 위해 초고해상도 모듈이 전처리기로 필요함 기존 방식 PLugNet, TSRN, STT, TPGSR 등은 전역 손실 함수 (L1, L2 lo..
(2022 preprint) C3-STISR: Scene Text Image Super-resolution with Triple Clues [Proposed Method] - 본 논문은 C3-STISR을 제안 1. triple-clue guided super-resolution 2. triple clues에 대한 추출과 fusion 요소 - 위 1., 2.에 대해 본 논문에서는 소개함 low-resolutionimage $I_{LR} \in R^{CXN}$ C : 각 이미지의 channel의 수 $N = H \times W$ 는 collapsed sparial dimension [Proposed Method - Overview] 본 논문의 목표 : 입력 LR image $I_{LR}$과 몇몇 text-specific clue $h_t$를 기반으로 $I_{SR} \in R^{C \times (4 \times N)}$ 초해상화 이미지를 만드는 ..
(NeurIPS 2015) Spatial Transformer Networks * 논문 링크 : https://arxiv.org/pdf/1506.02025v3.pdf 아직은 논문을 읽기 전 상태로, 아래 링크의 블로그를 번역 정리한 내용을 작성하였음 논문은 추후 읽고 정리할 예정 https://towardsdatascience.com/review-stn-spatial-transformer-network-image-classification-d3cbd98a70aa Spatial Transformer Networks는 Google DeepMind에서 만든 Network임 적절한 영역을 자르고 스케일 정규화하는 데 도움이 되어 분류 작업을 단순화하고 더 나은 성능을 보여줌 본 논문은 Spatial Transform을 신경망으로 처리함 학습 기반 공간 변환에서 입력 또는 feature m..
(CVPR 2023) Learning Generative Structure Prior for Blind Text Image Super-resolution 리뷰 [Background] 1. Degradation ImageNet Challenging에서 depth를 늘리는 것만으로도 성능이 향상됨을 보여주었으나, 실제로는 depth는 어느정도 상승하다가 일정 시점을 넘어서면 vanishing/exploding gradient 문제를 발생시킴 이와 같이 depth가 깊은 상태에서 학습을 많이 진행한 경우 weight들의 분포가 균등하지 않고 역전파시 기울기가 충분하지 않아 안정적인 학습을 할 수 없게 하는 문제를 degradation 문제라고 함 [Related Work] 1. Blind Image SR - degradation estimation - establishing more realistic training data 위와 관련한 연구의 paradigm은 아..
(CVPR 2022) A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution 리뷰 및 공부 [Introduction] - Scene Text Image Super Resolution 목표 : 저해상도 이미지에서 텍스트의 해상도와 가독성을 높이는 것 - CNN 기반 방법 : 공간적으로 변형되거나 회전되고 곡선 모양의 텍스트에 대한 고해상도 이미지 재구성의 한계를 지님 > > local기반 연산을 채택하고 있기 때문에 변형으로 인한 변동 처리에 효과적이지 않음 - 본 논문 : 위 문제를 해결하기 위해 CNN 기반의 TATT(Text ATTention network)를 제안 1. text의 semantics는 text recognition module에 의해 text prior로 추출됨. 2. text reconstruction process에 prior text의 semantic guidance를..
(Neurocomputing 2022) SRDiff : Single image super-resolution with diffusion probabilistic models 리뷰 및 공부 * 논문 링크 https://www.sciencedirect.com/science/article/pii/S0925231222000522 SRDiff: Single image super-resolution with diffusion probabilistic models Single image super-resolution (SISR) aims to reconstruct high-resolution (HR) images from given low-resolution (LR) images. It is an ill-posed problem… www.sciencedirect.com * 저널 정보 SRDiff는 작년 논문으로 Neurocomputing에 발표된 논문이다. Neurocomputing이라는 저널은 처음..
(CVPR 2021) Found a Reason for me? Weakly Grounded Visual Question Answering using Capsules 리뷰 안녕하세요. 오늘 리뷰할 논문은 "Found a Reason for me? Weakly Grounded Visual Question Answering using Capsules" 입니다. 이 논문은 2021년 CVPR에서 발표된 논문입니다! 원본 링크는 아래 링크를 참고해주세요!! >>> 논문 링크

728x90