(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution 리뷰

728x90

* 논문은 아래 링크 참고!!

https://doi.org/10.1609/aaai.v36i1.19904

* 요약

Low-Resolution Scene Text Images 문제 해결을 위해 제안됨
문제 해결을 위해 일부 제안된 모델들은 텍스트의 원자 단위인 stroke의 시각적 품질이 텍스트 인식에 중요한 역할을 한다는 것은 무시함
St lution 모듈 제안
TextZoom과 Degraded-IC13 데이터 셋에서 검증
코드 : https://github.com/FudanVI/FudanOCR/text-gestalt

* 서론

저해상도 이미지의 누락된 세부 정보 복구를 위해 초고해상도 모듈이 전처리기로 필요함
기존 방식 PLugNet, TSRN, STT, TPGSR 등은 전역 손실 함수 (L1, L2 loss)를 사용하여 텍스트 이미지의 모든 픽셀은 복구하려고 시도
하지만, 이러한 방법들은 텍스트 특정 속성을 고려하지 않고 일반적인 이미지로써 텍스트 이미지를 취급함
따라서, 본 논문은 게슈탈트 심리학에서 영감을 받아 보조 인식기에 의해 생성된 미세한 stroke 수준의 attention map을 복구를 위한 guide로 활용하는 방안을 제안
제안된 SFM은 훈련시에만 사용됨

* Main Contribution

Stroke-Level에서 영어 문자와 숫자를 인식하기 위한 규칙을 설계하여 더 미세한 attention level의 guide를 제공하려고 노력함
게슈탈트 심리학에서 영감을 받아 Stroke-level의 attention map의 guide로 stroke 영역에 더 집중하는 Stroke-Focused Module을 제안
테스트 중 어떠한 시간 부담도 주지 않음

* 관련 연구

1. Single Image Super-Resolution

목표 : 저해상도 이미지를 기반으로 몇 가지 누락된 세부 사항을 복구하여 고해상도 이미지를 생성하는 것

SRCNN (Dong et al. 2014): 첫 CNN 기반 방법으로, 얕은 네트워크를 통해 LR에서 HR 이미지로의 매핑을 학습하여 전통적인 방법보다 더 나은 성능을 달성했습니다.
EDSR (Lim et al. 2017): 다수의 잔여 블록을 사용하여 더 나은 표현을 추출하고, 불필요한 배치 정규화 레이어를 제거하여 깊은 모델을 제안했습니다.
MSRN (Li et al. 2018): 다양한 크기의 필터를 도입하여 다중 스케일 특징을 추출하였습니다.

2. Text Image Super-Resolution

PlugNet (Yan and Huang 2020): 인식 및 초고해상도 분기를 하나의 모델에서 최적화하는 멀티태스크 프레임워크를 사용하여 더 나은 성능을 달성했습니다.
TSRN (Wang et al. 2020): 두 개의 BLSTM을 포함하여 텍스트 이미지의 순차적 정보를 캡처하도록 설계되었습니다.
STT (Chen, Li, and Xue 2021a): 위치-인식 모듈과 콘텐츠-인식 모듈을 도입하여 텍스트 우선 사항을 고려하였습니다.
TPGSR (Ma, Guo, and Zhang 2021): 인코더에 텍스트 우선 사항을 결합하고 반복적인 방식을 사용하여 저해상도 이미지를 향상시켰습니다.

3. Scene Text Recognition

전통적인 방법들: 하향식 접근법을 사용하여 텍스트 이미지를 감지하고 분류한 후, 언어 모델이나 어휘 목록을 활용하여 텍스트 줄로 구성합니다.
CRNN (Shi, Bai, and Yao 2016): CNN과 RNN을 결합하여 텍스트 이미지의 인코딩을 수행하고, CTC 기반 디코더를 활용하여 ground truth에 도달할 수 있는 경로의 확률을 최대화합니다.
ASTER (Shi et al. 2018): Spatial Transformer Network (STN)을 활용하여 불규칙한 텍스트 이미지를 비지도 학습 방식으로 정정하여 더 나은 인식을 목표로 합니다.
SEED (Qiao et al. 2020): 사전 훈련된 fastText 모델의 도움을 받아 텍스트 이미지의 전역 의미적 특징을 캡처하려고 합니다.

* 방법론

Pixel-wise Supervision Module

(1) CNN 레이어를 쌓아서 특징을 추출하기 위한 백본을 구축
(2) 여러 개의 CNN 레이어를 포함하는 픽셀 셔플 모듈을 사용하여 생성된 맵의 모양을 재구성
=> 결과적으로 더 큰 크기의 초해상도 이미지가 생성됨
=> 백본에는 SRCNN (Dong 등, 2014), SRResNet (Ledig 등, 2017), TSRN (Wang 등, 2020), TBSRN (Chen, Li 및 Xue, 2021a) 등 사용

(3) LR-HR 쌍 사이에 정렬 문제가 발생 해결을 위해 백본 앞에 STN (Jaderberg 등, 2015)을 추가
(4) L2 손실 학습

( $I_{SR}$ : Super-Resolution Image, $I_{HR}$ : High-Resolution Image)

Stroke-Level Decomposition
stroke : 어떤 언어든 문자의 원자 단위
각 문자를 스트로크 시퀀스로 분해하고 영어 문자, 숫자 및 중국 문자에 대한 스트로크 수준의 텍스트 라벨을 구성한다.

Decompose Chinese characters
중국 문자의 다섯 가지 기본 스트로크는 수평, 수직, 좌하각, 우하각 및 회전이다. 각 문자는 고유한 스트로크 시퀀스를 가지며 그림 3(b)를 통해 예시를 볼 수 있다.

Decompose English Characters and digits
아래와 같이 영어 문자 및 숫자에 대한 Stroke Encoding을 만든다.
(1) 그림 3(c)를 통해 알 수 있듯이 문자와 숫자를 더 단순화된 구조로 분해하고, 총 9가지의 기본 stroke로 나눈다
=> 인식 모델의 총 범주 수를 줄여 더 나은 학습 및 미세한 감독을 생성한다.

(2) 그림 3(d)를 통해 알 수 있듯이 각 문자를 이러한 기본 스트로크의 시퀀스로 나타낸다.
(3) 그림 3(e)를 통해 알 수 있듯이 각 문자의 스트로크 시퀀스를 연결하고 끝에 중지 심볼 "eos"를 패딩한다
또한, 중지 심볼을 나타내기 위해 범주 '0'을 사용한다.
=> 이렇게 함으로써 비슷한 문자들을 더 잘 구별할 수 있다.

Overall Loss Function

$L = L_{PSM} + \lambda L_{SFM}$

728x90

'STUDY > 논문리뷰' 카테고리의 다른 글

(2022 preprint) C3-STISR: Scene Text Image Super-resolution with Triple Clues (0)	2023.06.15
(NeurIPS 2015) Spatial Transformer Networks (0)	2023.05.24
(CVPR 2023) Learning Generative Structure Prior for Blind Text Image Super-resolution 리뷰 (0)	2023.05.23
(CVPR 2022) A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution 리뷰 및 공부 (0)	2023.05.23
(Neurocomputing 2022) SRDiff : Single image super-resolution with diffusion probabilistic models 리뷰 및 공부 (0)	2023.04.20

Hello Pchaewon!

(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution 리뷰

'STUDY > 논문리뷰' 카테고리의 다른 글

티스토리툴바

(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution 리뷰

'STUDY > 논문리뷰' 카테고리의 다른 글

'STUDY/논문리뷰' Related Articles

티스토리툴바