본문 바로가기

STUDY/논문리뷰

(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution 리뷰

728x90

* 논문은 아래 링크 참고!! 

https://doi.org/10.1609/aaai.v36i1.19904

 

 

* 요약

  • Low-Resolution Scene Text Images 문제 해결을 위해 제안됨
  • 문제 해결을 위해 일부 제안된 모델들은 텍스트의 원자 단위인 stroke의 시각적 품질이 텍스트 인식에 중요한 역할을 한다는 것은 무시함
  • St  lution 모듈 제안
  • TextZoom과 Degraded-IC13 데이터 셋에서 검증
  • 코드 :  https://github.com/FudanVI/FudanOCR/text-gestalt

 

* 서론

  • 저해상도 이미지의 누락된 세부 정보 복구를 위해 초고해상도 모듈이 전처리기로 필요함
  • 기존 방식 PLugNet, TSRN, STT, TPGSR 등은 전역 손실 함수 (L1, L2 loss)를 사용하여 텍스트 이미지의 모든 픽셀은 복구하려고 시도
  • 하지만, 이러한 방법들은 텍스트 특정 속성을 고려하지 않고 일반적인 이미지로써 텍스트 이미지를 취급함
  • 따라서, 본 논문은 게슈탈트 심리학에서 영감을 받아 보조 인식기에 의해 생성된 미세한 stroke  수준의 attention map을 복구를 위한 guide로 활용하는 방안을 제안
  • 제안된 SFM은 훈련시에만 사용됨

 

* Main Contribution

  • Stroke-Level에서 영어 문자와 숫자를 인식하기 위한 규칙을 설계하여 더 미세한 attention level의 guide를 제공하려고 노력함
  • 게슈탈트 심리학에서 영감을 받아 Stroke-level의 attention map의 guide로 stroke 영역에 더 집중하는 Stroke-Focused Module을 제안
  • 테스트 중 어떠한 시간 부담도 주지 않음

 

* 관련 연구

1. Single Image Super-Resolution

   목표 : 저해상도 이미지를 기반으로 몇 가지 누락된 세부 사항을 복구하여 고해상도 이미지를 생성하는 것

  1. SRCNN (Dong et al. 2014): 첫 CNN 기반 방법으로, 얕은 네트워크를 통해 LR에서 HR 이미지로의 매핑을 학습하여 전통적인 방법보다 더 나은 성능을 달성했습니다.
  2. EDSR (Lim et al. 2017): 다수의 잔여 블록을 사용하여 더 나은 표현을 추출하고, 불필요한 배치 정규화 레이어를 제거하여 깊은 모델을 제안했습니다.
  3. MSRN (Li et al. 2018): 다양한 크기의 필터를 도입하여 다중 스케일 특징을 추출하였습니다.

 

2. Text Image Super-Resolution

  1. PlugNet (Yan and Huang 2020): 인식 및 초고해상도 분기를 하나의 모델에서 최적화하는 멀티태스크 프레임워크를 사용하여 더 나은 성능을 달성했습니다.
  2. TSRN (Wang et al. 2020): 두 개의 BLSTM을 포함하여 텍스트 이미지의 순차적 정보를 캡처하도록 설계되었습니다.
  3. STT (Chen, Li, and Xue 2021a): 위치-인식 모듈과 콘텐츠-인식 모듈을 도입하여 텍스트 우선 사항을 고려하였습니다.
  4. TPGSR (Ma, Guo, and Zhang 2021): 인코더에 텍스트 우선 사항을 결합하고 반복적인 방식을 사용하여 저해상도 이미지를 향상시켰습니다.

 

 3. Scene Text Recognition

  1. 전통적인 방법들: 하향식 접근법을 사용하여 텍스트 이미지를 감지하고 분류한 후, 언어 모델이나 어휘 목록을 활용하여 텍스트 줄로 구성합니다.
  2. CRNN (Shi, Bai, and Yao 2016): CNN과 RNN을 결합하여 텍스트 이미지의 인코딩을 수행하고, CTC 기반 디코더를 활용하여 ground truth에 도달할 수 있는 경로의 확률을 최대화합니다.
  3. ASTER (Shi et al. 2018): Spatial Transformer Network (STN)을 활용하여 불규칙한 텍스트 이미지를 비지도 학습 방식으로 정정하여 더 나은 인식을 목표로 합니다.
  4. SEED (Qiao et al. 2020): 사전 훈련된 fastText 모델의 도움을 받아 텍스트 이미지의 전역 의미적 특징을 캡처하려고 합니다.

 

* 방법론

Pixel-wise Supervision Module

(1) CNN 레이어를 쌓아서 특징을 추출하기 위한 백본을 구축
(2) 여러 개의 CNN 레이어를 포함하는 픽셀 셔플 모듈을 사용하여 생성된 맵의 모양을 재구성
=> 결과적으로 더 큰 크기의 초해상도 이미지가 생성됨 
=> 백본에는 SRCNN (Dong 등, 2014), SRResNet (Ledig 등, 2017), TSRN (Wang 등, 2020), TBSRN (Chen, Li 및 Xue, 2021a) 등 사용 


(3) LR-HR 쌍 사이에 정렬 문제가 발생 해결을 위해 백본 앞에 STN (Jaderberg 등, 2015)을 추가
(4) L2 손실 학습

( $I_{SR}$ : Super-Resolution Image, $I_{HR}$ : High-Resolution Image)

L2 Loss
그림 3

Stroke-Level Decomposition
stroke : 어떤 언어든 문자의 원자 단위
각 문자를 스트로크 시퀀스로 분해하고 영어 문자, 숫자 및 중국 문자에 대한 스트로크 수준의 텍스트 라벨을 구성한다.

Decompose Chinese characters
중국 문자의 다섯 가지 기본 스트로크는 수평, 수직, 좌하각, 우하각 및 회전이다. 각 문자는 고유한 스트로크 시퀀스를 가지며 그림 3(b)를 통해 예시를 볼 수 있다.

Decompose English Characters and digits
아래와 같이 영어 문자 및 숫자에 대한 Stroke Encoding을 만든다.
(1) 그림 3(c)를 통해 알 수 있듯이 문자와 숫자를 더 단순화된 구조로 분해하고, 총 9가지의 기본 stroke로 나눈다  
=> 인식 모델의 총 범주 수를 줄여 더 나은 학습 및 미세한 감독을 생성한다. 

(2) 그림 3(d)를 통해 알 수 있듯이 각 문자를 이러한 기본 스트로크의 시퀀스로 나타낸다. 
(3) 그림 3(e)를 통해 알 수 있듯이 각 문자의 스트로크 시퀀스를 연결하고 끝에 중지 심볼 "eos"를 패딩한다 
또한, 중지 심볼을 나타내기 위해 범주 '0'을 사용한다. 
=> 이렇게 함으로써 비슷한 문자들을 더 잘 구별할 수 있다. 

 

 

Overall Loss Function

$L = L_{PSM} + \lambda L_{SFM}$

728x90