* 논문은 아래 링크 참고!!
https://doi.org/10.1609/aaai.v36i1.19904
* 요약
- Low-Resolution Scene Text Images 문제 해결을 위해 제안됨
- 문제 해결을 위해 일부 제안된 모델들은 텍스트의 원자 단위인 stroke의 시각적 품질이 텍스트 인식에 중요한 역할을 한다는 것은 무시함
- St lution 모듈 제안
- TextZoom과 Degraded-IC13 데이터 셋에서 검증
- 코드 : https://github.com/FudanVI/FudanOCR/text-gestalt
* 서론
- 저해상도 이미지의 누락된 세부 정보 복구를 위해 초고해상도 모듈이 전처리기로 필요함
- 기존 방식 PLugNet, TSRN, STT, TPGSR 등은 전역 손실 함수 (L1, L2 loss)를 사용하여 텍스트 이미지의 모든 픽셀은 복구하려고 시도
- 하지만, 이러한 방법들은 텍스트 특정 속성을 고려하지 않고 일반적인 이미지로써 텍스트 이미지를 취급함
- 따라서, 본 논문은 게슈탈트 심리학에서 영감을 받아 보조 인식기에 의해 생성된 미세한 stroke 수준의 attention map을 복구를 위한 guide로 활용하는 방안을 제안
- 제안된 SFM은 훈련시에만 사용됨
* Main Contribution
- Stroke-Level에서 영어 문자와 숫자를 인식하기 위한 규칙을 설계하여 더 미세한 attention level의 guide를 제공하려고 노력함
- 게슈탈트 심리학에서 영감을 받아 Stroke-level의 attention map의 guide로 stroke 영역에 더 집중하는 Stroke-Focused Module을 제안
- 테스트 중 어떠한 시간 부담도 주지 않음
* 관련 연구
1. Single Image Super-Resolution
목표 : 저해상도 이미지를 기반으로 몇 가지 누락된 세부 사항을 복구하여 고해상도 이미지를 생성하는 것
- SRCNN (Dong et al. 2014): 첫 CNN 기반 방법으로, 얕은 네트워크를 통해 LR에서 HR 이미지로의 매핑을 학습하여 전통적인 방법보다 더 나은 성능을 달성했습니다.
- EDSR (Lim et al. 2017): 다수의 잔여 블록을 사용하여 더 나은 표현을 추출하고, 불필요한 배치 정규화 레이어를 제거하여 깊은 모델을 제안했습니다.
- MSRN (Li et al. 2018): 다양한 크기의 필터를 도입하여 다중 스케일 특징을 추출하였습니다.
2. Text Image Super-Resolution
- PlugNet (Yan and Huang 2020): 인식 및 초고해상도 분기를 하나의 모델에서 최적화하는 멀티태스크 프레임워크를 사용하여 더 나은 성능을 달성했습니다.
- TSRN (Wang et al. 2020): 두 개의 BLSTM을 포함하여 텍스트 이미지의 순차적 정보를 캡처하도록 설계되었습니다.
- STT (Chen, Li, and Xue 2021a): 위치-인식 모듈과 콘텐츠-인식 모듈을 도입하여 텍스트 우선 사항을 고려하였습니다.
- TPGSR (Ma, Guo, and Zhang 2021): 인코더에 텍스트 우선 사항을 결합하고 반복적인 방식을 사용하여 저해상도 이미지를 향상시켰습니다.
3. Scene Text Recognition
- 전통적인 방법들: 하향식 접근법을 사용하여 텍스트 이미지를 감지하고 분류한 후, 언어 모델이나 어휘 목록을 활용하여 텍스트 줄로 구성합니다.
- CRNN (Shi, Bai, and Yao 2016): CNN과 RNN을 결합하여 텍스트 이미지의 인코딩을 수행하고, CTC 기반 디코더를 활용하여 ground truth에 도달할 수 있는 경로의 확률을 최대화합니다.
- ASTER (Shi et al. 2018): Spatial Transformer Network (STN)을 활용하여 불규칙한 텍스트 이미지를 비지도 학습 방식으로 정정하여 더 나은 인식을 목표로 합니다.
- SEED (Qiao et al. 2020): 사전 훈련된 fastText 모델의 도움을 받아 텍스트 이미지의 전역 의미적 특징을 캡처하려고 합니다.
* 방법론
Pixel-wise Supervision Module
(1) CNN 레이어를 쌓아서 특징을 추출하기 위한 백본을 구축
(2) 여러 개의 CNN 레이어를 포함하는 픽셀 셔플 모듈을 사용하여 생성된 맵의 모양을 재구성
=> 결과적으로 더 큰 크기의 초해상도 이미지가 생성됨
=> 백본에는 SRCNN (Dong 등, 2014), SRResNet (Ledig 등, 2017), TSRN (Wang 등, 2020), TBSRN (Chen, Li 및 Xue, 2021a) 등 사용
(3) LR-HR 쌍 사이에 정렬 문제가 발생 해결을 위해 백본 앞에 STN (Jaderberg 등, 2015)을 추가
(4) L2 손실 학습
( $I_{SR}$ : Super-Resolution Image, $I_{HR}$ : High-Resolution Image)
Stroke-Level Decomposition
stroke : 어떤 언어든 문자의 원자 단위
각 문자를 스트로크 시퀀스로 분해하고 영어 문자, 숫자 및 중국 문자에 대한 스트로크 수준의 텍스트 라벨을 구성한다.
Decompose Chinese characters
중국 문자의 다섯 가지 기본 스트로크는 수평, 수직, 좌하각, 우하각 및 회전이다. 각 문자는 고유한 스트로크 시퀀스를 가지며 그림 3(b)를 통해 예시를 볼 수 있다.
Decompose English Characters and digits
아래와 같이 영어 문자 및 숫자에 대한 Stroke Encoding을 만든다.
(1) 그림 3(c)를 통해 알 수 있듯이 문자와 숫자를 더 단순화된 구조로 분해하고, 총 9가지의 기본 stroke로 나눈다
=> 인식 모델의 총 범주 수를 줄여 더 나은 학습 및 미세한 감독을 생성한다.
(2) 그림 3(d)를 통해 알 수 있듯이 각 문자를 이러한 기본 스트로크의 시퀀스로 나타낸다.
(3) 그림 3(e)를 통해 알 수 있듯이 각 문자의 스트로크 시퀀스를 연결하고 끝에 중지 심볼 "eos"를 패딩한다
또한, 중지 심볼을 나타내기 위해 범주 '0'을 사용한다.
=> 이렇게 함으로써 비슷한 문자들을 더 잘 구별할 수 있다.
Overall Loss Function
$L = L_{PSM} + \lambda L_{SFM}$