본문 바로가기

STUDY/논문리뷰

(CVPR 2022) A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution 리뷰 및 공부

728x90

[Introduction]

 - Scene Text Image Super Resolution 목표 : 저해상도 이미지에서 텍스트의 해상도와 가독성을 높이는 것

 

 - CNN 기반 방법 : 공간적으로 변형되거나 회전되고 곡선 모양의 텍스트에 대한 고해상도 이미지 재구성의 한계를 지님 

                              > > local기반 연산을 채택하고 있기 때문에 변형으로 인한 변동 처리에 효과적이지 않음

 

 - 본 논문 : 위 문제를 해결하기 위해 CNN 기반의 TATT(Text ATTention network)를 제안

                  1. text의 semantics는 text recognition module에 의해 text prior로 추출됨.

                  2. text reconstruction process에 prior text의 semantic guidance를 삽입하는 global attention mechanism 활용

                  3. visual appearance 개선을 위한 text structure consistency loss를 제안

 

 

[Related Work] - 생략

1. Single Image Supe Resolution (SISR)

2. Scene Text Image Super Resolution

3. Scene Text Recognition

 

[Proposed Method]

 - Overall Architecture

   입력 : Low Resolution Text Images $Y \in  R^{h \times w \times 3} $

 

    1) First path $f_{p} = TPG(Y)$

        - LR images를 입력으로 받아 TPG 모듈을 지남

        - TPG 모듈을 통해 text prior $f_{p} \in  R^{l \times |A|}$를 output으로 얻음 

        - $R^{l \times |A|}$는 $|A|$ 크기의 categorical probability vector로 구성된 $l$길이의 sequence임

        - A는 '0'~'9', 'a'~'z', blank class로 구성됨

 

   2) Second path $f_{I} = Conv(Y)$

        - LR images를 입력으로 받아 9X9 convolutional layer를 지남

        - Conv 를 통해 image features $f_{I} \in  R^{h \times w \times c}$를 추출함

 

   3) TP Interpreter  $f_{TM} = TPI(f_{p}, f_{I})$

        - First path TPG를 통해 나온 text prior $f_{p}$와 image features $f_{I}$를 입력으로 받음

        - $f_{p}$와 $f_{I}$의 correlation을 계산함

        - $f_{p}$로 recognition probability sequence 예측

        - 최종 SR Text 복구를 guide 하기 위해 spatial domain안에 해당 위치에 $f_{p}$의 semantic guidance를 할당함

        - correlation 계산을 통해 TP map $f_{TM} \in  R^{h \times w \times c}$를 output으로 얻음

        - TP map $f_{TM}$은 image feature의 semantics-specific part를 향상시키는데 사용할 수 있는 modulating map임

 

  4) TPGBs

        - TP map $f_{TM}$과 image features $f_{I}$를 입력으로 받음

        - TP map $f_{TM}$과 image features $f_{I}$를 점진적으로 융합하는 5개의 TPGB(Text Prior Guided Block)와 해상도를 높이는 최종 Pixel Shuffle 레이어가 포함됨

        - 5개의 TPGB 각각은 element-wise addition을 통해 고해상도 이미지 feature로 재구성함

        - 최종적인 output은 SR text image 

 

   출력 : Super Resolution Text Images

 

[Proposed Method - TP Interpreter 자세히]

  - text prior $f_{P}$와 image features $f_{I}$를 입력으로 받음

  - $f_{P}$를 $f_{I}$ 모양으로 확대한 후 convolution으로 변합

  - convolution은 local 단위 이므로 $f_{P}$의미를 $f_{I}$의 먼 region으로 할당하지 않음

  - 위 문제를 해결하기 위해 attention mechanism을 적용한 Transformer TPI를 설계하여 $f_{P}$, $f_{I}$사이 global correlation 적용

  - TPI는 위 그림처럼 Encoder와 Decoder로 구성됨

 

 1. Encoder

  - $f_{P}$ 각 문자 의미 correlation을 수행

  - Encoder에 $f_{P}$를 공급하기전 Sinusoidal Positional Encoding(FPE)를 사용하여 인코딩

  - 인코딩된 $f_{P}$는 Multi-head Self-Attention(MSA)를 지나 sematic 요소들 사이의 global correlation을 수행하고 FFN을 지나 문맥적으로 향상된 context-enhanced TP  feature $f_{E} \in  R^{z \times c}$를 생성

 

 2. Decoder

  - Encoder output $f_{E}$와 image features $f_{I}$를 입력으로 받아 global cross attention 수행한 출력을 얻음

  - image feature $f_{I}$는 Recurrent Positional Encoding(RPE)를 통해 수평 방향에서 이미지 feature의 순차적 종속성에 포함된 bias를 인코딩할 수 있게 함

  - 이러한 RPE는 주변 context를 더 잘 학습하도록 함

  - 그 후, $f_{E}$, $f'_{I}$사이의 cross attention 작업을 수행하는 Multi-head Cross Attention(MCA)계층을 지나면서 두 입력을 처리함

 

  - $f_{E}$와 $f'_{I}$의 feature는 channel 차원에서 n개 하위 그룹으로 나누미

  - $f_{E}$와 $f'_{I}$의 i번째 그룹에 대해 cross attention 연산 $CA_{i}$가 수행됨

  - 본 논문에서 SM은 softmax로 언급됨

  - $CA_{i}$를 channel-wise connection과 linear projection $W^{o}$으로 처리함 

  - MCA 출력은 feature개선을 위해 FFN을 통과함

  - MCA operation을 사용해 $f_{E}$는 $f'_{I}$효과적으로 해석됨

  -  Spatial domain안에 의미있는 영역들은 TP map $f_{TM}$에서 강력해짐

  - 이는 sematic text reconstruction을 위한 이미지 feature modulation에 사용될 수 있음

 

[Text Structure Consistency Loss]

- 추후 작성

728x90