[Proposed Method]
- 본 논문은 C3-STISR을 제안
1. triple-clue guided super-resolution
2. triple clues에 대한 추출과 fusion 요소
- 위 1., 2.에 대해 본 논문에서는 소개함
low-resolutionimage ILR∈RCXN
C : 각 이미지의 channel의 수
N=H×W 는 collapsed sparial dimension
[Proposed Method - Overview]
본 논문의 목표 : 입력 LR image ILR과 몇몇 text-specific clue ht를 기반으로 ISR∈RC×(4×N) 초해상화 이미지를 만드는 것

C3-STISR의 아키텍처는 주요한 두 가지 요소가 있음
1. triple-guided super-resolution backbone fSR : super-resolution image ISR=fSR(ILR,ht)를 생성하기 위해 ISR과 ht를 가짐
2. clue generator fCG : super-resolution을 안내하기 위한 clue ht를 생성
fCG에는 두가지 subcomponents가 있음
1) clue extraction branch fCE
- 이는 ILR과 함께 recognizer R의 feedback에 대한 인식 단서hrec, 시각 단서hvis, 언어 단서hling를 생성
: hrec,hvis,hling=fCE(R(ILR)
2) clue fusion branch fCF
- 생성된 삼중 clue를 융합하여 초해상화를 위한 comprehensive clue ht를 생성
: ht=fCF(hrec,hvis,hling)
모델 훈련 동안, 각 훈련된 LR image의 HR image(ground truth)는 pixel을 평가하기 위한 감독과 text-specific losses로 주어짐
[Proposed Method - Triple-clue Guided Super-Resolution Backbone]
1. TextZoom 데이터 세트에서 HR-LR 쌍은 사람이 수동으로 자르므로 여러 픽셀 수준의 offset이 발생할 수 있음. 따라서, 이전 작업에 이어 STN으로 시작
2. ht의 guidance를 따라 ILR를 복구하기 위해 5개의 수정된 TSRN Block이 사용됨
3. pixel shuffle 모듈을 적용하여 초고해상도 이미지를 재구성함
4. 두가지 다른 손실 Lpix, Ltxt는 각 pixel 및 text별 감돌을 제공하는 데 사용됨
L2 pixel loss Lpix 및 text focuss loss Ltxt는 trafe-off fidelity와 recognition performance를 위함
Lpix=||IHR−ISR||2
Ltxt=λ1a||AHR−ASR||1+λ2KL(pSR,pHR)
A : attention map
p : fixed transformer-based rocognizer에 의해 예측된 probability distribution
[Proposed Method - Clue Generator]
이 모듈의 목표 : comprehensive clue ht를 생성하는 것
- triple cross-modal clues(recognition clue hrec, visual clue hvis, linguistical clue hling)를 분할 정복 방식(divide-and conquer manner)으로 추출
- 그리고, 이를 융합하여 ht 출력
1. Clue Extraction Branch
1) hrec extraction
- recognizer R에 의해 예측된 probability distribution으로 부터 계산됨
hrec=frec(R(ILR))
R(ILR)∈RL×|A|,hrec∈RC′×N
- C′,L,|A| : hidden state의 channel 수, 최대 예측된 길이, 알파벳 A의 길이
- frec:=RL×|A|→RC′×N 는 pixel feature map에 probability distribution R(ILR)을 변형하는 processing network이며, 불특정 정보를 마스킹 함으로써 error reduction을 수행함
- processing network은 projection network(batch normalization, bilinear interpolation 포함)과 deformable spatiotemporal attention (DSTA) block을 통해 설명됨
- DSTA block : 불특정한 정보를 마스킹하기 위해 spatial attention map을 계산하는 powerful deformable convolution을 이용함
- recognizer의 성능이 hrec에 크게 영향을 미칠 수 있음을 고려해 인식기 R을 fine tune하기 위해 distillation loss를 채택함
Lrec=k1||R(ILR)−R(IHR)||1+k2KL(R(ILR),R(IHR))
2) hvis extraction
- 예측된 확률 분포 R(ILR)가 주어졌을 때, visual clue 추출의 목적은 I_{LR}의 인식 결과로 부터 유도된 텍스트 이미지의 시각적 정보를 생성하는 것
- decoding function fde:=RL×|A|→NL은 확률 분포를 텍스트 문자열로 디코딩한 다음 text image를 - 그리기 위해 skeleton painter fsp:=NL→RC×N를 활용함
- 그려진 텍스트 이미지는 인식한 텍스트의 골격을 나타냄
---
뒷 내용 추후 작성