시기
요약
- 8x8 저해상도 이미지를 128x128 고해상도 이미지로 Super-Resolution 함에 있어서 음성 정보 활용
- 단순한 MLP 구조를 사용한 기존 논문과는 달리 Transformer 구조를 사용해 Fusion Network 구성
- PSNR, 성별 분류 평가에서 좋은 성능을 보임
역할
Fusion Network 구조
그림 2. Crossmodal Transformer 구조
그림 3. 최종 Fusion Network 구조
- 그림 2와 같이 Crossmodal Transformer를 활용
- 최종 구조는 그림 3과 같이 Crossmodal Transformer로 서로 다른 modality의 상관관계를 학습한 Fusion Latent Vector 얻은 뒤 MLP Layer를 통해 원하는 크기의 벡터로 최종 변환