음성 정보를 활용한 얼굴 영상 초해상도 | Notion

시기

2023.08. ~ 2024.10.

요약

8x8 저해상도 이미지를 128x128 고해상도 이미지로 Super-Resolution 함에 있어서 음성 정보 활용
단순한 MLP 구조를 사용한 기존 논문과는 달리 Transformer 구조를 사용해 Fusion Network 구성
PSNR, 성별 분류 평가에서 좋은 성능을 보임

역할

개인 프로젝트

Fusion Network 구조

그림 2. Crossmodal Transformer 구조

그림 2. Crossmodal Transformer 구조

그림 3. 최종 Fusion Network 구조

그림 3. 최종 Fusion Network 구조

그림 2와 같이 Crossmodal Transformer를 활용
최종 구조는 그림 3과 같이 Crossmodal Transformer로 서로 다른 modality의 상관관계를 학습한 Fusion Latent Vector 얻은 뒤 MLP Layer를 통해 원하는 크기의 벡터로 최종 변환