대한전자공학회 2024년도 학부생 논문 경진대회 발표 (장려상 수상)
1. 서론
- 기존 음성 → 얼굴 이미지 생성 연구들은 L1 Loss, GAN 구조, Knowledge Distillation 등을 사용해 오디오 인코더를 학습했었음
- 본 논문에서는 서로 다른 modal (오디오-이미지)간 깊은 상관 관계를 학습하기 위해 InfoNCE Loss 사용. (최근 multi-modal 연구에서 가장 많이 활용되는 손실함수임)
2. 본론
2.1 전체적인 추론 구조
- 최종 목표는 음성을 입력받아 음성에 어울리는 고해상도 얼굴 이미지를 생성하는 것임
2.2 고해상도 이미지 인코더 학습
$$
L=\sum^n_{i=1}|G(z^V_i)|1+l{vgg}(G(z^V_i),x^h_i)
$$
- 음성인코더를 학습하기 위해서 먼저 고해상도 이미지 인코더를 학습해야함
- 고해상도 이미지 인코더는 입력받은 이미지를 복원하는 구조로 학습됨
- 결과적으로 얼굴 특징을 추출하는 역할을 하게 됨
그림 2. 오디오 인코더 학습을 위한 pose 제거