본문으로 건너뛰기

🎞 브이로그 음악추천 시스템 VTS (Vlog To Sound)

개요

브이로그 영상을 자동으로 분석하여 어울리는 음악을 추천해주는 서비스 개발

프로젝트 진행 과정

전체적인 구상도

전체적인 프로젝트는 아래와 같이 세 부분으로 나뉩니다.

(1) VLOG 영상에 대한 Feature를 뽑아 내는 Video Captioning Model

(2) 캡셔닝 정보들을 이용해서 음악을 추출하는 Sentence to Music Model

(3) 해당 모델들을 통해서 사용자에게 접근할 수 있도록 만드는 웹 구현

각 파트에 대한 파이프라인은 다음과 같습니다.

1. Video Captioning Model

Bi-modal Transformer with Proposal Generator 모델을 활용하여, 사용자의 영상을 받아 VGGish 를 통해 Audio Feature를 가공하고, Inflated 3 dimension (I3D)를 활용하여 Visual Feature를 가공한다. 가공된 두 가지 Feautre들을 통해 Bi-Modal Attention을 활용하여 단어 임베딩 기법인 GloVe를 이용하여 캡셔닝 생성

2. Sentence To Music

캡셔닝 된 문장은 영상의 특성을 담고 있기 때문에 해당 캡셔닝 문장을 통해서 음악을 추천할 수 있도록 새로운 모델을 구성

해당 모델은 문장에서 자주 나오는 유사성을 K-means clustering 을 통해 클러스터 단위로 형성한뒤, TextRank와 Tagging을 이용한 output값과 Melon Data의 Tag 간의 유사성을 통해 음악을 추천함.

3. Web Development

Model을 preprocessing 하여 처리하는데 시간이 지나치게 오래 소요되기 때문에, Model을 통해 Captioning을 generating 하는 부분은 제외하고, Video를 업로드 해서 추천된 음악목록을 사용자에게 보여주는 것을 목표로 구현

프로젝트 결과