딥러닝 보컬로이드

기존 CeVIO Creative Studio에 음성합성 기술을 제공하던 테크노스피치와 나고야 공업대학이 2시간어치 노래 데이터를 학습시켜 만든 일종의 “딥러닝 보컬로이드”. (물론 엄밀히는 “보컬로이드”는 야마하 사의 상표이므로 어폐가 있다) 위 영상은 그 데모로, 설명에 의하면 조정을 하나도 안 거치고 음정과 가사만 입력시킨 (ベタ打ち) 결과라고 한다. 사실 딥 뉴럴 네트워크가 여러 결과물을 내놓는 것을 보고 노래 합성 역시 시간문제이리라 생각했는데 드디어 그 결과물이 나오는 듯. 야마하 계열 보컬로이드의 경우 아무리 라이브러리가 잘 만들어져도 경험상 일일이 조정하는 과정이 필요했기 때문에 실사용이 가능하다면 굉장히 매력적인 소프트가 될 듯하다.

현재 일본어, 영어, 중국어로 데모가 제공되어 있다. 일본어 목소리는 CeVIO 프로젝트 캐릭터인 사토 사사라, 영어 목소리는 보컬로이드 IA의 목소리를 토대로 했다고. 이하는 위와 같은 데모송에서 반주와 믹스하기 전의 아카펠라 음원. 참고로 이 곡은 프린세스 프린세스의 “Diamonds”로 1989년 노래라고 한다.

이하는 비교대상으로, 기존 CeVIO 소프트웨어를 통해 얻은 결과물.

DTM Station에 실린 기사에 따르면 2019년 3월 개최되는 일본 음향학회 2019년 춘계 연구발표회에서 연구 성과를 발표할 예정. 제품화에 대해서는, 현재 상황으로선 GPU를 써도 시간이 소요되기 때문에 여러모로 검토 중이라고.

몇 달 전 일본 마이크로소프트에서 자사의 AI 캐릭터 린나의 딥 뉴럴 네트워크 음성 합성을 통해 만들어진 매우 그럴싸한 노래를 발표한 적이 있었는데, 린나의 케이스는 유저가 노래를 부르면 그 방식에 주어져있는 목소리를 덧입히는 식이라면 이쪽 결과물은 악보와 가사가 주어지면 음성이 합성되는 차이점이 있다고 한다.

2018년 7월 공개되었던 린나 오리지널송

트윗 타래를 정리. (2018년 12월 17일)

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중