![]()
클라우드 기반 혁신을 통한 음성 합성

원하는 목소리 식별


스크립트 생성


클라우드 레코딩 활용
=

AI로 구동되는 Crystal의 합성 음성
Crystal이란?
증강 인텔리전스 기업 iGenius는 더 많은 사람들이 업무에 인공지능(AI)을 활용하여 보다 스마트하고 신속한 의사결정을 내릴 수 있도록 한다는 목표로 Crystal이라는 데이터 인텔리전스용 가상 비서를 개발했습니다. Crystal은 여러 데이터 소스를 하나로 연결하여 사용자가 궁금한 점에 대해 실제 동료와 대화하는 것처럼 순수 자연어로 문답을 주고받을 수 있게 함으로써 데이터와 애널리틱스 분야의 사용자 경험을 혁신하였습니다.
Crystal은 사용자가 데이터 탐색에 쓰는 시간을 줄여줌으로써 관련성 높은 중요한 데이터에 더 많은 시간을 할애할 수 있도록 합니다. 이는 조직 내 모든 단계에서 의사결정 방식의 자율성을 강화하고 데이터를 보강 및 증강하며 운영 효율성을 개선하고 매출을 증대할 수 있습니다. iGenius는 Crystal에 맞는 고유한 합성 음성을 개발 및 적용하기 위해 TransPerfect의 AI 데이터 솔루션 사업부인 DataForce와 오디오/비디오 사업부인 MediaNEXT에 지원을 요청했습니다.
혁신을 통한 장애물 극복
이 프로젝트는 팬데믹이 정점에 달했을 때 시작되었습니다. 스튜디오는 여기저기에서 문을 닫았고, 성우들은 외출을 하지 못했으며, 미디어 산업은 침체기를 겪고 있었습니다. iGenius는 Crystal의 목소리를 녹음해야 했지만, 방법이 마땅치 않았습니다. iGenius는 TransPerfect의 하이브리드 클라우드 기반 레코딩 솔루션인 StudioNEXT의 도움을 요청했습니다. 성우는 스튜디오로 출근하여 각종 장비를 세팅하고 사람들과 접촉할 필요 없이 이 플랫폼을 사용하여 자택에서 편하게 녹음할 수 있었습니다. 개발팀은 사내 클라우드 기반 기술만으로 Crystal의 음성을 합성하고, iGenius 프로젝트의 구체적 요구 사항에 맞게 조정하고 프로듀싱할 수 있었습니다.
음성 구축
TransPerfect는 Crystal의 목소리를 복제하기 위해 성우가 녹음한 여러 개의 파일을 사용하여 텍스트 음성 변환 엔진을 훈련했습니다. 그 과정에서 이러한 녹음 파일들은 AI 모델에 입력되고, AI는 각 문장을 일련의 소리로 취급하는 방식으로 음성 언어의 확률론적 모델을 학습하게 됩니다. 그런 다음에는 코퍼스 언어학에서 표준 코퍼스를 필터링하는 알고리즘을 만들어 Crystal의 음성을 생성해냈습니다. 원격 환경에서 내부 소프트웨어만으로도 실제 성우의 음성과 AI 기술을 원활히 통합할 수 있었습니다.
"
우리 팀에게 중요한 과제는 고객에게 귀를 기울여 요구 사항을 파악하며, 리서치를 통해 고객의 업무 환경을 이해하여 고객의 기대를 뛰어넘는 결과를 도출하는 것이었습니다. DataForce와 MediaNEXT를 사용하여 고객의 기대치를 모두 충족하는 솔루션을 찾을 수 있어서 만족스러웠습니다.
Fred Bane, TransPerfect 데이터 과학자
"
• • • • 텍스트와 음성을 연결 • • • •

1단계 — 음성
가상 비서의 목소리는 브랜드의 얼굴과도 같습니다. Crystal은 얼굴이 없지만, 개발팀은 그녀의 목소리만으로도 특정한 느낌, 분위기, 그리고 강렬한 첫인상을 구현해내야 했습니다. TransPerfect는 합성 음성을 생성하는 과정에서 언어 전문가 및 음성학자로 구성된 MediaNEXT와 DataForce의 방대한 데이터베이스를 활용했고, iGenius는 다양한 성우와 스타일의 샘플을 선별했습니다. iGenius는 다양한 옵션과 억양 및 말버릇을 검토하여 Crystal에게 어울리는 목소리를 특정해 내었습니다.

단계 2 — 스크립트
DataForce와 iGenius는 함께 협력하여 스크립트의 전체 길이, 문장의 수, 각 문장의 발화 시간 등을 파악했으며, 무엇보다 코퍼스의 음소에서 영어 음소의 전반적 분포와 일치하는 특정한 균형을 식별하는 데 주력했습니다.
![]()
STEP 3 — 녹음
개발팀은 Crystal의 목소리가 되어준 성우, Jennifer와 협력하여 StudioNEXT를 통해 원격 환경에서 스크립트를 음성화하였습니다. Jennifer는 클라우드 레코딩 키트를 사용하여 어디에서 녹음을 중단했는지 신경 쓸 필요 없이 자유롭게 로그인/로그아웃할 수 있었고, 모든 레코딩은 클라우드에 업로드되었습니다. 이는 선례가 없는 작업 방식이었고 당시 Jennifer가 거주하던 건물에 공사 소음이 발생하고 있는 상황이었는데도 레코딩 키트를 조용한 위치로 옮겨서 어렵지 않게 프로젝트를 완료하는 것이 가능했습니다.
"
iGenius 연구 부서의 주요 목표는 주력 제품인 Crystal을 위해 맞춤화된 합성 음성을 생성하는 것이었습니다. 저는 TransPerfect의 DataForce 계정 담당자인 Sofia Silva와 LinkedIn에서 맺은 인맥 덕분에 이 아이디어를 실현할 수 있었습니다. DataForce 및 MediaNEXT와의 협업을 통해 음성적으로 균형 잡힌 문장으로 구성된 대규모 데이터세트와 이를 위한 고품질 오디오 클립을 생성한 다음 텍스트 음성 변환 기능의 고성능 AI 모델을 훈련시킬 수 있다는 확신을 갖게 되었습니다.
Marco Bocchio 박사, iGenius 머신러닝 및 데이터 사이언스 팀장
"
결과
iGenius는 데이터 탐색 및 애널리틱스 뿐만 아니라 고객의 전반적인 경험까지 향상시켜줄 수 있는 목소리를 찾고 있었습니다. 그렇게 탄생한 Crystal은 고객들이 마치 동료와 대화를 나누는 것처럼 자연스럽게 소통할 수 있는 합성된 인간의 음성을 제공합니다. iGenius와 DataForce 및 MediaNEXT의 공동 작업을 통해 맞춤형 하이브리드 솔루션으로 합성 음성이라는 개념을 현실로 구현했습니다.
DataForce는 전 세계적으로 1,000,000명 이상의 회원과 250개 이상의 언어를 지원하는 언어 전문가로 구성된 글로벌 커뮤니티를 보유하고 있습니다. DataForce는 자체 플랫폼이지만 고객 혹은 타사 도구도 활용할 수 있습니다. 이런 방식으로 고객 데이터를 빈틈없이 관리합니다.